diff --git "a/actions-runner/_work/RWKV-infctx-trainer/RWKV-infctx-trainer/output/experiment/rwkv-x-exp/v5-headsize2x/v5-L6-D4096-E1e-1-ctx4k-part1.ipynb" "b/actions-runner/_work/RWKV-infctx-trainer/RWKV-infctx-trainer/output/experiment/rwkv-x-exp/v5-headsize2x/v5-L6-D4096-E1e-1-ctx4k-part1.ipynb"
new file mode 100644--- /dev/null
+++ "b/actions-runner/_work/RWKV-infctx-trainer/RWKV-infctx-trainer/output/experiment/rwkv-x-exp/v5-headsize2x/v5-L6-D4096-E1e-1-ctx4k-part1.ipynb"
@@ -0,0 +1,116224 @@
+{
+ "cells": [
+  {
+   "attachments": {},
+   "cell_type": "markdown",
+   "id": "3cb7ba82",
+   "metadata": {
+    "papermill": {
+     "duration": 0.003253,
+     "end_time": "2023-08-28T18:45:25.049803",
+     "exception": false,
+     "start_time": "2023-08-28T18:45:25.046550",
+     "status": "completed"
+    },
+    "tags": []
+   },
+   "source": [
+    "# RWKV v5-headsize2x / embedding init-range 1e-01 / 4k\n",
+    "\n",
+    "- 6 layers\n",
+    "- 4096 embedding size\n",
+    "\n",
+    "Going through the modified memory training for v5 models, across various initial embedding model weights\n",
+    "\n",
+    "**Note:** This project assumes you have the rwkv-infctx conda env setup"
+   ]
+  },
+  {
+   "attachments": {},
+   "cell_type": "markdown",
+   "id": "4aba7083",
+   "metadata": {
+    "papermill": {
+     "duration": 0.002594,
+     "end_time": "2023-08-28T18:45:25.054857",
+     "exception": false,
+     "start_time": "2023-08-28T18:45:25.052263",
+     "status": "completed"
+    },
+    "tags": []
+   },
+   "source": [
+    "# Basic Setup"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 1,
+   "id": "b74e122f",
+   "metadata": {
+    "execution": {
+     "iopub.execute_input": "2023-08-28T18:45:25.060868Z",
+     "iopub.status.busy": "2023-08-28T18:45:25.060669Z",
+     "iopub.status.idle": "2023-08-28T18:45:25.776404Z",
+     "shell.execute_reply": "2023-08-28T18:45:25.775244Z"
+    },
+    "papermill": {
+     "duration": 0.720741,
+     "end_time": "2023-08-28T18:45:25.777978",
+     "exception": false,
+     "start_time": "2023-08-28T18:45:25.057237",
+     "status": "completed"
+    },
+    "tags": []
+   },
+   "outputs": [],
+   "source": [
+    "# First lets setup the various directories, and init the model\n",
+    "!mkdir -p ../../../../model/\n",
+    "!mkdir -p ../../../../datapath/\n",
+    "!mkdir -p ../../../../checkpoint/"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 2,
+   "id": "a8b3d9f6",
+   "metadata": {
+    "execution": {
+     "iopub.execute_input": "2023-08-28T18:45:25.784847Z",
+     "iopub.status.busy": "2023-08-28T18:45:25.784172Z",
+     "iopub.status.idle": "2023-08-28T18:45:28.697467Z",
+     "shell.execute_reply": "2023-08-28T18:45:28.696485Z"
+    },
+    "papermill": {
+     "duration": 2.918657,
+     "end_time": "2023-08-28T18:45:28.699319",
+     "exception": false,
+     "start_time": "2023-08-28T18:45:25.780662",
+     "status": "completed"
+    },
+    "tags": []
+   },
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\u001b[33mWARNING: Running pip as the 'root' user can result in broken permissions and conflicting behaviour with the system package manager. It is recommended to use a virtual environment instead: https://pip.pypa.io/warnings/venv\u001b[0m\u001b[33m\r\n",
+      "\u001b[0m"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r\n",
+      "\u001b[1m[\u001b[0m\u001b[34;49mnotice\u001b[0m\u001b[1;39;49m]\u001b[0m\u001b[39;49m A new release of pip is available: \u001b[0m\u001b[31;49m23.1.2\u001b[0m\u001b[39;49m -> \u001b[0m\u001b[32;49m23.2.1\u001b[0m\r\n",
+      "\u001b[1m[\u001b[0m\u001b[34;49mnotice\u001b[0m\u001b[1;39;49m]\u001b[0m\u001b[39;49m To update, run: \u001b[0m\u001b[32;49mpython3.11 -m pip install --upgrade pip\u001b[0m\r\n"
+     ]
+    }
+   ],
+   "source": [
+    "# Additional dependencies for eval stuff\n",
+    "!pip install -q aiocsv aiofiles"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 3,
+   "id": "68bfff15",
+   "metadata": {
+    "execution": {
+     "iopub.execute_input": "2023-08-28T18:45:28.706431Z",
+     "iopub.status.busy": "2023-08-28T18:45:28.706239Z",
+     "iopub.status.idle": "2023-08-28T18:45:28.712644Z",
+     "shell.execute_reply": "2023-08-28T18:45:28.711968Z"
+    },
+    "papermill": {
+     "duration": 0.011435,
+     "end_time": "2023-08-28T18:45:28.713756",
+     "exception": false,
+     "start_time": "2023-08-28T18:45:28.702321",
+     "status": "completed"
+    },
+    "tags": []
+   },
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "DEEPSPEED_STRAT: deepspeed_stage_1\n",
+      "ENABLE_WANDB: True\n",
+      "GPU_DEVICES: auto\n",
+      "NOTEBOOK_DIR: /actions-runner/_work/RWKV-infctx-trainer/RWKV-infctx-trainer/notebook/experiment/rwkv-x-exp/v5-headsize2x\n",
+      "INFERENCE_DIR: /actions-runner/_work/RWKV-infctx-trainer/RWKV-infctx-trainer/RWKV-v5headsize2x\n",
+      "TRAINER_DIR: /actions-runner/_work/RWKV-infctx-trainer/RWKV-infctx-trainer/RWKV-v5headsize2x\n",
+      "PROJECT_DIR: /actions-runner/_work/RWKV-infctx-trainer/RWKV-infctx-trainer\n"
+     ]
+    }
+   ],
+   "source": [
+    "DEEPSPEED_STRAT=\"deepspeed_stage_1\"\n",
+    "GPU_DEVICES=\"auto\"\n",
+    "ENABLE_WANDB=True\n",
+    "\n",
+    "RWKV_WAVENET_LAYERS=1\n",
+    "\n",
+    "EMBED_SCALE=0.1\n",
+    "EMBED_SCALE_LABEL=str(EMBED_SCALE).replace(\".\", \"_\")\n",
+    "\n",
+    "LAYER_COUNT=6\n",
+    "EMBED_DIM=4096\n",
+    "\n",
+    "WANDB_PREFIX=f\"v5-hs2x-L{LAYER_COUNT}-D{EMBED_DIM}-E{EMBED_SCALE}\"\n",
+    "FILENAME_PREFIX=f\"v5-hs2x-L{LAYER_COUNT}-D{EMBED_DIM}-E{EMBED_SCALE_LABEL}\"\n",
+    "\n",
+    "print(\"DEEPSPEED_STRAT:\", DEEPSPEED_STRAT)\n",
+    "print(\"ENABLE_WANDB:\", ENABLE_WANDB)\n",
+    "print(\"GPU_DEVICES:\", GPU_DEVICES)\n",
+    "\n",
+    "if ENABLE_WANDB:\n",
+    "    WANDB_MODE=\"online\"\n",
+    "else:\n",
+    "    WANDB_MODE=\"disabled\"\n",
+    "\n",
+    "# Computing the notebook, and various paths\n",
+    "import os\n",
+    "NOTEBOOK_DIR=os.path.dirname(os.path.abspath(\"__file__\"))\n",
+    "PROJECT_DIR=os.path.abspath(os.path.join(NOTEBOOK_DIR, \"../../../../\"))\n",
+    "TRAINER_DIR=os.path.abspath(os.path.join(PROJECT_DIR, \"./RWKV-v5headsize2x/\"))\n",
+    "INFERENCE_DIR=os.path.abspath(os.path.join(PROJECT_DIR, \"./RWKV-v5headsize2x/\"))\n",
+    "\n",
+    "print(\"NOTEBOOK_DIR:\", NOTEBOOK_DIR)\n",
+    "print(\"INFERENCE_DIR:\", INFERENCE_DIR)\n",
+    "print(\"TRAINER_DIR:\", TRAINER_DIR)\n",
+    "print(\"PROJECT_DIR:\", PROJECT_DIR)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 4,
+   "id": "d6d231c3",
+   "metadata": {
+    "execution": {
+     "iopub.execute_input": "2023-08-28T18:45:28.719844Z",
+     "iopub.status.busy": "2023-08-28T18:45:28.719677Z",
+     "iopub.status.idle": "2023-08-28T18:46:57.146232Z",
+     "shell.execute_reply": "2023-08-28T18:46:57.145151Z"
+    },
+    "papermill": {
+     "duration": 88.432008,
+     "end_time": "2023-08-28T18:46:57.148448",
+     "exception": false,
+     "start_time": "2023-08-28T18:45:28.716440",
+     "status": "completed"
+    },
+    "tags": []
+   },
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Setting ds_accelerator to cuda (auto detect)\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "[RWKV.model] Running RWKV model using 'torch-jit' with torch '2.0.1+cu118'\r\n",
+      "---- Initializing model ----\r\n",
+      "No of layers: 6\r\n",
+      "Embedding size: 4096\r\n",
+      "Output model path: ../model/L6-D4096-E0_1-neox-v5base-init.pth\r\n",
+      "Vocab size: 50277\r\n",
+      "Emb scale: 0.1\r\n",
+      "Note: this process takes a significant time (and ram) for large models\r\n",
+      "---- ----- ----\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "50277 4096  -0.1 emb.weight\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "4096  4096  1.0  blocks.0.att.receptance.weight\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "4096  4096  1.0  blocks.0.att.key.weight\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "4096  4096  1.0  blocks.0.att.value.weight\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "4096  4096  0    blocks.0.att.output.weight\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "16384 4096  1.0  blocks.0.ffn.key.weight\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "4096  4096  0    blocks.0.ffn.receptance.weight\r\n",
+      "4096  16384 0    blocks.0.ffn.value.weight\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "4096  4096  1.0  blocks.1.att.receptance.weight\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "4096  4096  1.0  blocks.1.att.key.weight\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "4096  4096  1.0  blocks.1.att.value.weight\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "4096  4096  0    blocks.1.att.output.weight\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "16384 4096  1.0  blocks.1.ffn.key.weight\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "4096  4096  0    blocks.1.ffn.receptance.weight\r\n",
+      "4096  16384 0    blocks.1.ffn.value.weight\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "4096  4096  1.0  blocks.2.att.receptance.weight\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "4096  4096  1.0  blocks.2.att.key.weight\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "4096  4096  1.0  blocks.2.att.value.weight\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "4096  4096  0    blocks.2.att.output.weight\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "16384 4096  1.0  blocks.2.ffn.key.weight\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "4096  4096  0    blocks.2.ffn.receptance.weight\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "4096  16384 0    blocks.2.ffn.value.weight\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "4096  4096  1.0  blocks.3.att.receptance.weight\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "4096  4096  1.0  blocks.3.att.key.weight\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "4096  4096  1.0  blocks.3.att.value.weight\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "4096  4096  0    blocks.3.att.output.weight\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "16384 4096  1.0  blocks.3.ffn.key.weight\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "4096  4096  0    blocks.3.ffn.receptance.weight\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "4096  16384 0    blocks.3.ffn.value.weight\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "4096  4096  1.0  blocks.4.att.receptance.weight\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "4096  4096  1.0  blocks.4.att.key.weight\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "4096  4096  1.0  blocks.4.att.value.weight\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "4096  4096  0    blocks.4.att.output.weight\r\n",
+      "16384 4096  1.0  blocks.4.ffn.key.weight\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "4096  4096  0    blocks.4.ffn.receptance.weight\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "4096  16384 0    blocks.4.ffn.value.weight\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "4096  4096  1.0  blocks.5.att.receptance.weight\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "4096  4096  1.0  blocks.5.att.key.weight\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "4096  4096  1.0  blocks.5.att.value.weight\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "4096  4096  0    blocks.5.att.output.weight\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "16384 4096  1.0  blocks.5.ffn.key.weight\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "4096  4096  0    blocks.5.ffn.receptance.weight\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "4096  16384 0    blocks.5.ffn.value.weight\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "50277 4096  0.5  head.weight\r\n"
+     ]
+    }
+   ],
+   "source": [
+    "# Init the model\n",
+    "!cd \"{TRAINER_DIR}\" && \\\n",
+    "    export RWKV_WAVENET_LAYERS=\"{RWKV_WAVENET_LAYERS}\" && \\\n",
+    "    python3 ./init_model.py \\\n",
+    "        --n_layer \"{LAYER_COUNT}\" --n_embd \"{EMBED_DIM}\" \\\n",
+    "        --emb-scale \"{EMBED_SCALE}\" \\\n",
+    "        --vocab_size neox --skip-if-exists \\\n",
+    "        \"../model/L{LAYER_COUNT}-D{EMBED_DIM}-E{EMBED_SCALE_LABEL}-neox-v5base-init.pth\""
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "b95d87fb",
+   "metadata": {
+    "papermill": {
+     "duration": 0.004479,
+     "end_time": "2023-08-28T18:46:57.159346",
+     "exception": false,
+     "start_time": "2023-08-28T18:46:57.154867",
+     "status": "completed"
+    },
+    "tags": []
+   },
+   "source": [
+    "## Enwiki Stage 1 : Foundation 4k model training"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 5,
+   "id": "fec23852",
+   "metadata": {
+    "execution": {
+     "iopub.execute_input": "2023-08-28T18:46:57.169965Z",
+     "iopub.status.busy": "2023-08-28T18:46:57.169753Z",
+     "iopub.status.idle": "2023-08-28T18:47:08.337785Z",
+     "shell.execute_reply": "2023-08-28T18:47:08.336964Z"
+    },
+    "papermill": {
+     "duration": 11.175653,
+     "end_time": "2023-08-28T18:47:08.339555",
+     "exception": false,
+     "start_time": "2023-08-28T18:46:57.163902",
+     "status": "completed"
+    },
+    "tags": []
+   },
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Found cached dataset parquet (/actions-runner/.cache/huggingface/datasets/teven___parquet/teven--enwiki_100k-1359e81b212c2dd6/0.0.0/14a00e99c0d15a23649d0db8944380ac81082d4b021f398733dd84f3a6c569a7)\r\n",
+      "\r",
+      "  0%|                                                     | 0/1 [00:00<?, ?it/s]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 54.18it/s]\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Loading cached processed dataset at /actions-runner/.cache/huggingface/datasets/teven___parquet/teven--enwiki_100k-1359e81b212c2dd6/0.0.0/14a00e99c0d15a23649d0db8944380ac81082d4b021f398733dd84f3a6c569a7/cache-ddfe836637577ca9_*_of_00064.arrow\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Loading cached processed dataset at /actions-runner/.cache/huggingface/datasets/teven___parquet/teven--enwiki_100k-1359e81b212c2dd6/0.0.0/14a00e99c0d15a23649d0db8944380ac81082d4b021f398733dd84f3a6c569a7/cache-4d4a43715cf9c5ec_*_of_00064.arrow\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Loading cached processed dataset at /actions-runner/.cache/huggingface/datasets/teven___parquet/teven--enwiki_100k-1359e81b212c2dd6/0.0.0/14a00e99c0d15a23649d0db8944380ac81082d4b021f398733dd84f3a6c569a7/cache-e272537be34aded3_*_of_00064.arrow\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Loading cached split indices for dataset at /actions-runner/.cache/huggingface/datasets/teven___parquet/teven--enwiki_100k-1359e81b212c2dd6/0.0.0/14a00e99c0d15a23649d0db8944380ac81082d4b021f398733dd84f3a6c569a7/cache-52422a63e6f04b92.arrow and /actions-runner/.cache/huggingface/datasets/teven___parquet/teven--enwiki_100k-1359e81b212c2dd6/0.0.0/14a00e99c0d15a23649d0db8944380ac81082d4b021f398733dd84f3a6c569a7/cache-2eab36f5d1f93a5f.arrow\r\n",
+      "\r",
+      "Saving the dataset (0/5 shards):   0%|         | 0/81487 [00:00<?, ? examples/s]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Saving the dataset (0/5 shards):   2%| | 2000/81487 [00:00<00:04, 17416.90 examp"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Saving the dataset (0/5 shards):   6%| | 5000/81487 [00:00<00:03, 19390.22 examp"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Saving the dataset (0/5 shards):  11%| | 9000/81487 [00:00<00:03, 20871.11 examp"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Saving the dataset (0/5 shards):  16%|▏| 13000/81487 [00:00<00:03, 21988.23 exam"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Saving the dataset (0/5 shards):  20%|▏| 16298/81487 [00:00<00:02, 22742.90 exam\r",
+      "Saving the dataset (1/5 shards):  20%|▏| 16298/81487 [00:00<00:02, 22742.90 exam"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Saving the dataset (1/5 shards):  25%|▏| 20298/81487 [00:00<00:02, 23146.06 exam"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Saving the dataset (1/5 shards):  30%|▎| 24298/81487 [00:01<00:02, 23988.48 exam"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Saving the dataset (1/5 shards):  35%|▎| 28298/81487 [00:01<00:02, 24634.22 exam"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Saving the dataset (1/5 shards):  40%|▍| 32298/81487 [00:01<00:02, 16909.97 exam\r",
+      "Saving the dataset (2/5 shards):  40%|▍| 32596/81487 [00:01<00:02, 16909.97 exam"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Saving the dataset (2/5 shards):  42%|▍| 34596/81487 [00:01<00:02, 17888.43 exam"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Saving the dataset (2/5 shards):  47%|▍| 38596/81487 [00:01<00:02, 20275.36 exam"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Saving the dataset (2/5 shards):  52%|▌| 42596/81487 [00:02<00:01, 22135.81 exam"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Saving the dataset (2/5 shards):  57%|▌| 46596/81487 [00:02<00:01, 23549.91 exam"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Saving the dataset (3/5 shards):  60%|▌| 48893/81487 [00:02<00:01, 23549.91 exam"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Saving the dataset (3/5 shards):  62%|▌| 50893/81487 [00:02<00:01, 24268.16 exam"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Saving the dataset (3/5 shards):  67%|▋| 54893/81487 [00:02<00:01, 25211.10 exam"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Saving the dataset (3/5 shards):  72%|▋| 58893/81487 [00:02<00:00, 25831.28 exam"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Saving the dataset (3/5 shards):  77%|▊| 62893/81487 [00:02<00:00, 26289.39 exam"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Saving the dataset (4/5 shards):  80%|▊| 65190/81487 [00:02<00:00, 26289.39 exam"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Saving the dataset (4/5 shards):  82%|▊| 67190/81487 [00:02<00:00, 26338.82 exam"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Saving the dataset (4/5 shards):  87%|▊| 71190/81487 [00:03<00:00, 27140.29 exam"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Saving the dataset (4/5 shards):  92%|▉| 75190/81487 [00:03<00:00, 27640.21 exam"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Saving the dataset (4/5 shards):  97%|▉| 79190/81487 [00:03<00:00, 27779.63 exam"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Saving the dataset (5/5 shards): 100%|█| 81487/81487 [00:03<00:00, 27779.63 exam\r",
+      "                                                                                \r",
+      "\r",
+      "Saving the dataset (0/1 shards):   0%|           | 0/410 [00:00<?, ? examples/s]\r",
+      "Saving the dataset (1/1 shards): 100%|█| 410/410 [00:00<00:00, 17797.12 examples\r",
+      "                                                                                \r"
+     ]
+    }
+   ],
+   "source": [
+    "# Lets preload the requried dataset \n",
+    "!cd \"{TRAINER_DIR}\" && \\\n",
+    "    python3 preload_datapath.py \"{NOTEBOOK_DIR}/v5base-enwiki-4k.yaml\""
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 6,
+   "id": "06ff9038",
+   "metadata": {
+    "execution": {
+     "iopub.execute_input": "2023-08-28T18:47:08.354226Z",
+     "iopub.status.busy": "2023-08-28T18:47:08.354048Z",
+     "iopub.status.idle": "2023-08-29T01:40:54.228982Z",
+     "shell.execute_reply": "2023-08-29T01:40:54.227841Z"
+    },
+    "papermill": {
+     "duration": 24825.884737,
+     "end_time": "2023-08-29T01:40:54.231443",
+     "exception": false,
+     "start_time": "2023-08-28T18:47:08.346706",
+     "status": "completed"
+    },
+    "tags": []
+   },
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Setting ds_accelerator to cuda (auto detect)\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "[RWKV.model] Running RWKV model using 'torch-jit' with torch '2.0.1+cu118'\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "/usr/local/lib/python3.11/dist-packages/lightning/pytorch/cli.py:484: UserWarning: LightningCLI's args parameter is intended to run from within Python like if it were from the command line. To prevent mistakes it is not recommended to provide both args and command line arguments, got: sys.argv[1:]=['fit', '-c', '/actions-runner/_work/RWKV-infctx-trainer/RWKV-infctx-trainer/notebook/experiment/rwkv-x-exp/v5-headsize2x/v5base-enwiki-4k.yaml', '--trainer.logger.init_args.name=v5-hs2x-L6-D4096-E0.1 - Enwiki-4k Foundation (train-ctx=4k, deepspeed_stage_1)', '--trainer.strategy=deepspeed_stage_1', '--trainer.devices=auto', '--trainer.callbacks.init_args.dirpath=../checkpoint/v5-hs2x-L6-D4096-E0_1-enwiki-4k/', '--model.load_model=../model/L6-D4096-E0_1-neox-v5base-init.pth', '--model.ctx_len=4096', '--model.bptt_learning_range=1'], args=['fit', '-c', '/actions-runner/_work/RWKV-infctx-trainer/RWKV-infctx-trainer/notebook/experiment/rwkv-x-exp/v5-headsize2x/v5base-enwiki-4k.yaml', '--trainer.logger.init_args.name=v5-hs2x-L6-D4096-E0.1 - Enwiki-4k Foundation (train-ctx=4k, deepspeed_stage_1)', '--trainer.strategy=deepspeed_stage_1', '--trainer.devices=auto', '--trainer.callbacks.init_args.dirpath=../checkpoint/v5-hs2x-L6-D4096-E0_1-enwiki-4k/', '--model.load_model=../model/L6-D4096-E0_1-neox-v5base-init.pth', '--model.ctx_len=4096', '--model.bptt_learning_range=1'].\r\n",
+      "  rank_zero_warn(\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "/usr/local/lib/python3.11/dist-packages/lightning/fabric/utilities/seed.py:39: UserWarning: No seed found, seed set to 3372187616\r\n",
+      "  rank_zero_warn(f\"No seed found, seed set to {seed}\")\r\n",
+      "Global seed set to 3372187616\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\u001b[34m\u001b[1mwandb\u001b[0m: Currently logged in as: \u001b[33mpicocreator\u001b[0m (\u001b[33mrwkv-x-dev\u001b[0m). Use \u001b[1m`wandb login --relogin`\u001b[0m to force relogin\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\u001b[34m\u001b[1mwandb\u001b[0m: Tracking run with wandb version 0.15.8\r\n",
+      "\u001b[34m\u001b[1mwandb\u001b[0m: Run data is saved locally in \u001b[35m\u001b[1m./wandb/run-20230828_184714-ai5tuqm9\u001b[0m\r\n",
+      "\u001b[34m\u001b[1mwandb\u001b[0m: Run \u001b[1m`wandb offline`\u001b[0m to turn off syncing.\r\n",
+      "\u001b[34m\u001b[1mwandb\u001b[0m: Syncing run \u001b[33mv5-hs2x-L6-D4096-E0.1 - Enwiki-4k Foundation (train-ctx=4k, deepspeed_stage_1)\u001b[0m\r\n",
+      "\u001b[34m\u001b[1mwandb\u001b[0m: ⭐️ View project at \u001b[34m\u001b[4mhttps://wandb.ai/rwkv-x-dev/RWKV-X-Experiments\u001b[0m\r\n",
+      "\u001b[34m\u001b[1mwandb\u001b[0m: 🚀 View run at \u001b[34m\u001b[4mhttps://wandb.ai/rwkv-x-dev/RWKV-X-Experiments/runs/ai5tuqm9\u001b[0m\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "GPU available: True (cuda), used: True\r\n",
+      "TPU available: False, using: 0 TPU cores\r\n",
+      "IPU available: False, using: 0 IPUs\r\n",
+      "HPU available: False, using: 0 HPUs\r\n",
+      "\r\n",
+      "\r\n",
+      "[RWKV.Trainer] Applying 'target_batch_size' with the following:\r\n",
+      "   - target_batch_size:       32\r\n",
+      "   - num_nodes:               1\r\n",
+      "   - num_devices:             8\r\n",
+      "   - accumulate_grad_batches: 4\r\n",
+      "   - effective_batch_size:    32\r\n",
+      "\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Found cached dataset parquet (/actions-runner/.cache/huggingface/datasets/teven___parquet/teven--enwiki_100k-1359e81b212c2dd6/0.0.0/14a00e99c0d15a23649d0db8944380ac81082d4b021f398733dd84f3a6c569a7)\r\n",
+      "\r",
+      "  0%|                                                     | 0/1 [00:00<?, ?it/s]\r",
+      "100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 55.10it/s]\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Loading cached processed dataset at /actions-runner/.cache/huggingface/datasets/teven___parquet/teven--enwiki_100k-1359e81b212c2dd6/0.0.0/14a00e99c0d15a23649d0db8944380ac81082d4b021f398733dd84f3a6c569a7/cache-ddfe836637577ca9_*_of_00064.arrow\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Loading cached processed dataset at /actions-runner/.cache/huggingface/datasets/teven___parquet/teven--enwiki_100k-1359e81b212c2dd6/0.0.0/14a00e99c0d15a23649d0db8944380ac81082d4b021f398733dd84f3a6c569a7/cache-4d4a43715cf9c5ec_*_of_00064.arrow\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Loading cached processed dataset at /actions-runner/.cache/huggingface/datasets/teven___parquet/teven--enwiki_100k-1359e81b212c2dd6/0.0.0/14a00e99c0d15a23649d0db8944380ac81082d4b021f398733dd84f3a6c569a7/cache-e272537be34aded3_*_of_00064.arrow\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Loading cached split indices for dataset at /actions-runner/.cache/huggingface/datasets/teven___parquet/teven--enwiki_100k-1359e81b212c2dd6/0.0.0/14a00e99c0d15a23649d0db8944380ac81082d4b021f398733dd84f3a6c569a7/cache-52422a63e6f04b92.arrow and /actions-runner/.cache/huggingface/datasets/teven___parquet/teven--enwiki_100k-1359e81b212c2dd6/0.0.0/14a00e99c0d15a23649d0db8944380ac81082d4b021f398733dd84f3a6c569a7/cache-2eab36f5d1f93a5f.arrow\r\n",
+      "\r",
+      "Saving the dataset (0/5 shards):   0%|         | 0/81487 [00:00<?, ? examples/s]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Saving the dataset (0/5 shards):   1%| | 1000/81487 [00:00<00:08, 9877.36 exampl"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Saving the dataset (0/5 shards):   6%| | 5000/81487 [00:00<00:04, 18879.97 examp"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Saving the dataset (0/5 shards):  11%| | 9000/81487 [00:00<00:03, 21493.60 examp"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Saving the dataset (0/5 shards):  16%|▏| 13000/81487 [00:00<00:03, 22278.19 examSetting ds_accelerator to cuda (auto detect)\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Setting ds_accelerator to cuda (auto detect)\r\n",
+      "Setting ds_accelerator to cuda (auto detect)\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Setting ds_accelerator to cuda (auto detect)\r\n",
+      "Setting ds_accelerator to cuda (auto detect)\r\n",
+      "Setting ds_accelerator to cuda (auto detect)\r\n",
+      "\r",
+      "Saving the dataset (0/5 shards):  20%|▏| 16298/81487 [00:00<00:02, 22695.11 exam"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Saving the dataset (1/5 shards):  20%|▏| 16298/81487 [00:00<00:02, 22695.11 exam"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Setting ds_accelerator to cuda (auto detect)\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Saving the dataset (1/5 shards):  25%|▏| 20298/81487 [00:01<00:03, 17477.72 exam"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "[RWKV.model] Running RWKV model using 'torch-jit' with torch '2.0.1+cu118'\r\n",
+      "[RWKV.model] Running RWKV model using 'torch-jit' with torch '2.0.1+cu118'\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "[RWKV.model] Running RWKV model using 'torch-jit' with torch '2.0.1+cu118'\r\n",
+      "[RWKV.model] Running RWKV model using 'torch-jit' with torch '2.0.1+cu118'\r\n",
+      "[RWKV.model] Running RWKV model using 'torch-jit' with torch '2.0.1+cu118'\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Saving the dataset (1/5 shards):  30%|▎| 24298/81487 [00:01<00:02, 19576.85 exam[RWKV.model] Running RWKV model using 'torch-jit' with torch '2.0.1+cu118'\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Saving the dataset (1/5 shards):  35%|▎| 28298/81487 [00:01<00:02, 21352.02 exam"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "[RWKV.model] Running RWKV model using 'torch-jit' with torch '2.0.1+cu118'\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Saving the dataset (1/5 shards):  40%|▍| 32298/81487 [00:01<00:02, 22452.46 exam"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Saving the dataset (2/5 shards):  40%|▍| 32596/81487 [00:01<00:02, 22452.46 exam"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Saving the dataset (2/5 shards):  45%|▍| 36596/81487 [00:01<00:02, 18159.63 exam"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "[rank: 7] Global seed set to 3372187616\r\n",
+      "[rank: 6] Global seed set to 3372187616\r\n",
+      "\r",
+      "Saving the dataset (2/5 shards):  50%|▍| 40596/81487 [00:02<00:02, 20175.31 exam"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "[rank: 4] Global seed set to 3372187616\r\n",
+      "[rank: 5] Global seed set to 3372187616\r\n",
+      "[rank: 1] Global seed set to 3372187616\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "[rank: 2] Global seed set to 3372187616\r\n",
+      "\r",
+      "Saving the dataset (2/5 shards):  55%|▌| 44596/81487 [00:02<00:01, 21875.61 exam"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "[rank: 3] Global seed set to 3372187616\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Saving the dataset (2/5 shards):  60%|▌| 48596/81487 [00:02<00:01, 23299.63 exam"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Saving the dataset (3/5 shards):  60%|▌| 48893/81487 [00:02<00:01, 23299.63 exam"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Saving the dataset (3/5 shards):  65%|▋| 52893/81487 [00:02<00:01, 17586.21 exam"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Saving the dataset (3/5 shards):  70%|▋| 56893/81487 [00:02<00:01, 20427.81 exam"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Saving the dataset (3/5 shards):  75%|▋| 60893/81487 [00:02<00:00, 22884.05 exam"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Saving the dataset (3/5 shards):  80%|▊| 64893/81487 [00:03<00:00, 25312.32 exam"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Saving the dataset (4/5 shards):  80%|▊| 65190/81487 [00:03<00:00, 25312.32 exam"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Saving the dataset (4/5 shards):  85%|▊| 69190/81487 [00:03<00:00, 18814.86 exam"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Saving the dataset (4/5 shards):  90%|▉| 73190/81487 [00:03<00:00, 20856.61 exam"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Saving the dataset (4/5 shards):  95%|▉| 77190/81487 [00:03<00:00, 22924.48 exam"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Saving the dataset (4/5 shards): 100%|▉| 81190/81487 [00:03<00:00, 24648.39 exam"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Saving the dataset (5/5 shards): 100%|█| 81487/81487 [00:03<00:00, 24648.39 exam\r",
+      "                                                                                \r",
+      "\r",
+      "Saving the dataset (0/1 shards):   0%|           | 0/410 [00:00<?, ? examples/s]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Saving the dataset (1/1 shards): 100%|█| 410/410 [00:00<00:00, 16494.95 examples\r",
+      "                                                                                \r"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "[rank: 0] Global seed set to 3372187616\r\n",
+      "initializing deepspeed distributed: GLOBAL_RANK: 0, MEMBER: 1/8\r\n",
+      "[2023-08-28 18:47:38,871] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "[rank: 6] Global seed set to 3372187616\r\n",
+      "initializing deepspeed distributed: GLOBAL_RANK: 6, MEMBER: 7/8\r\n",
+      "[2023-08-28 18:48:06,098] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "[rank: 1] Global seed set to 3372187616\r\n",
+      "initializing deepspeed distributed: GLOBAL_RANK: 1, MEMBER: 2/8\r\n",
+      "[2023-08-28 18:48:06,304] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "[rank: 2] Global seed set to 3372187616\r\n",
+      "initializing deepspeed distributed: GLOBAL_RANK: 2, MEMBER: 3/8\r\n",
+      "[2023-08-28 18:48:06,519] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "[rank: 4] Global seed set to 3372187616\r\n",
+      "initializing deepspeed distributed: GLOBAL_RANK: 4, MEMBER: 5/8\r\n",
+      "[2023-08-28 18:48:06,599] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "[rank: 3] Global seed set to 3372187616\r\n",
+      "initializing deepspeed distributed: GLOBAL_RANK: 3, MEMBER: 4/8\r\n",
+      "[2023-08-28 18:48:06,825] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "[rank: 7] Global seed set to 3372187616\r\n",
+      "initializing deepspeed distributed: GLOBAL_RANK: 7, MEMBER: 8/8\r\n",
+      "[2023-08-28 18:48:06,882] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented\r\n",
+      "[rank: 5] Global seed set to 3372187616\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "initializing deepspeed distributed: GLOBAL_RANK: 5, MEMBER: 6/8\r\n",
+      "[2023-08-28 18:48:06,901] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Enabling DeepSpeed BF16.\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "LOCAL_RANK: 0 - CUDA_VISIBLE_DEVICES: [0,1,2,3,4,5,6,7]\r\n",
+      "LOCAL_RANK: 1 - CUDA_VISIBLE_DEVICES: [0,1,2,3,4,5,6,7]\r\n",
+      "LOCAL_RANK: 2 - CUDA_VISIBLE_DEVICES: [0,1,2,3,4,5,6,7]\r\n",
+      "LOCAL_RANK: 7 - CUDA_VISIBLE_DEVICES: [0,1,2,3,4,5,6,7]\r\n",
+      "LOCAL_RANK: 4 - CUDA_VISIBLE_DEVICES: [0,1,2,3,4,5,6,7]\r\n",
+      "LOCAL_RANK: 5 - CUDA_VISIBLE_DEVICES: [0,1,2,3,4,5,6,7]\r\n",
+      "LOCAL_RANK: 6 - CUDA_VISIBLE_DEVICES: [0,1,2,3,4,5,6,7]\r\n",
+      "#\r\n",
+      "# RWKV lighting_trainer.py important notes \r\n",
+      "# https://github.com/RWKV/RWKV-infctx-trainer \r\n",
+      "#\r\n",
+      "# - Ensure your host is not running cuda 12.0 (use either 11.8, or >=12.1), as this is known to have freeze issues\r\n",
+      "# - The terms used in wandb / the progress bar can be confusing, see the github README.md for beter clarifications\r\n",
+      "# - When resuming from checkpoint, the estimated time is inaccurate\r\n",
+      "#\r\n",
+      "LOCAL_RANK: 3 - CUDA_VISIBLE_DEVICES: [0,1,2,3,4,5,6,7]\r\n",
+      "\r\n",
+      "[RWKV.model] Configuring optimizer with\r\n",
+      "    - lr_init:  6.000e-04 (0.0006)\r\n",
+      "    - lr_final: 4.000e-04 (0.0004)\r\n",
+      "\r\n",
+      "Using /root/.cache/torch_extensions/py311_cu118 as PyTorch extensions root...\r\n",
+      "Using /root/.cache/torch_extensions/py311_cu118 as PyTorch extensions root...\r\n",
+      "Using /root/.cache/torch_extensions/py311_cu118 as PyTorch extensions root...\r\n",
+      "Using /root/.cache/torch_extensions/py311_cu118 as PyTorch extensions root...\r\n",
+      "Using /root/.cache/torch_extensions/py311_cu118 as PyTorch extensions root...\r\n",
+      "Using /root/.cache/torch_extensions/py311_cu118 as PyTorch extensions root...\r\n",
+      "Using /root/.cache/torch_extensions/py311_cu118 as PyTorch extensions root...\r\n",
+      "Using /root/.cache/torch_extensions/py311_cu118 as PyTorch extensions root...\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Detected CUDA files, patching ldflags\r\n",
+      "Emitting ninja build file /root/.cache/torch_extensions/py311_cu118/fused_adam/build.ninja...\r\n",
+      "Building extension module fused_adam...\r\n",
+      "Allowing ninja to set a default number of workers... (overridable by setting the environment variable MAX_JOBS=N)\r\n",
+      "ninja: no work to do.\r\n",
+      "Loading extension module fused_adam...\r\n",
+      "Time to load fused_adam op: 0.07090473175048828 seconds\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Loading extension module fused_adam...\r\n",
+      "Loading extension module fused_adam...\r\n",
+      "Loading extension module fused_adam...\r\n",
+      "Loading extension module fused_adam...\r\n",
+      "Loading extension module fused_adam...\r\n",
+      "Time to load fused_adam op: 0.10126924514770508 seconds\r\n",
+      "Time to load fused_adam op: 0.10122466087341309 seconds\r\n",
+      "Loading extension module fused_adam...\r\n",
+      "Loading extension module fused_adam...\r\n",
+      "Time to load fused_adam op: 0.10141754150390625 seconds\r\n",
+      "Time to load fused_adam op: 0.1015462875366211 seconds\r\n",
+      "Time to load fused_adam op: 0.10146403312683105 seconds\r\n",
+      "Time to load fused_adam op: 0.10181498527526855 seconds\r\n",
+      "Time to load fused_adam op: 0.10191535949707031 seconds\r\n",
+      "Loading `train_dataloader` to estimate number of stepping batches.\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Using /root/.cache/torch_extensions/py311_cu118 as PyTorch extensions root...\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Using /root/.cache/torch_extensions/py311_cu118 as PyTorch extensions root...\r\n",
+      "Using /root/.cache/torch_extensions/py311_cu118 as PyTorch extensions root...\r\n",
+      "Using /root/.cache/torch_extensions/py311_cu118 as PyTorch extensions root...\r\n",
+      "Using /root/.cache/torch_extensions/py311_cu118 as PyTorch extensions root...\r\n",
+      "Using /root/.cache/torch_extensions/py311_cu118 as PyTorch extensions root...\r\n",
+      "Using /root/.cache/torch_extensions/py311_cu118 as PyTorch extensions root...\r\n",
+      "Using /root/.cache/torch_extensions/py311_cu118 as PyTorch extensions root...\r\n",
+      "Emitting ninja build file /root/.cache/torch_extensions/py311_cu118/utils/build.ninja...\r\n",
+      "Building extension module utils...\r\n",
+      "Allowing ninja to set a default number of workers... (overridable by setting the environment variable MAX_JOBS=N)\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "ninja: no work to do.\r\n",
+      "Loading extension module utils...\r\n",
+      "Time to load utils op: 0.0714881420135498 seconds\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Loading extension module utils...\r\n",
+      "Loading extension module utils...\r\n",
+      "Time to load utils op: 0.10209321975708008 seconds\r\n",
+      "Time to load utils op: 0.10218286514282227 seconds\r\n",
+      "Loading extension module utils...\r\n",
+      "Loading extension module utils...\r\n",
+      "Loading extension module utils...\r\n",
+      "Loading extension module utils...\r\n",
+      "Loading extension module utils...\r\n",
+      "Time to load utils op: 0.1021718978881836 seconds\r\n",
+      "Time to load utils op: 0.10290384292602539 seconds\r\n",
+      "Time to load utils op: 0.10239219665527344 seconds\r\n",
+      "Time to load utils op: 0.10289859771728516 seconds\r\n",
+      "Time to load utils op: 0.10258913040161133 seconds\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Rank: 2 partition count [8, 8] and sizes[(215097344, False), (48, False)] \r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Rank: 1 partition count [8, 8] and sizes[(215097344, False), (48, False)] \r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Rank: 7 partition count [8, 8] and sizes[(215097344, False), (48, False)] \r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Rank: 3 partition count [8, 8] and sizes[(215097344, False), (48, False)] \r\n",
+      "Rank: 5 partition count [8, 8] and sizes[(215097344, False), (48, False)] \r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Rank: 4 partition count [8, 8] and sizes[(215097344, False), (48, False)] \r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Rank: 6 partition count [8, 8] and sizes[(215097344, False), (48, False)] \r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Rank: 0 partition count [8, 8] and sizes[(215097344, False), (48, False)] \r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Using /root/.cache/torch_extensions/py311_cu118 as PyTorch extensions root...\r\n",
+      "No modifications detected for re-loaded extension module utils, skipping build step...\r\n",
+      "Loading extension module utils...\r\n",
+      "Time to load utils op: 0.0005891323089599609 seconds\r\n",
+      "Using /root/.cache/torch_extensions/py311_cu118 as PyTorch extensions root...\r\n",
+      "No modifications detected for re-loaded extension module utils, skipping build step...\r\n",
+      "Loading extension module utils...\r\n",
+      "Time to load utils op: 0.00074005126953125 seconds\r\n",
+      "Using /root/.cache/torch_extensions/py311_cu118 as PyTorch extensions root...\r\n",
+      "No modifications detected for re-loaded extension module utils, skipping build step...\r\n",
+      "Loading extension module utils...\r\n",
+      "Using /root/.cache/torch_extensions/py311_cu118 as PyTorch extensions root...\r\n",
+      "Time to load utils op: 0.0006580352783203125 seconds\r\n",
+      "No modifications detected for re-loaded extension module utils, skipping build step...\r\n",
+      "Loading extension module utils...\r\n",
+      "Time to load utils op: 0.0008976459503173828 seconds\r\n",
+      "Using /root/.cache/torch_extensions/py311_cu118 as PyTorch extensions root...\r\n",
+      "No modifications detected for re-loaded extension module utils, skipping build step...\r\n",
+      "Loading extension module utils...\r\n",
+      "Time to load utils op: 0.0006477832794189453 seconds\r\n",
+      "Using /root/.cache/torch_extensions/py311_cu118 as PyTorch extensions root...\r\n",
+      "No modifications detected for re-loaded extension module utils, skipping build step...\r\n",
+      "Loading extension module utils...\r\n",
+      "Time to load utils op: 0.0007245540618896484 seconds\r\n",
+      "Using /root/.cache/torch_extensions/py311_cu118 as PyTorch extensions root...\r\n",
+      "No modifications detected for re-loaded extension module utils, skipping build step...\r\n",
+      "Loading extension module utils...\r\n",
+      "Time to load utils op: 0.0014486312866210938 seconds\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Using /root/.cache/torch_extensions/py311_cu118 as PyTorch extensions root...\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "No modifications detected for re-loaded extension module utils, skipping build step...\r\n",
+      "Loading extension module utils...\r\n",
+      "Time to load utils op: 0.0009706020355224609 seconds\r\n",
+      "\r\n",
+      "  | Name   | Type       | Params\r\n",
+      "--------------------------------------\r\n",
+      "0 | emb    | Embedding  | 205 M \r\n",
+      "1 | blocks | ModuleList | 1.3 B \r\n",
+      "2 | ln_out | LayerNorm  | 8.2 K \r\n",
+      "3 | head   | Linear     | 205 M \r\n",
+      "--------------------------------------\r\n",
+      "1.7 B     Trainable params\r\n",
+      "0         Non-trainable params\r\n",
+      "1.7 B     Total params\r\n",
+      "6,883.117 Total estimated model params size (MB)\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Training: 0it [00:00, ?it/s]\r",
+      "Training:   0%|                                       | 0/10186 [00:00<?, ?it/s]\r",
+      "Epoch 0:   0%|                                        | 0/10186 [00:00<?, ?it/s]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   0%|                             | 1/10186 [00:14<40:30:22, 14.32s/it]\r",
+      "Epoch 0:   0%| | 1/10186 [00:14<40:30:38, 14.32s/it, v_num=uqm9, train/loss=10.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   0%| | 2/10186 [00:15<21:43:09,  7.68s/it, v_num=uqm9, train/loss=10.9\r",
+      "Epoch 0:   0%| | 2/10186 [00:15<21:43:13,  7.68s/it, v_num=uqm9, train/loss=10.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   0%| | 3/10186 [00:16<15:26:53,  5.46s/it, v_num=uqm9, train/loss=10.9\r",
+      "Epoch 0:   0%| | 3/10186 [00:16<15:26:56,  5.46s/it, v_num=uqm9, train/loss=10.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   0%| | 4/10186 [00:20<14:43:17,  5.21s/it, v_num=uqm9, train/loss=10.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   0%| | 4/10186 [00:22<16:02:37,  5.67s/it, v_num=uqm9, train/loss=10.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   0%| | 5/10186 [00:23<13:25:17,  4.75s/it, v_num=uqm9, train/loss=10.9\r",
+      "Epoch 0:   0%| | 5/10186 [00:23<13:25:18,  4.75s/it, v_num=uqm9, train/loss=11.2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   0%| | 6/10186 [00:24<11:40:21,  4.13s/it, v_num=uqm9, train/loss=11.2\r",
+      "Epoch 0:   0%| | 6/10186 [00:24<11:40:23,  4.13s/it, v_num=uqm9, train/loss=11.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   0%| | 7/10186 [00:25<10:25:31,  3.69s/it, v_num=uqm9, train/loss=11.6\r",
+      "Epoch 0:   0%| | 7/10186 [00:25<10:25:33,  3.69s/it, v_num=uqm9, train/loss=11.2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   0%| | 8/10186 [00:30<10:43:43,  3.79s/it, v_num=uqm9, train/loss=11.2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   0%| | 8/10186 [00:32<11:23:52,  4.03s/it, v_num=uqm9, train/loss=11.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   0%| | 9/10186 [00:33<10:27:12,  3.70s/it, v_num=uqm9, train/loss=11.1\r",
+      "Epoch 0:   0%| | 9/10186 [00:33<10:27:12,  3.70s/it, v_num=uqm9, train/loss=10.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   0%| | 10/10186 [00:34<9:42:02,  3.43s/it, v_num=uqm9, train/loss=10.5\r",
+      "Epoch 0:   0%| | 10/10186 [00:34<9:42:03,  3.43s/it, v_num=uqm9, train/loss=10.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   0%| | 11/10186 [00:35<9:05:05,  3.21s/it, v_num=uqm9, train/loss=10.7\r",
+      "Epoch 0:   0%| | 11/10186 [00:35<9:05:06,  3.21s/it, v_num=uqm9, train/loss=10.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   0%| | 12/10186 [00:41<9:50:34,  3.48s/it, v_num=uqm9, train/loss=10.8\r",
+      "Epoch 0:   0%| | 12/10186 [00:41<9:50:35,  3.48s/it, v_num=uqm9, train/loss=10.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   0%| | 13/10186 [00:42<9:18:30,  3.29s/it, v_num=uqm9, train/loss=10.7\r",
+      "Epoch 0:   0%| | 13/10186 [00:42<9:18:31,  3.29s/it, v_num=uqm9, train/loss=9.62"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   0%| | 14/10186 [00:43<8:51:13,  3.13s/it, v_num=uqm9, train/loss=9.62\r",
+      "Epoch 0:   0%| | 14/10186 [00:43<8:51:13,  3.13s/it, v_num=uqm9, train/loss=9.56"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   0%| | 15/10186 [00:44<8:27:31,  2.99s/it, v_num=uqm9, train/loss=9.56\r",
+      "Epoch 0:   0%| | 15/10186 [00:44<8:27:32,  2.99s/it, v_num=uqm9, train/loss=9.38"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   0%| | 16/10186 [00:51<9:03:46,  3.21s/it, v_num=uqm9, train/loss=9.38\r",
+      "Epoch 0:   0%| | 16/10186 [00:51<9:03:47,  3.21s/it, v_num=uqm9, train/loss=9.44"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   0%| | 17/10186 [00:52<8:42:52,  3.09s/it, v_num=uqm9, train/loss=9.44\r",
+      "Epoch 0:   0%| | 17/10186 [00:52<8:42:52,  3.09s/it, v_num=uqm9, train/loss=9.06"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   0%| | 18/10186 [00:53<8:23:34,  2.97s/it, v_num=uqm9, train/loss=9.06\r",
+      "Epoch 0:   0%| | 18/10186 [00:53<8:23:34,  2.97s/it, v_num=uqm9, train/loss=9.00"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   0%| | 19/10186 [00:54<8:06:19,  2.87s/it, v_num=uqm9, train/loss=9.00\r",
+      "Epoch 0:   0%| | 19/10186 [00:54<8:06:19,  2.87s/it, v_num=uqm9, train/loss=8.94"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   0%| | 20/10186 [01:00<8:36:16,  3.05s/it, v_num=uqm9, train/loss=8.94\r",
+      "Epoch 0:   0%| | 20/10186 [01:00<8:36:17,  3.05s/it, v_num=uqm9, train/loss=9.25"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   0%| | 21/10186 [01:01<8:19:58,  2.95s/it, v_num=uqm9, train/loss=9.25\r",
+      "Epoch 0:   0%| | 21/10186 [01:01<8:19:58,  2.95s/it, v_num=uqm9, train/loss=9.06"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   0%| | 22/10186 [01:03<8:05:13,  2.86s/it, v_num=uqm9, train/loss=9.06\r",
+      "Epoch 0:   0%| | 22/10186 [01:03<8:05:13,  2.86s/it, v_num=uqm9, train/loss=8.94"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   0%| | 23/10186 [01:04<7:51:46,  2.79s/it, v_num=uqm9, train/loss=8.94\r",
+      "Epoch 0:   0%| | 23/10186 [01:04<7:51:47,  2.79s/it, v_num=uqm9, train/loss=9.25"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   0%| | 24/10186 [01:10<8:18:18,  2.94s/it, v_num=uqm9, train/loss=9.25\r",
+      "Epoch 0:   0%| | 24/10186 [01:10<8:18:19,  2.94s/it, v_num=uqm9, train/loss=9.12"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   0%| | 25/10186 [01:11<8:05:19,  2.87s/it, v_num=uqm9, train/loss=9.12\r",
+      "Epoch 0:   0%| | 25/10186 [01:11<8:05:20,  2.87s/it, v_num=uqm9, train/loss=9.25"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   0%| | 26/10186 [01:12<7:53:25,  2.80s/it, v_num=uqm9, train/loss=9.25\r",
+      "Epoch 0:   0%| | 26/10186 [01:12<7:53:25,  2.80s/it, v_num=uqm9, train/loss=9.38"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   0%| | 27/10186 [01:13<7:42:23,  2.73s/it, v_num=uqm9, train/loss=9.38\r",
+      "Epoch 0:   0%| | 27/10186 [01:13<7:42:23,  2.73s/it, v_num=uqm9, train/loss=9.38"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   0%| | 28/10186 [01:20<8:04:38,  2.86s/it, v_num=uqm9, train/loss=9.38\r",
+      "Epoch 0:   0%| | 28/10186 [01:20<8:04:39,  2.86s/it, v_num=uqm9, train/loss=9.94"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   0%| | 29/10186 [01:21<7:53:55,  2.80s/it, v_num=uqm9, train/loss=9.94\r",
+      "Epoch 0:   0%| | 29/10186 [01:21<7:53:55,  2.80s/it, v_num=uqm9, train/loss=9.50"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   0%| | 30/10186 [01:22<7:43:59,  2.74s/it, v_num=uqm9, train/loss=9.50\r",
+      "Epoch 0:   0%| | 30/10186 [01:22<7:43:59,  2.74s/it, v_num=uqm9, train/loss=9.56"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   0%| | 31/10186 [01:23<7:34:41,  2.69s/it, v_num=uqm9, train/loss=9.56\r",
+      "Epoch 0:   0%| | 31/10186 [01:23<7:34:41,  2.69s/it, v_num=uqm9, train/loss=9.62"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   0%| | 32/10186 [01:29<7:54:28,  2.80s/it, v_num=uqm9, train/loss=9.62\r",
+      "Epoch 0:   0%| | 32/10186 [01:29<7:54:28,  2.80s/it, v_num=uqm9, train/loss=9.56"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   0%| | 33/10186 [01:30<7:45:21,  2.75s/it, v_num=uqm9, train/loss=9.56\r",
+      "Epoch 0:   0%| | 33/10186 [01:30<7:45:21,  2.75s/it, v_num=uqm9, train/loss=9.25"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   0%| | 34/10186 [01:31<7:36:50,  2.70s/it, v_num=uqm9, train/loss=9.25\r",
+      "Epoch 0:   0%| | 34/10186 [01:31<7:36:50,  2.70s/it, v_num=uqm9, train/loss=9.31"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   0%| | 35/10186 [01:32<7:28:47,  2.65s/it, v_num=uqm9, train/loss=9.31\r",
+      "Epoch 0:   0%| | 35/10186 [01:32<7:28:47,  2.65s/it, v_num=uqm9, train/loss=9.44"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   0%| | 36/10186 [01:39<7:46:27,  2.76s/it, v_num=uqm9, train/loss=9.44\r",
+      "Epoch 0:   0%| | 36/10186 [01:39<7:46:27,  2.76s/it, v_num=uqm9, train/loss=9.38"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   0%| | 37/10186 [01:40<7:38:31,  2.71s/it, v_num=uqm9, train/loss=9.38\r",
+      "Epoch 0:   0%| | 37/10186 [01:40<7:38:31,  2.71s/it, v_num=uqm9, train/loss=9.25"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   0%| | 38/10186 [01:41<7:31:03,  2.67s/it, v_num=uqm9, train/loss=9.25\r",
+      "Epoch 0:   0%| | 38/10186 [01:41<7:31:03,  2.67s/it, v_num=uqm9, train/loss=9.06"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   0%| | 39/10186 [01:42<7:23:57,  2.63s/it, v_num=uqm9, train/loss=9.06\r",
+      "Epoch 0:   0%| | 39/10186 [01:42<7:23:57,  2.63s/it, v_num=uqm9, train/loss=8.81"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   0%| | 40/10186 [01:48<7:40:05,  2.72s/it, v_num=uqm9, train/loss=8.81\r",
+      "Epoch 0:   0%| | 40/10186 [01:48<7:40:05,  2.72s/it, v_num=uqm9, train/loss=9.31"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   0%| | 41/10186 [01:49<7:33:05,  2.68s/it, v_num=uqm9, train/loss=9.31\r",
+      "Epoch 0:   0%| | 41/10186 [01:49<7:33:05,  2.68s/it, v_num=uqm9, train/loss=9.38"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   0%| | 42/10186 [01:50<7:26:28,  2.64s/it, v_num=uqm9, train/loss=9.38\r",
+      "Epoch 0:   0%| | 42/10186 [01:50<7:26:28,  2.64s/it, v_num=uqm9, train/loss=9.12"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   0%| | 43/10186 [01:51<7:20:08,  2.60s/it, v_num=uqm9, train/loss=9.12\r",
+      "Epoch 0:   0%| | 43/10186 [01:51<7:20:09,  2.60s/it, v_num=uqm9, train/loss=9.06"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   0%| | 44/10186 [01:58<7:34:46,  2.69s/it, v_num=uqm9, train/loss=9.06\r",
+      "Epoch 0:   0%| | 44/10186 [01:58<7:34:46,  2.69s/it, v_num=uqm9, train/loss=9.19"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   0%| | 45/10186 [01:59<7:28:29,  2.65s/it, v_num=uqm9, train/loss=9.19\r",
+      "Epoch 0:   0%| | 45/10186 [01:59<7:28:30,  2.65s/it, v_num=uqm9, train/loss=8.81"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   0%| | 46/10186 [02:00<7:22:32,  2.62s/it, v_num=uqm9, train/loss=8.81\r",
+      "Epoch 0:   0%| | 46/10186 [02:00<7:22:32,  2.62s/it, v_num=uqm9, train/loss=8.94"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   0%| | 47/10186 [02:01<7:16:49,  2.59s/it, v_num=uqm9, train/loss=8.94\r",
+      "Epoch 0:   0%| | 47/10186 [02:01<7:16:49,  2.59s/it, v_num=uqm9, train/loss=8.88"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   0%| | 48/10186 [02:07<7:30:22,  2.67s/it, v_num=uqm9, train/loss=8.88\r",
+      "Epoch 0:   0%| | 48/10186 [02:07<7:30:22,  2.67s/it, v_num=uqm9, train/loss=8.88"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   0%| | 49/10186 [02:08<7:24:40,  2.63s/it, v_num=uqm9, train/loss=8.88\r",
+      "Epoch 0:   0%| | 49/10186 [02:08<7:24:40,  2.63s/it, v_num=uqm9, train/loss=8.69"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   0%| | 50/10186 [02:10<7:19:16,  2.60s/it, v_num=uqm9, train/loss=8.69\r",
+      "Epoch 0:   0%| | 50/10186 [02:10<7:19:16,  2.60s/it, v_num=uqm9, train/loss=8.88"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 51/10186 [02:11<7:14:03,  2.57s/it, v_num=uqm9, train/loss=8.88\r",
+      "Epoch 0:   1%| | 51/10186 [02:11<7:14:03,  2.57s/it, v_num=uqm9, train/loss=8.75"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 52/10186 [02:17<7:26:35,  2.64s/it, v_num=uqm9, train/loss=8.75\r",
+      "Epoch 0:   1%| | 52/10186 [02:17<7:26:35,  2.64s/it, v_num=uqm9, train/loss=8.69"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 53/10186 [02:18<7:21:24,  2.61s/it, v_num=uqm9, train/loss=8.69\r",
+      "Epoch 0:   1%| | 53/10186 [02:18<7:21:24,  2.61s/it, v_num=uqm9, train/loss=8.50"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 54/10186 [02:19<7:16:28,  2.58s/it, v_num=uqm9, train/loss=8.50\r",
+      "Epoch 0:   1%| | 54/10186 [02:19<7:16:28,  2.58s/it, v_num=uqm9, train/loss=8.75"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 55/10186 [02:20<7:11:42,  2.56s/it, v_num=uqm9, train/loss=8.75\r",
+      "Epoch 0:   1%| | 55/10186 [02:20<7:11:42,  2.56s/it, v_num=uqm9, train/loss=8.62"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 56/10186 [02:27<7:23:37,  2.63s/it, v_num=uqm9, train/loss=8.62\r",
+      "Epoch 0:   1%| | 56/10186 [02:27<7:23:37,  2.63s/it, v_num=uqm9, train/loss=8.56"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 57/10186 [02:28<7:18:51,  2.60s/it, v_num=uqm9, train/loss=8.56\r",
+      "Epoch 0:   1%| | 57/10186 [02:28<7:18:51,  2.60s/it, v_num=uqm9, train/loss=8.75"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 58/10186 [02:29<7:14:21,  2.57s/it, v_num=uqm9, train/loss=8.75\r",
+      "Epoch 0:   1%| | 58/10186 [02:29<7:14:21,  2.57s/it, v_num=uqm9, train/loss=8.25"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 59/10186 [02:30<7:09:55,  2.55s/it, v_num=uqm9, train/loss=8.25\r",
+      "Epoch 0:   1%| | 59/10186 [02:30<7:09:56,  2.55s/it, v_num=uqm9, train/loss=8.44"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 60/10186 [02:36<7:20:59,  2.61s/it, v_num=uqm9, train/loss=8.44\r",
+      "Epoch 0:   1%| | 60/10186 [02:36<7:20:59,  2.61s/it, v_num=uqm9, train/loss=9.12"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 61/10186 [02:37<7:16:37,  2.59s/it, v_num=uqm9, train/loss=9.12\r",
+      "Epoch 0:   1%| | 61/10186 [02:37<7:16:37,  2.59s/it, v_num=uqm9, train/loss=11.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 62/10186 [02:38<7:12:22,  2.56s/it, v_num=uqm9, train/loss=11.6\r",
+      "Epoch 0:   1%| | 62/10186 [02:38<7:12:22,  2.56s/it, v_num=uqm9, train/loss=8.31"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 63/10186 [02:39<7:08:20,  2.54s/it, v_num=uqm9, train/loss=8.31\r",
+      "Epoch 0:   1%| | 63/10186 [02:39<7:08:20,  2.54s/it, v_num=uqm9, train/loss=8.75"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 64/10186 [02:46<7:18:38,  2.60s/it, v_num=uqm9, train/loss=8.75\r",
+      "Epoch 0:   1%| | 64/10186 [02:46<7:18:38,  2.60s/it, v_num=uqm9, train/loss=8.31"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 65/10186 [02:47<7:14:31,  2.58s/it, v_num=uqm9, train/loss=8.31\r",
+      "Epoch 0:   1%| | 65/10186 [02:47<7:14:31,  2.58s/it, v_num=uqm9, train/loss=8.31"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 66/10186 [02:48<7:10:33,  2.55s/it, v_num=uqm9, train/loss=8.31\r",
+      "Epoch 0:   1%| | 66/10186 [02:48<7:10:33,  2.55s/it, v_num=uqm9, train/loss=8.38"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 67/10186 [02:49<7:06:43,  2.53s/it, v_num=uqm9, train/loss=8.38\r",
+      "Epoch 0:   1%| | 67/10186 [02:49<7:06:43,  2.53s/it, v_num=uqm9, train/loss=7.97"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 68/10186 [02:56<7:16:30,  2.59s/it, v_num=uqm9, train/loss=7.97\r",
+      "Epoch 0:   1%| | 68/10186 [02:56<7:16:30,  2.59s/it, v_num=uqm9, train/loss=8.12"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 69/10186 [02:57<7:12:39,  2.57s/it, v_num=uqm9, train/loss=8.12\r",
+      "Epoch 0:   1%| | 69/10186 [02:57<7:12:39,  2.57s/it, v_num=uqm9, train/loss=7.97"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 70/10186 [02:58<7:08:57,  2.54s/it, v_num=uqm9, train/loss=7.97\r",
+      "Epoch 0:   1%| | 70/10186 [02:58<7:08:57,  2.54s/it, v_num=uqm9, train/loss=7.97"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 71/10186 [02:59<7:05:20,  2.52s/it, v_num=uqm9, train/loss=7.97\r",
+      "Epoch 0:   1%| | 71/10186 [02:59<7:05:21,  2.52s/it, v_num=uqm9, train/loss=8.00"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 72/10186 [03:05<7:14:25,  2.58s/it, v_num=uqm9, train/loss=8.00\r",
+      "Epoch 0:   1%| | 72/10186 [03:05<7:14:25,  2.58s/it, v_num=uqm9, train/loss=8.00"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 73/10186 [03:06<7:10:49,  2.56s/it, v_num=uqm9, train/loss=8.00\r",
+      "Epoch 0:   1%| | 73/10186 [03:06<7:10:49,  2.56s/it, v_num=uqm9, train/loss=7.88"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 74/10186 [03:07<7:07:20,  2.54s/it, v_num=uqm9, train/loss=7.88\r",
+      "Epoch 0:   1%| | 74/10186 [03:07<7:07:20,  2.54s/it, v_num=uqm9, train/loss=7.81"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 75/10186 [03:08<7:03:56,  2.52s/it, v_num=uqm9, train/loss=7.81\r",
+      "Epoch 0:   1%| | 75/10186 [03:08<7:03:56,  2.52s/it, v_num=uqm9, train/loss=8.12"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 76/10186 [03:15<7:12:33,  2.57s/it, v_num=uqm9, train/loss=8.12\r",
+      "Epoch 0:   1%| | 76/10186 [03:15<7:12:33,  2.57s/it, v_num=uqm9, train/loss=7.91"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 77/10186 [03:16<7:09:10,  2.55s/it, v_num=uqm9, train/loss=7.91\r",
+      "Epoch 0:   1%| | 77/10186 [03:16<7:09:10,  2.55s/it, v_num=uqm9, train/loss=7.59"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 78/10186 [03:17<7:05:53,  2.53s/it, v_num=uqm9, train/loss=7.59\r",
+      "Epoch 0:   1%| | 78/10186 [03:17<7:05:53,  2.53s/it, v_num=uqm9, train/loss=7.66"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 79/10186 [03:18<7:02:41,  2.51s/it, v_num=uqm9, train/loss=7.66\r",
+      "Epoch 0:   1%| | 79/10186 [03:18<7:02:41,  2.51s/it, v_num=uqm9, train/loss=7.88"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 80/10186 [03:24<7:10:54,  2.56s/it, v_num=uqm9, train/loss=7.88\r",
+      "Epoch 0:   1%| | 80/10186 [03:24<7:10:54,  2.56s/it, v_num=uqm9, train/loss=7.66"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 81/10186 [03:25<7:07:41,  2.54s/it, v_num=uqm9, train/loss=7.66\r",
+      "Epoch 0:   1%| | 81/10186 [03:25<7:07:41,  2.54s/it, v_num=uqm9, train/loss=7.81"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 82/10186 [03:26<7:04:34,  2.52s/it, v_num=uqm9, train/loss=7.81\r",
+      "Epoch 0:   1%| | 82/10186 [03:26<7:04:34,  2.52s/it, v_num=uqm9, train/loss=7.84"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 83/10186 [03:27<7:01:32,  2.50s/it, v_num=uqm9, train/loss=7.84\r",
+      "Epoch 0:   1%| | 83/10186 [03:27<7:01:32,  2.50s/it, v_num=uqm9, train/loss=7.88"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 84/10186 [03:34<7:09:20,  2.55s/it, v_num=uqm9, train/loss=7.88\r",
+      "Epoch 0:   1%| | 84/10186 [03:34<7:09:20,  2.55s/it, v_num=uqm9, train/loss=7.88"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 85/10186 [03:35<7:06:17,  2.53s/it, v_num=uqm9, train/loss=7.88\r",
+      "Epoch 0:   1%| | 85/10186 [03:35<7:06:17,  2.53s/it, v_num=uqm9, train/loss=7.62"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 86/10186 [03:36<7:03:20,  2.51s/it, v_num=uqm9, train/loss=7.62\r",
+      "Epoch 0:   1%| | 86/10186 [03:36<7:03:20,  2.51s/it, v_num=uqm9, train/loss=7.66"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 87/10186 [03:37<7:00:27,  2.50s/it, v_num=uqm9, train/loss=7.66\r",
+      "Epoch 0:   1%| | 87/10186 [03:37<7:00:27,  2.50s/it, v_num=uqm9, train/loss=7.56"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 88/10186 [03:43<7:07:55,  2.54s/it, v_num=uqm9, train/loss=7.56\r",
+      "Epoch 0:   1%| | 88/10186 [03:43<7:07:55,  2.54s/it, v_num=uqm9, train/loss=7.72"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 89/10186 [03:44<7:05:01,  2.53s/it, v_num=uqm9, train/loss=7.72\r",
+      "Epoch 0:   1%| | 89/10186 [03:44<7:05:01,  2.53s/it, v_num=uqm9, train/loss=8.25"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 90/10186 [03:45<7:02:12,  2.51s/it, v_num=uqm9, train/loss=8.25\r",
+      "Epoch 0:   1%| | 90/10186 [03:45<7:02:12,  2.51s/it, v_num=uqm9, train/loss=7.84"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 91/10186 [03:46<6:59:27,  2.49s/it, v_num=uqm9, train/loss=7.84\r",
+      "Epoch 0:   1%| | 91/10186 [03:46<6:59:27,  2.49s/it, v_num=uqm9, train/loss=7.59"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 92/10186 [03:53<7:06:37,  2.54s/it, v_num=uqm9, train/loss=7.59\r",
+      "Epoch 0:   1%| | 92/10186 [03:53<7:06:37,  2.54s/it, v_num=uqm9, train/loss=7.41"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 93/10186 [03:54<7:03:51,  2.52s/it, v_num=uqm9, train/loss=7.41\r",
+      "Epoch 0:   1%| | 93/10186 [03:54<7:03:51,  2.52s/it, v_num=uqm9, train/loss=7.81"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 94/10186 [03:55<7:01:10,  2.50s/it, v_num=uqm9, train/loss=7.81\r",
+      "Epoch 0:   1%| | 94/10186 [03:55<7:01:11,  2.50s/it, v_num=uqm9, train/loss=7.44"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 95/10186 [03:56<6:58:33,  2.49s/it, v_num=uqm9, train/loss=7.44\r",
+      "Epoch 0:   1%| | 95/10186 [03:56<6:58:33,  2.49s/it, v_num=uqm9, train/loss=7.34"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 96/10186 [04:02<7:05:25,  2.53s/it, v_num=uqm9, train/loss=7.34\r",
+      "Epoch 0:   1%| | 96/10186 [04:02<7:05:25,  2.53s/it, v_num=uqm9, train/loss=7.75"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 97/10186 [04:03<7:02:47,  2.51s/it, v_num=uqm9, train/loss=7.75\r",
+      "Epoch 0:   1%| | 97/10186 [04:03<7:02:47,  2.51s/it, v_num=uqm9, train/loss=7.78"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 98/10186 [04:04<7:00:13,  2.50s/it, v_num=uqm9, train/loss=7.78\r",
+      "Epoch 0:   1%| | 98/10186 [04:04<7:00:13,  2.50s/it, v_num=uqm9, train/loss=7.69"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 99/10186 [04:05<6:57:42,  2.48s/it, v_num=uqm9, train/loss=7.69\r",
+      "Epoch 0:   1%| | 99/10186 [04:05<6:57:42,  2.48s/it, v_num=uqm9, train/loss=7.62"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 100/10186 [04:12<7:04:18,  2.52s/it, v_num=uqm9, train/loss=7.6\r",
+      "Epoch 0:   1%| | 100/10186 [04:12<7:04:18,  2.52s/it, v_num=uqm9, train/loss=7.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 101/10186 [04:13<7:01:46,  2.51s/it, v_num=uqm9, train/loss=7.8\r",
+      "Epoch 0:   1%| | 101/10186 [04:13<7:01:46,  2.51s/it, v_num=uqm9, train/loss=7.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 102/10186 [04:14<6:59:19,  2.49s/it, v_num=uqm9, train/loss=7.8\r",
+      "Epoch 0:   1%| | 102/10186 [04:14<6:59:19,  2.49s/it, v_num=uqm9, train/loss=7.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 103/10186 [04:15<6:56:54,  2.48s/it, v_num=uqm9, train/loss=7.8\r",
+      "Epoch 0:   1%| | 103/10186 [04:15<6:56:54,  2.48s/it, v_num=uqm9, train/loss=7.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 104/10186 [04:21<7:03:14,  2.52s/it, v_num=uqm9, train/loss=7.4\r",
+      "Epoch 0:   1%| | 104/10186 [04:21<7:03:14,  2.52s/it, v_num=uqm9, train/loss=7.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 105/10186 [04:22<7:00:49,  2.50s/it, v_num=uqm9, train/loss=7.7\r",
+      "Epoch 0:   1%| | 105/10186 [04:22<7:00:49,  2.50s/it, v_num=uqm9, train/loss=7.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 106/10186 [04:24<6:58:27,  2.49s/it, v_num=uqm9, train/loss=7.4\r",
+      "Epoch 0:   1%| | 106/10186 [04:24<6:58:27,  2.49s/it, v_num=uqm9, train/loss=7.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 107/10186 [04:25<6:56:08,  2.48s/it, v_num=uqm9, train/loss=7.6\r",
+      "Epoch 0:   1%| | 107/10186 [04:25<6:56:08,  2.48s/it, v_num=uqm9, train/loss=7.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 108/10186 [04:31<7:02:15,  2.51s/it, v_num=uqm9, train/loss=7.4\r",
+      "Epoch 0:   1%| | 108/10186 [04:31<7:02:15,  2.51s/it, v_num=uqm9, train/loss=8.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 109/10186 [04:32<6:59:56,  2.50s/it, v_num=uqm9, train/loss=8.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 109/10186 [04:32<6:59:56,  2.50s/it, v_num=uqm9, train/loss=7.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 110/10186 [04:33<6:57:40,  2.49s/it, v_num=uqm9, train/loss=7.6\r",
+      "Epoch 0:   1%| | 110/10186 [04:33<6:57:40,  2.49s/it, v_num=uqm9, train/loss=7.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 111/10186 [04:34<6:55:27,  2.47s/it, v_num=uqm9, train/loss=7.4\r",
+      "Epoch 0:   1%| | 111/10186 [04:34<6:55:27,  2.47s/it, v_num=uqm9, train/loss=7.3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 112/10186 [04:41<7:01:19,  2.51s/it, v_num=uqm9, train/loss=7.3\r",
+      "Epoch 0:   1%| | 112/10186 [04:41<7:01:19,  2.51s/it, v_num=uqm9, train/loss=7.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 113/10186 [04:42<6:59:06,  2.50s/it, v_num=uqm9, train/loss=7.5\r",
+      "Epoch 0:   1%| | 113/10186 [04:42<6:59:06,  2.50s/it, v_num=uqm9, train/loss=7.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 114/10186 [04:43<6:56:55,  2.48s/it, v_num=uqm9, train/loss=7.6\r",
+      "Epoch 0:   1%| | 114/10186 [04:43<6:56:55,  2.48s/it, v_num=uqm9, train/loss=7.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 115/10186 [04:44<6:54:47,  2.47s/it, v_num=uqm9, train/loss=7.4\r",
+      "Epoch 0:   1%| | 115/10186 [04:44<6:54:47,  2.47s/it, v_num=uqm9, train/loss=7.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 116/10186 [04:50<7:00:27,  2.51s/it, v_num=uqm9, train/loss=7.1\r",
+      "Epoch 0:   1%| | 116/10186 [04:50<7:00:27,  2.51s/it, v_num=uqm9, train/loss=7.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 117/10186 [04:51<6:58:18,  2.49s/it, v_num=uqm9, train/loss=7.4\r",
+      "Epoch 0:   1%| | 117/10186 [04:51<6:58:18,  2.49s/it, v_num=uqm9, train/loss=7.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 118/10186 [04:52<6:56:12,  2.48s/it, v_num=uqm9, train/loss=7.8\r",
+      "Epoch 0:   1%| | 118/10186 [04:52<6:56:12,  2.48s/it, v_num=uqm9, train/loss=7.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 119/10186 [04:53<6:54:08,  2.47s/it, v_num=uqm9, train/loss=7.7\r",
+      "Epoch 0:   1%| | 119/10186 [04:53<6:54:08,  2.47s/it, v_num=uqm9, train/loss=7.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 120/10186 [05:00<6:59:36,  2.50s/it, v_num=uqm9, train/loss=7.6\r",
+      "Epoch 0:   1%| | 120/10186 [05:00<6:59:36,  2.50s/it, v_num=uqm9, train/loss=7.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 121/10186 [05:01<6:57:32,  2.49s/it, v_num=uqm9, train/loss=7.5\r",
+      "Epoch 0:   1%| | 121/10186 [05:01<6:57:32,  2.49s/it, v_num=uqm9, train/loss=7.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 122/10186 [05:02<6:55:30,  2.48s/it, v_num=uqm9, train/loss=7.5\r",
+      "Epoch 0:   1%| | 122/10186 [05:02<6:55:30,  2.48s/it, v_num=uqm9, train/loss=7.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 123/10186 [05:03<6:53:30,  2.47s/it, v_num=uqm9, train/loss=7.4\r",
+      "Epoch 0:   1%| | 123/10186 [05:03<6:53:30,  2.47s/it, v_num=uqm9, train/loss=7.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 124/10186 [05:09<6:58:49,  2.50s/it, v_num=uqm9, train/loss=7.4\r",
+      "Epoch 0:   1%| | 124/10186 [05:09<6:58:49,  2.50s/it, v_num=uqm9, train/loss=7.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 125/10186 [05:10<6:56:49,  2.49s/it, v_num=uqm9, train/loss=7.6\r",
+      "Epoch 0:   1%| | 125/10186 [05:10<6:56:49,  2.49s/it, v_num=uqm9, train/loss=7.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 126/10186 [05:11<6:54:51,  2.47s/it, v_num=uqm9, train/loss=7.6\r",
+      "Epoch 0:   1%| | 126/10186 [05:11<6:54:51,  2.47s/it, v_num=uqm9, train/loss=7.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 127/10186 [05:12<6:52:56,  2.46s/it, v_num=uqm9, train/loss=7.1\r",
+      "Epoch 0:   1%| | 127/10186 [05:12<6:52:56,  2.46s/it, v_num=uqm9, train/loss=7.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 128/10186 [05:19<6:58:05,  2.49s/it, v_num=uqm9, train/loss=7.7\r",
+      "Epoch 0:   1%| | 128/10186 [05:19<6:58:05,  2.49s/it, v_num=uqm9, train/loss=7.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 129/10186 [05:20<6:56:08,  2.48s/it, v_num=uqm9, train/loss=7.5\r",
+      "Epoch 0:   1%| | 129/10186 [05:20<6:56:08,  2.48s/it, v_num=uqm9, train/loss=7.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 130/10186 [05:21<6:54:14,  2.47s/it, v_num=uqm9, train/loss=7.5\r",
+      "Epoch 0:   1%| | 130/10186 [05:21<6:54:14,  2.47s/it, v_num=uqm9, train/loss=7.3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 131/10186 [05:22<6:52:22,  2.46s/it, v_num=uqm9, train/loss=7.3\r",
+      "Epoch 0:   1%| | 131/10186 [05:22<6:52:22,  2.46s/it, v_num=uqm9, train/loss=7.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 132/10186 [05:28<6:57:22,  2.49s/it, v_num=uqm9, train/loss=7.9\r",
+      "Epoch 0:   1%| | 132/10186 [05:28<6:57:22,  2.49s/it, v_num=uqm9, train/loss=7.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 133/10186 [05:29<6:55:30,  2.48s/it, v_num=uqm9, train/loss=7.5\r",
+      "Epoch 0:   1%| | 133/10186 [05:29<6:55:30,  2.48s/it, v_num=uqm9, train/loss=7.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 134/10186 [05:30<6:53:40,  2.47s/it, v_num=uqm9, train/loss=7.4\r",
+      "Epoch 0:   1%| | 134/10186 [05:30<6:53:40,  2.47s/it, v_num=uqm9, train/loss=7.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 135/10186 [05:31<6:51:51,  2.46s/it, v_num=uqm9, train/loss=7.4\r",
+      "Epoch 0:   1%| | 135/10186 [05:31<6:51:51,  2.46s/it, v_num=uqm9, train/loss=7.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 136/10186 [05:38<6:56:42,  2.49s/it, v_num=uqm9, train/loss=7.7\r",
+      "Epoch 0:   1%| | 136/10186 [05:38<6:56:42,  2.49s/it, v_num=uqm9, train/loss=7.3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 137/10186 [05:39<6:54:53,  2.48s/it, v_num=uqm9, train/loss=7.3\r",
+      "Epoch 0:   1%| | 137/10186 [05:39<6:54:53,  2.48s/it, v_num=uqm9, train/loss=7.3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 138/10186 [05:40<6:53:07,  2.47s/it, v_num=uqm9, train/loss=7.3\r",
+      "Epoch 0:   1%| | 138/10186 [05:40<6:53:07,  2.47s/it, v_num=uqm9, train/loss=7.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 139/10186 [05:41<6:51:21,  2.46s/it, v_num=uqm9, train/loss=7.1\r",
+      "Epoch 0:   1%| | 139/10186 [05:41<6:51:21,  2.46s/it, v_num=uqm9, train/loss=7.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 140/10186 [05:47<6:56:02,  2.48s/it, v_num=uqm9, train/loss=7.5\r",
+      "Epoch 0:   1%| | 140/10186 [05:47<6:56:02,  2.48s/it, v_num=uqm9, train/loss=7.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 141/10186 [05:48<6:54:16,  2.47s/it, v_num=uqm9, train/loss=7.4\r",
+      "Epoch 0:   1%| | 141/10186 [05:48<6:54:16,  2.47s/it, v_num=uqm9, train/loss=7.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 142/10186 [05:49<6:52:33,  2.46s/it, v_num=uqm9, train/loss=7.5\r",
+      "Epoch 0:   1%| | 142/10186 [05:49<6:52:33,  2.46s/it, v_num=uqm9, train/loss=7.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 143/10186 [05:51<6:50:51,  2.45s/it, v_num=uqm9, train/loss=7.1\r",
+      "Epoch 0:   1%| | 143/10186 [05:51<6:50:51,  2.45s/it, v_num=uqm9, train/loss=7.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 144/10186 [05:57<6:55:26,  2.48s/it, v_num=uqm9, train/loss=7.4\r",
+      "Epoch 0:   1%| | 144/10186 [05:57<6:55:26,  2.48s/it, v_num=uqm9, train/loss=7.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 145/10186 [05:58<6:53:43,  2.47s/it, v_num=uqm9, train/loss=7.6\r",
+      "Epoch 0:   1%| | 145/10186 [05:58<6:53:43,  2.47s/it, v_num=uqm9, train/loss=7.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 146/10186 [05:59<6:52:03,  2.46s/it, v_num=uqm9, train/loss=7.4\r",
+      "Epoch 0:   1%| | 146/10186 [05:59<6:52:03,  2.46s/it, v_num=uqm9, train/loss=7.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 147/10186 [06:00<6:50:24,  2.45s/it, v_num=uqm9, train/loss=7.1\r",
+      "Epoch 0:   1%| | 147/10186 [06:00<6:50:24,  2.45s/it, v_num=uqm9, train/loss=7.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 148/10186 [06:06<6:54:50,  2.48s/it, v_num=uqm9, train/loss=7.7\r",
+      "Epoch 0:   1%| | 148/10186 [06:06<6:54:50,  2.48s/it, v_num=uqm9, train/loss=7.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 149/10186 [06:08<6:53:10,  2.47s/it, v_num=uqm9, train/loss=7.5\r",
+      "Epoch 0:   1%| | 149/10186 [06:08<6:53:10,  2.47s/it, v_num=uqm9, train/loss=7.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 150/10186 [06:09<6:51:32,  2.46s/it, v_num=uqm9, train/loss=7.8\r",
+      "Epoch 0:   1%| | 150/10186 [06:09<6:51:32,  2.46s/it, v_num=uqm9, train/loss=7.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 151/10186 [06:10<6:49:56,  2.45s/it, v_num=uqm9, train/loss=7.5\r",
+      "Epoch 0:   1%| | 151/10186 [06:10<6:49:56,  2.45s/it, v_num=uqm9, train/loss=7.2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 152/10186 [06:16<6:54:16,  2.48s/it, v_num=uqm9, train/loss=7.2\r",
+      "Epoch 0:   1%| | 152/10186 [06:16<6:54:16,  2.48s/it, v_num=uqm9, train/loss=7.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 153/10186 [06:17<6:52:39,  2.47s/it, v_num=uqm9, train/loss=7.6\r",
+      "Epoch 0:   2%| | 153/10186 [06:17<6:52:39,  2.47s/it, v_num=uqm9, train/loss=7.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 154/10186 [06:18<6:51:04,  2.46s/it, v_num=uqm9, train/loss=7.5\r",
+      "Epoch 0:   2%| | 154/10186 [06:18<6:51:04,  2.46s/it, v_num=uqm9, train/loss=7.2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 155/10186 [06:19<6:49:30,  2.45s/it, v_num=uqm9, train/loss=7.2\r",
+      "Epoch 0:   2%| | 155/10186 [06:19<6:49:30,  2.45s/it, v_num=uqm9, train/loss=7.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 156/10186 [06:26<6:53:43,  2.47s/it, v_num=uqm9, train/loss=7.4\r",
+      "Epoch 0:   2%| | 156/10186 [06:26<6:53:43,  2.47s/it, v_num=uqm9, train/loss=8.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 157/10186 [06:27<6:52:08,  2.47s/it, v_num=uqm9, train/loss=8.1\r",
+      "Epoch 0:   2%| | 157/10186 [06:27<6:52:08,  2.47s/it, v_num=uqm9, train/loss=7.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 158/10186 [06:28<6:50:35,  2.46s/it, v_num=uqm9, train/loss=7.5\r",
+      "Epoch 0:   2%| | 158/10186 [06:28<6:50:35,  2.46s/it, v_num=uqm9, train/loss=7.3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 159/10186 [06:29<6:49:04,  2.45s/it, v_num=uqm9, train/loss=7.3\r",
+      "Epoch 0:   2%| | 159/10186 [06:29<6:49:04,  2.45s/it, v_num=uqm9, train/loss=7.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 160/10186 [06:35<6:53:11,  2.47s/it, v_num=uqm9, train/loss=7.5\r",
+      "Epoch 0:   2%| | 160/10186 [06:35<6:53:11,  2.47s/it, v_num=uqm9, train/loss=7.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 161/10186 [06:36<6:51:39,  2.46s/it, v_num=uqm9, train/loss=7.4\r",
+      "Epoch 0:   2%| | 161/10186 [06:36<6:51:39,  2.46s/it, v_num=uqm9, train/loss=7.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 162/10186 [06:37<6:50:09,  2.46s/it, v_num=uqm9, train/loss=7.5\r",
+      "Epoch 0:   2%| | 162/10186 [06:37<6:50:09,  2.46s/it, v_num=uqm9, train/loss=7.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 163/10186 [06:38<6:48:40,  2.45s/it, v_num=uqm9, train/loss=7.5\r",
+      "Epoch 0:   2%| | 163/10186 [06:38<6:48:40,  2.45s/it, v_num=uqm9, train/loss=7.3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 164/10186 [06:45<6:52:41,  2.47s/it, v_num=uqm9, train/loss=7.3\r",
+      "Epoch 0:   2%| | 164/10186 [06:45<6:52:41,  2.47s/it, v_num=uqm9, train/loss=7.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 165/10186 [06:46<6:51:11,  2.46s/it, v_num=uqm9, train/loss=7.7\r",
+      "Epoch 0:   2%| | 165/10186 [06:46<6:51:11,  2.46s/it, v_num=uqm9, train/loss=7.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 166/10186 [06:47<6:49:43,  2.45s/it, v_num=uqm9, train/loss=7.6\r",
+      "Epoch 0:   2%| | 166/10186 [06:47<6:49:43,  2.45s/it, v_num=uqm9, train/loss=7.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 167/10186 [06:48<6:48:16,  2.45s/it, v_num=uqm9, train/loss=7.1\r",
+      "Epoch 0:   2%| | 167/10186 [06:48<6:48:16,  2.45s/it, v_num=uqm9, train/loss=7.2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 168/10186 [06:54<6:52:11,  2.47s/it, v_num=uqm9, train/loss=7.2\r",
+      "Epoch 0:   2%| | 168/10186 [06:54<6:52:11,  2.47s/it, v_num=uqm9, train/loss=7.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 169/10186 [06:55<6:50:44,  2.46s/it, v_num=uqm9, train/loss=7.4\r",
+      "Epoch 0:   2%| | 169/10186 [06:55<6:50:44,  2.46s/it, v_num=uqm9, train/loss=7.2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 170/10186 [06:56<6:49:18,  2.45s/it, v_num=uqm9, train/loss=7.2\r",
+      "Epoch 0:   2%| | 170/10186 [06:56<6:49:18,  2.45s/it, v_num=uqm9, train/loss=7.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 171/10186 [06:57<6:47:53,  2.44s/it, v_num=uqm9, train/loss=7.7\r",
+      "Epoch 0:   2%| | 171/10186 [06:57<6:47:53,  2.44s/it, v_num=uqm9, train/loss=7.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 172/10186 [07:04<6:51:43,  2.47s/it, v_num=uqm9, train/loss=7.5\r",
+      "Epoch 0:   2%| | 172/10186 [07:04<6:51:43,  2.47s/it, v_num=uqm9, train/loss=7.3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 173/10186 [07:05<6:50:17,  2.46s/it, v_num=uqm9, train/loss=7.3\r",
+      "Epoch 0:   2%| | 173/10186 [07:05<6:50:17,  2.46s/it, v_num=uqm9, train/loss=7.2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 174/10186 [07:06<6:48:54,  2.45s/it, v_num=uqm9, train/loss=7.2\r",
+      "Epoch 0:   2%| | 174/10186 [07:06<6:48:54,  2.45s/it, v_num=uqm9, train/loss=7.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 175/10186 [07:07<6:47:31,  2.44s/it, v_num=uqm9, train/loss=7.1\r",
+      "Epoch 0:   2%| | 175/10186 [07:07<6:47:31,  2.44s/it, v_num=uqm9, train/loss=7.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 176/10186 [07:13<6:51:15,  2.47s/it, v_num=uqm9, train/loss=7.5\r",
+      "Epoch 0:   2%| | 176/10186 [07:13<6:51:15,  2.47s/it, v_num=uqm9, train/loss=7.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 177/10186 [07:14<6:49:51,  2.46s/it, v_num=uqm9, train/loss=7.5\r",
+      "Epoch 0:   2%| | 177/10186 [07:14<6:49:51,  2.46s/it, v_num=uqm9, train/loss=7.3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 178/10186 [07:15<6:48:30,  2.45s/it, v_num=uqm9, train/loss=7.3\r",
+      "Epoch 0:   2%| | 178/10186 [07:15<6:48:30,  2.45s/it, v_num=uqm9, train/loss=7.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 179/10186 [07:16<6:47:09,  2.44s/it, v_num=uqm9, train/loss=7.4\r",
+      "Epoch 0:   2%| | 179/10186 [07:16<6:47:09,  2.44s/it, v_num=uqm9, train/loss=7.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 180/10186 [07:23<6:50:48,  2.46s/it, v_num=uqm9, train/loss=7.1\r",
+      "Epoch 0:   2%| | 180/10186 [07:23<6:50:48,  2.46s/it, v_num=uqm9, train/loss=7.2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 181/10186 [07:24<6:49:26,  2.46s/it, v_num=uqm9, train/loss=7.2\r",
+      "Epoch 0:   2%| | 181/10186 [07:24<6:49:26,  2.46s/it, v_num=uqm9, train/loss=7.2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 182/10186 [07:25<6:48:06,  2.45s/it, v_num=uqm9, train/loss=7.2\r",
+      "Epoch 0:   2%| | 182/10186 [07:25<6:48:06,  2.45s/it, v_num=uqm9, train/loss=7.2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 183/10186 [07:26<6:46:47,  2.44s/it, v_num=uqm9, train/loss=7.2\r",
+      "Epoch 0:   2%| | 183/10186 [07:26<6:46:47,  2.44s/it, v_num=uqm9, train/loss=7.2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 184/10186 [07:32<6:50:21,  2.46s/it, v_num=uqm9, train/loss=7.2\r",
+      "Epoch 0:   2%| | 184/10186 [07:32<6:50:21,  2.46s/it, v_num=uqm9, train/loss=7.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 185/10186 [07:33<6:49:02,  2.45s/it, v_num=uqm9, train/loss=7.1\r",
+      "Epoch 0:   2%| | 185/10186 [07:33<6:49:02,  2.45s/it, v_num=uqm9, train/loss=7.3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 186/10186 [07:35<6:47:44,  2.45s/it, v_num=uqm9, train/loss=7.3\r",
+      "Epoch 0:   2%| | 186/10186 [07:35<6:47:44,  2.45s/it, v_num=uqm9, train/loss=7.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 187/10186 [07:36<6:46:27,  2.44s/it, v_num=uqm9, train/loss=7.7\r",
+      "Epoch 0:   2%| | 187/10186 [07:36<6:46:27,  2.44s/it, v_num=uqm9, train/loss=6.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 188/10186 [07:42<6:49:56,  2.46s/it, v_num=uqm9, train/loss=6.9\r",
+      "Epoch 0:   2%| | 188/10186 [07:42<6:49:56,  2.46s/it, v_num=uqm9, train/loss=7.2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 189/10186 [07:43<6:48:38,  2.45s/it, v_num=uqm9, train/loss=7.2\r",
+      "Epoch 0:   2%| | 189/10186 [07:43<6:48:38,  2.45s/it, v_num=uqm9, train/loss=7.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 190/10186 [07:44<6:47:22,  2.45s/it, v_num=uqm9, train/loss=7.0\r",
+      "Epoch 0:   2%| | 190/10186 [07:44<6:47:22,  2.45s/it, v_num=uqm9, train/loss=7.2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 191/10186 [07:45<6:46:06,  2.44s/it, v_num=uqm9, train/loss=7.2\r",
+      "Epoch 0:   2%| | 191/10186 [07:45<6:46:06,  2.44s/it, v_num=uqm9, train/loss=7.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 192/10186 [07:52<6:49:32,  2.46s/it, v_num=uqm9, train/loss=7.1\r",
+      "Epoch 0:   2%| | 192/10186 [07:52<6:49:32,  2.46s/it, v_num=uqm9, train/loss=7.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 193/10186 [07:53<6:48:16,  2.45s/it, v_num=uqm9, train/loss=7.4\r",
+      "Epoch 0:   2%| | 193/10186 [07:53<6:48:16,  2.45s/it, v_num=uqm9, train/loss=7.3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 194/10186 [07:54<6:47:01,  2.44s/it, v_num=uqm9, train/loss=7.3\r",
+      "Epoch 0:   2%| | 194/10186 [07:54<6:47:01,  2.44s/it, v_num=uqm9, train/loss=7.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 195/10186 [07:55<6:45:47,  2.44s/it, v_num=uqm9, train/loss=7.1\r",
+      "Epoch 0:   2%| | 195/10186 [07:55<6:45:47,  2.44s/it, v_num=uqm9, train/loss=7.2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 196/10186 [08:01<6:49:08,  2.46s/it, v_num=uqm9, train/loss=7.2\r",
+      "Epoch 0:   2%| | 196/10186 [08:01<6:49:08,  2.46s/it, v_num=uqm9, train/loss=7.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 197/10186 [08:02<6:47:53,  2.45s/it, v_num=uqm9, train/loss=7.1\r",
+      "Epoch 0:   2%| | 197/10186 [08:02<6:47:53,  2.45s/it, v_num=uqm9, train/loss=7.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 198/10186 [08:03<6:46:40,  2.44s/it, v_num=uqm9, train/loss=7.5\r",
+      "Epoch 0:   2%| | 198/10186 [08:03<6:46:40,  2.44s/it, v_num=uqm9, train/loss=7.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 199/10186 [08:04<6:45:27,  2.44s/it, v_num=uqm9, train/loss=7.5\r",
+      "Epoch 0:   2%| | 199/10186 [08:04<6:45:28,  2.44s/it, v_num=uqm9, train/loss=7.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 200/10186 [08:11<6:48:44,  2.46s/it, v_num=uqm9, train/loss=7.1\r",
+      "Epoch 0:   2%| | 200/10186 [08:11<6:48:44,  2.46s/it, v_num=uqm9, train/loss=7.3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 201/10186 [08:12<6:47:31,  2.45s/it, v_num=uqm9, train/loss=7.3\r",
+      "Epoch 0:   2%| | 201/10186 [08:12<6:47:31,  2.45s/it, v_num=uqm9, train/loss=7.2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 202/10186 [08:13<6:46:19,  2.44s/it, v_num=uqm9, train/loss=7.2\r",
+      "Epoch 0:   2%| | 202/10186 [08:13<6:46:19,  2.44s/it, v_num=uqm9, train/loss=7.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 203/10186 [08:14<6:45:08,  2.44s/it, v_num=uqm9, train/loss=7.0\r",
+      "Epoch 0:   2%| | 203/10186 [08:14<6:45:08,  2.44s/it, v_num=uqm9, train/loss=7.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 204/10186 [08:20<6:48:21,  2.45s/it, v_num=uqm9, train/loss=7.1\r",
+      "Epoch 0:   2%| | 204/10186 [08:20<6:48:21,  2.45s/it, v_num=uqm9, train/loss=6.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 205/10186 [08:21<6:47:09,  2.45s/it, v_num=uqm9, train/loss=6.9\r",
+      "Epoch 0:   2%| | 205/10186 [08:21<6:47:09,  2.45s/it, v_num=uqm9, train/loss=7.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 206/10186 [08:22<6:45:59,  2.44s/it, v_num=uqm9, train/loss=7.0\r",
+      "Epoch 0:   2%| | 206/10186 [08:22<6:45:59,  2.44s/it, v_num=uqm9, train/loss=7.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 207/10186 [08:23<6:44:49,  2.43s/it, v_num=uqm9, train/loss=7.1\r",
+      "Epoch 0:   2%| | 207/10186 [08:23<6:44:49,  2.43s/it, v_num=uqm9, train/loss=7.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 208/10186 [08:30<6:47:59,  2.45s/it, v_num=uqm9, train/loss=7.0\r",
+      "Epoch 0:   2%| | 208/10186 [08:30<6:47:59,  2.45s/it, v_num=uqm9, train/loss=7.3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 209/10186 [08:31<6:46:49,  2.45s/it, v_num=uqm9, train/loss=7.3\r",
+      "Epoch 0:   2%| | 209/10186 [08:31<6:46:49,  2.45s/it, v_num=uqm9, train/loss=7.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 210/10186 [08:32<6:45:40,  2.44s/it, v_num=uqm9, train/loss=7.1\r",
+      "Epoch 0:   2%| | 210/10186 [08:32<6:45:40,  2.44s/it, v_num=uqm9, train/loss=7.2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 211/10186 [08:33<6:44:31,  2.43s/it, v_num=uqm9, train/loss=7.2\r",
+      "Epoch 0:   2%| | 211/10186 [08:33<6:44:31,  2.43s/it, v_num=uqm9, train/loss=7.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 212/10186 [08:39<6:47:36,  2.45s/it, v_num=uqm9, train/loss=7.0\r",
+      "Epoch 0:   2%| | 212/10186 [08:39<6:47:36,  2.45s/it, v_num=uqm9, train/loss=7.2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 213/10186 [08:40<6:46:27,  2.45s/it, v_num=uqm9, train/loss=7.2\r",
+      "Epoch 0:   2%| | 213/10186 [08:40<6:46:27,  2.45s/it, v_num=uqm9, train/loss=7.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 214/10186 [08:41<6:45:20,  2.44s/it, v_num=uqm9, train/loss=7.1\r",
+      "Epoch 0:   2%| | 214/10186 [08:41<6:45:20,  2.44s/it, v_num=uqm9, train/loss=7.3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 215/10186 [08:42<6:44:13,  2.43s/it, v_num=uqm9, train/loss=7.3\r",
+      "Epoch 0:   2%| | 215/10186 [08:42<6:44:13,  2.43s/it, v_num=uqm9, train/loss=7.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 216/10186 [08:49<6:47:14,  2.45s/it, v_num=uqm9, train/loss=7.1\r",
+      "Epoch 0:   2%| | 216/10186 [08:49<6:47:14,  2.45s/it, v_num=uqm9, train/loss=7.2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 217/10186 [08:50<6:46:07,  2.44s/it, v_num=uqm9, train/loss=7.2\r",
+      "Epoch 0:   2%| | 217/10186 [08:50<6:46:07,  2.44s/it, v_num=uqm9, train/loss=7.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 218/10186 [08:51<6:45:00,  2.44s/it, v_num=uqm9, train/loss=7.4\r",
+      "Epoch 0:   2%| | 218/10186 [08:51<6:45:00,  2.44s/it, v_num=uqm9, train/loss=7.2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 219/10186 [08:52<6:43:55,  2.43s/it, v_num=uqm9, train/loss=7.2\r",
+      "Epoch 0:   2%| | 219/10186 [08:52<6:43:55,  2.43s/it, v_num=uqm9, train/loss=7.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 220/10186 [08:58<6:46:53,  2.45s/it, v_num=uqm9, train/loss=7.0\r",
+      "Epoch 0:   2%| | 220/10186 [08:58<6:46:53,  2.45s/it, v_num=uqm9, train/loss=6.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 221/10186 [08:59<6:45:47,  2.44s/it, v_num=uqm9, train/loss=6.6\r",
+      "Epoch 0:   2%| | 221/10186 [08:59<6:45:47,  2.44s/it, v_num=uqm9, train/loss=7.2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 222/10186 [09:01<6:44:42,  2.44s/it, v_num=uqm9, train/loss=7.2\r",
+      "Epoch 0:   2%| | 222/10186 [09:01<6:44:42,  2.44s/it, v_num=uqm9, train/loss=7.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 223/10186 [09:02<6:43:37,  2.43s/it, v_num=uqm9, train/loss=7.0\r",
+      "Epoch 0:   2%| | 223/10186 [09:02<6:43:37,  2.43s/it, v_num=uqm9, train/loss=7.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 224/10186 [09:08<6:46:33,  2.45s/it, v_num=uqm9, train/loss=7.0\r",
+      "Epoch 0:   2%| | 224/10186 [09:08<6:46:33,  2.45s/it, v_num=uqm9, train/loss=6.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 225/10186 [09:09<6:45:28,  2.44s/it, v_num=uqm9, train/loss=6.7\r",
+      "Epoch 0:   2%| | 225/10186 [09:09<6:45:28,  2.44s/it, v_num=uqm9, train/loss=7.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 226/10186 [09:10<6:44:24,  2.44s/it, v_num=uqm9, train/loss=7.0\r",
+      "Epoch 0:   2%| | 226/10186 [09:10<6:44:24,  2.44s/it, v_num=uqm9, train/loss=7.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 227/10186 [09:11<6:43:21,  2.43s/it, v_num=uqm9, train/loss=7.0\r",
+      "Epoch 0:   2%| | 227/10186 [09:11<6:43:21,  2.43s/it, v_num=uqm9, train/loss=7.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 228/10186 [09:18<6:46:13,  2.45s/it, v_num=uqm9, train/loss=7.1\r",
+      "Epoch 0:   2%| | 228/10186 [09:18<6:46:13,  2.45s/it, v_num=uqm9, train/loss=7.2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 229/10186 [09:19<6:45:09,  2.44s/it, v_num=uqm9, train/loss=7.2\r",
+      "Epoch 0:   2%| | 229/10186 [09:19<6:45:09,  2.44s/it, v_num=uqm9, train/loss=7.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 230/10186 [09:20<6:44:07,  2.44s/it, v_num=uqm9, train/loss=7.0\r",
+      "Epoch 0:   2%| | 230/10186 [09:20<6:44:07,  2.44s/it, v_num=uqm9, train/loss=6.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 231/10186 [09:21<6:43:04,  2.43s/it, v_num=uqm9, train/loss=6.9\r",
+      "Epoch 0:   2%| | 231/10186 [09:21<6:43:04,  2.43s/it, v_num=uqm9, train/loss=7.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 232/10186 [09:27<6:45:54,  2.45s/it, v_num=uqm9, train/loss=7.0\r",
+      "Epoch 0:   2%| | 232/10186 [09:27<6:45:54,  2.45s/it, v_num=uqm9, train/loss=6.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 233/10186 [09:28<6:44:51,  2.44s/it, v_num=uqm9, train/loss=6.9\r",
+      "Epoch 0:   2%| | 233/10186 [09:28<6:44:51,  2.44s/it, v_num=uqm9, train/loss=6.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 234/10186 [09:29<6:43:49,  2.43s/it, v_num=uqm9, train/loss=6.9\r",
+      "Epoch 0:   2%| | 234/10186 [09:29<6:43:49,  2.43s/it, v_num=uqm9, train/loss=6.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 235/10186 [09:30<6:42:48,  2.43s/it, v_num=uqm9, train/loss=6.9\r",
+      "Epoch 0:   2%| | 235/10186 [09:30<6:42:48,  2.43s/it, v_num=uqm9, train/loss=6.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 236/10186 [09:37<6:45:33,  2.45s/it, v_num=uqm9, train/loss=6.9\r",
+      "Epoch 0:   2%| | 236/10186 [09:37<6:45:34,  2.45s/it, v_num=uqm9, train/loss=7.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 237/10186 [09:38<6:44:32,  2.44s/it, v_num=uqm9, train/loss=7.0\r",
+      "Epoch 0:   2%| | 237/10186 [09:38<6:44:32,  2.44s/it, v_num=uqm9, train/loss=7.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 238/10186 [09:39<6:43:31,  2.43s/it, v_num=uqm9, train/loss=7.1\r",
+      "Epoch 0:   2%| | 238/10186 [09:39<6:43:31,  2.43s/it, v_num=uqm9, train/loss=7.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 239/10186 [09:40<6:42:31,  2.43s/it, v_num=uqm9, train/loss=7.1\r",
+      "Epoch 0:   2%| | 239/10186 [09:40<6:42:31,  2.43s/it, v_num=uqm9, train/loss=7.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 240/10186 [09:46<6:45:15,  2.44s/it, v_num=uqm9, train/loss=7.4\r",
+      "Epoch 0:   2%| | 240/10186 [09:46<6:45:15,  2.44s/it, v_num=uqm9, train/loss=7.3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 241/10186 [09:47<6:44:14,  2.44s/it, v_num=uqm9, train/loss=7.3\r",
+      "Epoch 0:   2%| | 241/10186 [09:47<6:44:14,  2.44s/it, v_num=uqm9, train/loss=6.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 242/10186 [09:48<6:43:14,  2.43s/it, v_num=uqm9, train/loss=6.9\r",
+      "Epoch 0:   2%| | 242/10186 [09:48<6:43:14,  2.43s/it, v_num=uqm9, train/loss=6.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 243/10186 [09:49<6:42:15,  2.43s/it, v_num=uqm9, train/loss=6.9\r",
+      "Epoch 0:   2%| | 243/10186 [09:49<6:42:15,  2.43s/it, v_num=uqm9, train/loss=6.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 244/10186 [09:56<6:44:56,  2.44s/it, v_num=uqm9, train/loss=6.7\r",
+      "Epoch 0:   2%| | 244/10186 [09:56<6:44:56,  2.44s/it, v_num=uqm9, train/loss=7.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 245/10186 [09:57<6:43:56,  2.44s/it, v_num=uqm9, train/loss=7.0\r",
+      "Epoch 0:   2%| | 245/10186 [09:57<6:43:56,  2.44s/it, v_num=uqm9, train/loss=7.2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 246/10186 [09:58<6:42:57,  2.43s/it, v_num=uqm9, train/loss=7.2\r",
+      "Epoch 0:   2%| | 246/10186 [09:58<6:42:57,  2.43s/it, v_num=uqm9, train/loss=6.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 247/10186 [09:59<6:41:59,  2.43s/it, v_num=uqm9, train/loss=6.7\r",
+      "Epoch 0:   2%| | 247/10186 [09:59<6:41:59,  2.43s/it, v_num=uqm9, train/loss=6.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 248/10186 [10:05<6:44:37,  2.44s/it, v_num=uqm9, train/loss=6.9\r",
+      "Epoch 0:   2%| | 248/10186 [10:05<6:44:37,  2.44s/it, v_num=uqm9, train/loss=7.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 249/10186 [10:06<6:43:39,  2.44s/it, v_num=uqm9, train/loss=7.1\r",
+      "Epoch 0:   2%| | 249/10186 [10:06<6:43:39,  2.44s/it, v_num=uqm9, train/loss=6.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 250/10186 [10:07<6:42:41,  2.43s/it, v_num=uqm9, train/loss=6.8\r",
+      "Epoch 0:   2%| | 250/10186 [10:07<6:42:41,  2.43s/it, v_num=uqm9, train/loss=6.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 251/10186 [10:08<6:41:44,  2.43s/it, v_num=uqm9, train/loss=6.9\r",
+      "Epoch 0:   2%| | 251/10186 [10:08<6:41:44,  2.43s/it, v_num=uqm9, train/loss=6.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 252/10186 [10:15<6:44:19,  2.44s/it, v_num=uqm9, train/loss=6.6\r",
+      "Epoch 0:   2%| | 252/10186 [10:15<6:44:19,  2.44s/it, v_num=uqm9, train/loss=7.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 253/10186 [10:16<6:43:21,  2.44s/it, v_num=uqm9, train/loss=7.0\r",
+      "Epoch 0:   2%| | 253/10186 [10:16<6:43:21,  2.44s/it, v_num=uqm9, train/loss=7.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 254/10186 [10:17<6:42:25,  2.43s/it, v_num=uqm9, train/loss=7.0\r",
+      "Epoch 0:   2%| | 254/10186 [10:17<6:42:25,  2.43s/it, v_num=uqm9, train/loss=7.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 255/10186 [10:18<6:41:28,  2.43s/it, v_num=uqm9, train/loss=7.0\r",
+      "Epoch 0:   3%| | 255/10186 [10:18<6:41:28,  2.43s/it, v_num=uqm9, train/loss=7.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 256/10186 [10:24<6:44:01,  2.44s/it, v_num=uqm9, train/loss=7.1\r",
+      "Epoch 0:   3%| | 256/10186 [10:24<6:44:01,  2.44s/it, v_num=uqm9, train/loss=6.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 257/10186 [10:25<6:43:04,  2.44s/it, v_num=uqm9, train/loss=6.9\r",
+      "Epoch 0:   3%| | 257/10186 [10:25<6:43:04,  2.44s/it, v_num=uqm9, train/loss=6.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 258/10186 [10:27<6:42:08,  2.43s/it, v_num=uqm9, train/loss=6.9\r",
+      "Epoch 0:   3%| | 258/10186 [10:27<6:42:08,  2.43s/it, v_num=uqm9, train/loss=6.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 259/10186 [10:28<6:41:13,  2.43s/it, v_num=uqm9, train/loss=6.7\r",
+      "Epoch 0:   3%| | 259/10186 [10:28<6:41:13,  2.43s/it, v_num=uqm9, train/loss=6.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 260/10186 [10:34<6:43:43,  2.44s/it, v_num=uqm9, train/loss=6.7\r",
+      "Epoch 0:   3%| | 260/10186 [10:34<6:43:43,  2.44s/it, v_num=uqm9, train/loss=6.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 261/10186 [10:35<6:42:47,  2.44s/it, v_num=uqm9, train/loss=6.9\r",
+      "Epoch 0:   3%| | 261/10186 [10:35<6:42:47,  2.44s/it, v_num=uqm9, train/loss=6.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 262/10186 [10:36<6:41:52,  2.43s/it, v_num=uqm9, train/loss=6.9\r",
+      "Epoch 0:   3%| | 262/10186 [10:36<6:41:52,  2.43s/it, v_num=uqm9, train/loss=7.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 263/10186 [10:37<6:40:58,  2.42s/it, v_num=uqm9, train/loss=7.0\r",
+      "Epoch 0:   3%| | 263/10186 [10:37<6:40:58,  2.42s/it, v_num=uqm9, train/loss=6.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 264/10186 [10:44<6:43:26,  2.44s/it, v_num=uqm9, train/loss=6.8\r",
+      "Epoch 0:   3%| | 264/10186 [10:44<6:43:26,  2.44s/it, v_num=uqm9, train/loss=6.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 265/10186 [10:45<6:42:31,  2.43s/it, v_num=uqm9, train/loss=6.9\r",
+      "Epoch 0:   3%| | 265/10186 [10:45<6:42:31,  2.43s/it, v_num=uqm9, train/loss=6.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 266/10186 [10:46<6:41:37,  2.43s/it, v_num=uqm9, train/loss=6.7\r",
+      "Epoch 0:   3%| | 266/10186 [10:46<6:41:37,  2.43s/it, v_num=uqm9, train/loss=6.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 267/10186 [10:47<6:40:43,  2.42s/it, v_num=uqm9, train/loss=6.6\r",
+      "Epoch 0:   3%| | 267/10186 [10:47<6:40:43,  2.42s/it, v_num=uqm9, train/loss=6.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 268/10186 [10:53<6:43:09,  2.44s/it, v_num=uqm9, train/loss=6.7\r",
+      "Epoch 0:   3%| | 268/10186 [10:53<6:43:09,  2.44s/it, v_num=uqm9, train/loss=6.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 269/10186 [10:54<6:42:15,  2.43s/it, v_num=uqm9, train/loss=6.8\r",
+      "Epoch 0:   3%| | 269/10186 [10:54<6:42:15,  2.43s/it, v_num=uqm9, train/loss=6.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 270/10186 [10:55<6:41:21,  2.43s/it, v_num=uqm9, train/loss=6.8\r",
+      "Epoch 0:   3%| | 270/10186 [10:55<6:41:21,  2.43s/it, v_num=uqm9, train/loss=6.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 271/10186 [10:56<6:40:28,  2.42s/it, v_num=uqm9, train/loss=6.7\r",
+      "Epoch 0:   3%| | 271/10186 [10:56<6:40:28,  2.42s/it, v_num=uqm9, train/loss=7.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 272/10186 [11:03<6:42:52,  2.44s/it, v_num=uqm9, train/loss=7.1\r",
+      "Epoch 0:   3%| | 272/10186 [11:03<6:42:52,  2.44s/it, v_num=uqm9, train/loss=6.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 273/10186 [11:04<6:41:59,  2.43s/it, v_num=uqm9, train/loss=6.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 273/10186 [11:04<6:41:59,  2.43s/it, v_num=uqm9, train/loss=6.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 274/10186 [11:05<6:41:06,  2.43s/it, v_num=uqm9, train/loss=6.9\r",
+      "Epoch 0:   3%| | 274/10186 [11:05<6:41:06,  2.43s/it, v_num=uqm9, train/loss=6.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 275/10186 [11:06<6:40:14,  2.42s/it, v_num=uqm9, train/loss=6.6\r",
+      "Epoch 0:   3%| | 275/10186 [11:06<6:40:14,  2.42s/it, v_num=uqm9, train/loss=7.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 276/10186 [11:12<6:42:36,  2.44s/it, v_num=uqm9, train/loss=7.0\r",
+      "Epoch 0:   3%| | 276/10186 [11:12<6:42:36,  2.44s/it, v_num=uqm9, train/loss=6.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 277/10186 [11:13<6:41:43,  2.43s/it, v_num=uqm9, train/loss=6.7\r",
+      "Epoch 0:   3%| | 277/10186 [11:13<6:41:43,  2.43s/it, v_num=uqm9, train/loss=6.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 278/10186 [11:14<6:40:51,  2.43s/it, v_num=uqm9, train/loss=6.7\r",
+      "Epoch 0:   3%| | 278/10186 [11:14<6:40:51,  2.43s/it, v_num=uqm9, train/loss=7.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 279/10186 [11:15<6:40:00,  2.42s/it, v_num=uqm9, train/loss=7.5\r",
+      "Epoch 0:   3%| | 279/10186 [11:15<6:40:00,  2.42s/it, v_num=uqm9, train/loss=6.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 280/10186 [11:22<6:42:19,  2.44s/it, v_num=uqm9, train/loss=6.9\r",
+      "Epoch 0:   3%| | 280/10186 [11:22<6:42:19,  2.44s/it, v_num=uqm9, train/loss=6.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 281/10186 [11:23<6:41:27,  2.43s/it, v_num=uqm9, train/loss=6.6\r",
+      "Epoch 0:   3%| | 281/10186 [11:23<6:41:27,  2.43s/it, v_num=uqm9, train/loss=7.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 282/10186 [11:24<6:40:36,  2.43s/it, v_num=uqm9, train/loss=7.0\r",
+      "Epoch 0:   3%| | 282/10186 [11:24<6:40:36,  2.43s/it, v_num=uqm9, train/loss=6.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 283/10186 [11:25<6:39:45,  2.42s/it, v_num=uqm9, train/loss=6.6\r",
+      "Epoch 0:   3%| | 283/10186 [11:25<6:39:45,  2.42s/it, v_num=uqm9, train/loss=6.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 284/10186 [11:31<6:42:02,  2.44s/it, v_num=uqm9, train/loss=6.7\r",
+      "Epoch 0:   3%| | 284/10186 [11:31<6:42:02,  2.44s/it, v_num=uqm9, train/loss=6.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 285/10186 [11:32<6:41:11,  2.43s/it, v_num=uqm9, train/loss=6.5\r",
+      "Epoch 0:   3%| | 285/10186 [11:32<6:41:11,  2.43s/it, v_num=uqm9, train/loss=6.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 286/10186 [11:33<6:40:20,  2.43s/it, v_num=uqm9, train/loss=6.9\r",
+      "Epoch 0:   3%| | 286/10186 [11:33<6:40:20,  2.43s/it, v_num=uqm9, train/loss=6.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 287/10186 [11:34<6:39:30,  2.42s/it, v_num=uqm9, train/loss=6.8\r",
+      "Epoch 0:   3%| | 287/10186 [11:34<6:39:30,  2.42s/it, v_num=uqm9, train/loss=6.3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 288/10186 [11:41<6:41:46,  2.44s/it, v_num=uqm9, train/loss=6.3\r",
+      "Epoch 0:   3%| | 288/10186 [11:41<6:41:46,  2.44s/it, v_num=uqm9, train/loss=6.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 289/10186 [11:42<6:40:55,  2.43s/it, v_num=uqm9, train/loss=6.9\r",
+      "Epoch 0:   3%| | 289/10186 [11:42<6:40:55,  2.43s/it, v_num=uqm9, train/loss=6.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 290/10186 [11:43<6:40:06,  2.43s/it, v_num=uqm9, train/loss=6.6\r",
+      "Epoch 0:   3%| | 290/10186 [11:43<6:40:06,  2.43s/it, v_num=uqm9, train/loss=9.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 291/10186 [11:44<6:39:16,  2.42s/it, v_num=uqm9, train/loss=9.1\r",
+      "Epoch 0:   3%| | 291/10186 [11:44<6:39:16,  2.42s/it, v_num=uqm9, train/loss=6.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 292/10186 [11:50<6:41:30,  2.43s/it, v_num=uqm9, train/loss=6.8\r",
+      "Epoch 0:   3%| | 292/10186 [11:50<6:41:30,  2.43s/it, v_num=uqm9, train/loss=6.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 293/10186 [11:52<6:40:40,  2.43s/it, v_num=uqm9, train/loss=6.6\r",
+      "Epoch 0:   3%| | 293/10186 [11:52<6:40:40,  2.43s/it, v_num=uqm9, train/loss=6.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 294/10186 [11:53<6:39:51,  2.43s/it, v_num=uqm9, train/loss=6.8\r",
+      "Epoch 0:   3%| | 294/10186 [11:53<6:39:51,  2.43s/it, v_num=uqm9, train/loss=7.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 295/10186 [11:54<6:39:03,  2.42s/it, v_num=uqm9, train/loss=7.0\r",
+      "Epoch 0:   3%| | 295/10186 [11:54<6:39:03,  2.42s/it, v_num=uqm9, train/loss=7.2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 296/10186 [12:00<6:41:14,  2.43s/it, v_num=uqm9, train/loss=7.2\r",
+      "Epoch 0:   3%| | 296/10186 [12:00<6:41:14,  2.43s/it, v_num=uqm9, train/loss=6.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 297/10186 [12:01<6:40:25,  2.43s/it, v_num=uqm9, train/loss=6.6\r",
+      "Epoch 0:   3%| | 297/10186 [12:01<6:40:25,  2.43s/it, v_num=uqm9, train/loss=6.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 298/10186 [12:02<6:39:37,  2.42s/it, v_num=uqm9, train/loss=6.7\r",
+      "Epoch 0:   3%| | 298/10186 [12:02<6:39:37,  2.42s/it, v_num=uqm9, train/loss=6.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 299/10186 [12:03<6:38:48,  2.42s/it, v_num=uqm9, train/loss=6.6\r",
+      "Epoch 0:   3%| | 299/10186 [12:03<6:38:48,  2.42s/it, v_num=uqm9, train/loss=6.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 300/10186 [12:10<6:40:58,  2.43s/it, v_num=uqm9, train/loss=6.7\r",
+      "Epoch 0:   3%| | 300/10186 [12:10<6:40:58,  2.43s/it, v_num=uqm9, train/loss=6.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 301/10186 [12:11<6:40:10,  2.43s/it, v_num=uqm9, train/loss=6.5\r",
+      "Epoch 0:   3%| | 301/10186 [12:11<6:40:10,  2.43s/it, v_num=uqm9, train/loss=6.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 302/10186 [12:12<6:39:22,  2.42s/it, v_num=uqm9, train/loss=6.7\r",
+      "Epoch 0:   3%| | 302/10186 [12:12<6:39:22,  2.42s/it, v_num=uqm9, train/loss=6.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 303/10186 [12:13<6:38:35,  2.42s/it, v_num=uqm9, train/loss=6.7\r",
+      "Epoch 0:   3%| | 303/10186 [12:13<6:38:35,  2.42s/it, v_num=uqm9, train/loss=7.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 304/10186 [12:19<6:40:43,  2.43s/it, v_num=uqm9, train/loss=7.0\r",
+      "Epoch 0:   3%| | 304/10186 [12:19<6:40:43,  2.43s/it, v_num=uqm9, train/loss=6.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 305/10186 [12:20<6:39:55,  2.43s/it, v_num=uqm9, train/loss=6.6\r",
+      "Epoch 0:   3%| | 305/10186 [12:20<6:39:56,  2.43s/it, v_num=uqm9, train/loss=6.3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 306/10186 [12:21<6:39:08,  2.42s/it, v_num=uqm9, train/loss=6.3\r",
+      "Epoch 0:   3%| | 306/10186 [12:21<6:39:08,  2.42s/it, v_num=uqm9, train/loss=6.3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 307/10186 [12:22<6:38:22,  2.42s/it, v_num=uqm9, train/loss=6.3\r",
+      "Epoch 0:   3%| | 307/10186 [12:22<6:38:22,  2.42s/it, v_num=uqm9, train/loss=6.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 308/10186 [12:29<6:40:28,  2.43s/it, v_num=uqm9, train/loss=6.5\r",
+      "Epoch 0:   3%| | 308/10186 [12:29<6:40:28,  2.43s/it, v_num=uqm9, train/loss=6.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 309/10186 [12:30<6:39:41,  2.43s/it, v_num=uqm9, train/loss=6.4\r",
+      "Epoch 0:   3%| | 309/10186 [12:30<6:39:41,  2.43s/it, v_num=uqm9, train/loss=6.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 310/10186 [12:31<6:38:55,  2.42s/it, v_num=uqm9, train/loss=6.6\r",
+      "Epoch 0:   3%| | 310/10186 [12:31<6:38:55,  2.42s/it, v_num=uqm9, train/loss=7.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 311/10186 [12:32<6:38:09,  2.42s/it, v_num=uqm9, train/loss=7.0\r",
+      "Epoch 0:   3%| | 311/10186 [12:32<6:38:09,  2.42s/it, v_num=uqm9, train/loss=6.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 312/10186 [12:38<6:40:14,  2.43s/it, v_num=uqm9, train/loss=6.1\r",
+      "Epoch 0:   3%| | 312/10186 [12:38<6:40:14,  2.43s/it, v_num=uqm9, train/loss=6.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 313/10186 [12:39<6:39:27,  2.43s/it, v_num=uqm9, train/loss=6.5\r",
+      "Epoch 0:   3%| | 313/10186 [12:39<6:39:27,  2.43s/it, v_num=uqm9, train/loss=7.2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 314/10186 [12:40<6:38:41,  2.42s/it, v_num=uqm9, train/loss=7.2\r",
+      "Epoch 0:   3%| | 314/10186 [12:40<6:38:41,  2.42s/it, v_num=uqm9, train/loss=6.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 315/10186 [12:41<6:37:56,  2.42s/it, v_num=uqm9, train/loss=6.4\r",
+      "Epoch 0:   3%| | 315/10186 [12:41<6:37:56,  2.42s/it, v_num=uqm9, train/loss=6.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 316/10186 [12:48<6:39:59,  2.43s/it, v_num=uqm9, train/loss=6.9\r",
+      "Epoch 0:   3%| | 316/10186 [12:48<6:39:59,  2.43s/it, v_num=uqm9, train/loss=6.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 317/10186 [12:49<6:39:13,  2.43s/it, v_num=uqm9, train/loss=6.6\r",
+      "Epoch 0:   3%| | 317/10186 [12:49<6:39:13,  2.43s/it, v_num=uqm9, train/loss=6.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 318/10186 [12:50<6:38:28,  2.42s/it, v_num=uqm9, train/loss=6.4\r",
+      "Epoch 0:   3%| | 318/10186 [12:50<6:38:28,  2.42s/it, v_num=uqm9, train/loss=6.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 319/10186 [12:51<6:37:43,  2.42s/it, v_num=uqm9, train/loss=6.7\r",
+      "Epoch 0:   3%| | 319/10186 [12:51<6:37:43,  2.42s/it, v_num=uqm9, train/loss=6.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 320/10186 [12:57<6:39:44,  2.43s/it, v_num=uqm9, train/loss=6.5\r",
+      "Epoch 0:   3%| | 320/10186 [12:57<6:39:44,  2.43s/it, v_num=uqm9, train/loss=6.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 321/10186 [12:58<6:38:59,  2.43s/it, v_num=uqm9, train/loss=6.6\r",
+      "Epoch 0:   3%| | 321/10186 [12:58<6:38:59,  2.43s/it, v_num=uqm9, train/loss=6.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 322/10186 [13:00<6:38:14,  2.42s/it, v_num=uqm9, train/loss=6.7\r",
+      "Epoch 0:   3%| | 322/10186 [13:00<6:38:14,  2.42s/it, v_num=uqm9, train/loss=6.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 323/10186 [13:01<6:37:29,  2.42s/it, v_num=uqm9, train/loss=6.4\r",
+      "Epoch 0:   3%| | 323/10186 [13:01<6:37:29,  2.42s/it, v_num=uqm9, train/loss=6.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 324/10186 [13:07<6:39:29,  2.43s/it, v_num=uqm9, train/loss=6.7\r",
+      "Epoch 0:   3%| | 324/10186 [13:07<6:39:29,  2.43s/it, v_num=uqm9, train/loss=6.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 325/10186 [13:08<6:38:44,  2.43s/it, v_num=uqm9, train/loss=6.5\r",
+      "Epoch 0:   3%| | 325/10186 [13:08<6:38:44,  2.43s/it, v_num=uqm9, train/loss=6.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 326/10186 [13:09<6:38:00,  2.42s/it, v_num=uqm9, train/loss=6.5\r",
+      "Epoch 0:   3%| | 326/10186 [13:09<6:38:00,  2.42s/it, v_num=uqm9, train/loss=6.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 327/10186 [13:10<6:37:16,  2.42s/it, v_num=uqm9, train/loss=6.7\r",
+      "Epoch 0:   3%| | 327/10186 [13:10<6:37:16,  2.42s/it, v_num=uqm9, train/loss=6.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 328/10186 [13:17<6:39:15,  2.43s/it, v_num=uqm9, train/loss=6.6\r",
+      "Epoch 0:   3%| | 328/10186 [13:17<6:39:15,  2.43s/it, v_num=uqm9, train/loss=6.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 329/10186 [13:18<6:38:30,  2.43s/it, v_num=uqm9, train/loss=6.8\r",
+      "Epoch 0:   3%| | 329/10186 [13:18<6:38:30,  2.43s/it, v_num=uqm9, train/loss=6.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 330/10186 [13:19<6:37:47,  2.42s/it, v_num=uqm9, train/loss=6.9\r",
+      "Epoch 0:   3%| | 330/10186 [13:19<6:37:47,  2.42s/it, v_num=uqm9, train/loss=6.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 331/10186 [13:20<6:37:03,  2.42s/it, v_num=uqm9, train/loss=6.6\r",
+      "Epoch 0:   3%| | 331/10186 [13:20<6:37:03,  2.42s/it, v_num=uqm9, train/loss=6.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 332/10186 [13:26<6:39:00,  2.43s/it, v_num=uqm9, train/loss=6.6\r",
+      "Epoch 0:   3%| | 332/10186 [13:26<6:39:00,  2.43s/it, v_num=uqm9, train/loss=6.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 333/10186 [13:27<6:38:16,  2.43s/it, v_num=uqm9, train/loss=6.6\r",
+      "Epoch 0:   3%| | 333/10186 [13:27<6:38:16,  2.43s/it, v_num=uqm9, train/loss=6.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 334/10186 [13:28<6:37:33,  2.42s/it, v_num=uqm9, train/loss=6.7\r",
+      "Epoch 0:   3%| | 334/10186 [13:28<6:37:33,  2.42s/it, v_num=uqm9, train/loss=6.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 335/10186 [13:29<6:36:50,  2.42s/it, v_num=uqm9, train/loss=6.5\r",
+      "Epoch 0:   3%| | 335/10186 [13:29<6:36:50,  2.42s/it, v_num=uqm9, train/loss=6.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 336/10186 [13:36<6:38:46,  2.43s/it, v_num=uqm9, train/loss=6.5\r",
+      "Epoch 0:   3%| | 336/10186 [13:36<6:38:46,  2.43s/it, v_num=uqm9, train/loss=6.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 337/10186 [13:37<6:38:03,  2.42s/it, v_num=uqm9, train/loss=6.7\r",
+      "Epoch 0:   3%| | 337/10186 [13:37<6:38:03,  2.42s/it, v_num=uqm9, train/loss=6.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 338/10186 [13:38<6:37:20,  2.42s/it, v_num=uqm9, train/loss=6.7\r",
+      "Epoch 0:   3%| | 338/10186 [13:38<6:37:20,  2.42s/it, v_num=uqm9, train/loss=6.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 339/10186 [13:39<6:36:38,  2.42s/it, v_num=uqm9, train/loss=6.4\r",
+      "Epoch 0:   3%| | 339/10186 [13:39<6:36:38,  2.42s/it, v_num=uqm9, train/loss=6.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 340/10186 [13:45<6:38:32,  2.43s/it, v_num=uqm9, train/loss=6.8\r",
+      "Epoch 0:   3%| | 340/10186 [13:45<6:38:32,  2.43s/it, v_num=uqm9, train/loss=6.3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 341/10186 [13:46<6:37:49,  2.42s/it, v_num=uqm9, train/loss=6.3\r",
+      "Epoch 0:   3%| | 341/10186 [13:46<6:37:49,  2.42s/it, v_num=uqm9, train/loss=6.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 342/10186 [13:47<6:37:07,  2.42s/it, v_num=uqm9, train/loss=6.5\r",
+      "Epoch 0:   3%| | 342/10186 [13:47<6:37:07,  2.42s/it, v_num=uqm9, train/loss=6.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 343/10186 [13:48<6:36:25,  2.42s/it, v_num=uqm9, train/loss=6.4\r",
+      "Epoch 0:   3%| | 343/10186 [13:48<6:36:25,  2.42s/it, v_num=uqm9, train/loss=6.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 344/10186 [13:55<6:38:18,  2.43s/it, v_num=uqm9, train/loss=6.7\r",
+      "Epoch 0:   3%| | 344/10186 [13:55<6:38:18,  2.43s/it, v_num=uqm9, train/loss=7.3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 345/10186 [13:56<6:37:36,  2.42s/it, v_num=uqm9, train/loss=7.3\r",
+      "Epoch 0:   3%| | 345/10186 [13:56<6:37:36,  2.42s/it, v_num=uqm9, train/loss=6.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 346/10186 [13:57<6:36:54,  2.42s/it, v_num=uqm9, train/loss=6.4\r",
+      "Epoch 0:   3%| | 346/10186 [13:57<6:36:54,  2.42s/it, v_num=uqm9, train/loss=6.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 347/10186 [13:58<6:36:12,  2.42s/it, v_num=uqm9, train/loss=6.4\r",
+      "Epoch 0:   3%| | 347/10186 [13:58<6:36:12,  2.42s/it, v_num=uqm9, train/loss=6.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 348/10186 [14:04<6:38:04,  2.43s/it, v_num=uqm9, train/loss=6.8\r",
+      "Epoch 0:   3%| | 348/10186 [14:04<6:38:04,  2.43s/it, v_num=uqm9, train/loss=6.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 349/10186 [14:05<6:37:22,  2.42s/it, v_num=uqm9, train/loss=6.7\r",
+      "Epoch 0:   3%| | 349/10186 [14:05<6:37:22,  2.42s/it, v_num=uqm9, train/loss=6.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 350/10186 [14:06<6:36:41,  2.42s/it, v_num=uqm9, train/loss=6.5\r",
+      "Epoch 0:   3%| | 350/10186 [14:06<6:36:41,  2.42s/it, v_num=uqm9, train/loss=6.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 351/10186 [14:07<6:36:00,  2.42s/it, v_num=uqm9, train/loss=6.6\r",
+      "Epoch 0:   3%| | 351/10186 [14:07<6:36:00,  2.42s/it, v_num=uqm9, train/loss=6.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 352/10186 [14:14<6:37:50,  2.43s/it, v_num=uqm9, train/loss=6.8\r",
+      "Epoch 0:   3%| | 352/10186 [14:14<6:37:50,  2.43s/it, v_num=uqm9, train/loss=6.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 353/10186 [14:15<6:37:09,  2.42s/it, v_num=uqm9, train/loss=6.4\r",
+      "Epoch 0:   3%| | 353/10186 [14:15<6:37:09,  2.42s/it, v_num=uqm9, train/loss=6.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 354/10186 [14:16<6:36:28,  2.42s/it, v_num=uqm9, train/loss=6.5\r",
+      "Epoch 0:   3%| | 354/10186 [14:16<6:36:28,  2.42s/it, v_num=uqm9, train/loss=6.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 355/10186 [14:17<6:35:48,  2.42s/it, v_num=uqm9, train/loss=6.4\r",
+      "Epoch 0:   3%| | 355/10186 [14:17<6:35:48,  2.42s/it, v_num=uqm9, train/loss=6.3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 356/10186 [14:24<6:37:37,  2.43s/it, v_num=uqm9, train/loss=6.3\r",
+      "Epoch 0:   3%| | 356/10186 [14:24<6:37:37,  2.43s/it, v_num=uqm9, train/loss=6.2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 357/10186 [14:25<6:36:56,  2.42s/it, v_num=uqm9, train/loss=6.2\r",
+      "Epoch 0:   4%| | 357/10186 [14:25<6:36:56,  2.42s/it, v_num=uqm9, train/loss=6.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 358/10186 [14:26<6:36:16,  2.42s/it, v_num=uqm9, train/loss=6.9\r",
+      "Epoch 0:   4%| | 358/10186 [14:26<6:36:16,  2.42s/it, v_num=uqm9, train/loss=7.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 359/10186 [14:27<6:35:36,  2.42s/it, v_num=uqm9, train/loss=7.0\r",
+      "Epoch 0:   4%| | 359/10186 [14:27<6:35:36,  2.42s/it, v_num=uqm9, train/loss=6.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 360/10186 [14:33<6:37:24,  2.43s/it, v_num=uqm9, train/loss=6.5\r",
+      "Epoch 0:   4%| | 360/10186 [14:33<6:37:24,  2.43s/it, v_num=uqm9, train/loss=6.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 361/10186 [14:34<6:36:43,  2.42s/it, v_num=uqm9, train/loss=6.4\r",
+      "Epoch 0:   4%| | 361/10186 [14:34<6:36:43,  2.42s/it, v_num=uqm9, train/loss=6.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 362/10186 [14:35<6:36:03,  2.42s/it, v_num=uqm9, train/loss=6.5\r",
+      "Epoch 0:   4%| | 362/10186 [14:35<6:36:03,  2.42s/it, v_num=uqm9, train/loss=6.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 363/10186 [14:36<6:35:24,  2.42s/it, v_num=uqm9, train/loss=6.5\r",
+      "Epoch 0:   4%| | 363/10186 [14:36<6:35:24,  2.42s/it, v_num=uqm9, train/loss=6.2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 364/10186 [14:43<6:37:10,  2.43s/it, v_num=uqm9, train/loss=6.2\r",
+      "Epoch 0:   4%| | 364/10186 [14:43<6:37:10,  2.43s/it, v_num=uqm9, train/loss=6.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 365/10186 [14:44<6:36:30,  2.42s/it, v_num=uqm9, train/loss=6.5\r",
+      "Epoch 0:   4%| | 365/10186 [14:44<6:36:30,  2.42s/it, v_num=uqm9, train/loss=7.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 366/10186 [14:45<6:35:51,  2.42s/it, v_num=uqm9, train/loss=7.0\r",
+      "Epoch 0:   4%| | 366/10186 [14:45<6:35:51,  2.42s/it, v_num=uqm9, train/loss=6.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 367/10186 [14:46<6:35:12,  2.41s/it, v_num=uqm9, train/loss=6.5\r",
+      "Epoch 0:   4%| | 367/10186 [14:46<6:35:12,  2.41s/it, v_num=uqm9, train/loss=6.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 368/10186 [14:52<6:36:56,  2.43s/it, v_num=uqm9, train/loss=6.4\r",
+      "Epoch 0:   4%| | 368/10186 [14:52<6:36:56,  2.43s/it, v_num=uqm9, train/loss=6.3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 369/10186 [14:53<6:36:17,  2.42s/it, v_num=uqm9, train/loss=6.3\r",
+      "Epoch 0:   4%| | 369/10186 [14:53<6:36:17,  2.42s/it, v_num=uqm9, train/loss=6.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 370/10186 [14:54<6:35:38,  2.42s/it, v_num=uqm9, train/loss=6.1\r",
+      "Epoch 0:   4%| | 370/10186 [14:54<6:35:38,  2.42s/it, v_num=uqm9, train/loss=6.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 371/10186 [14:55<6:34:59,  2.41s/it, v_num=uqm9, train/loss=6.4\r",
+      "Epoch 0:   4%| | 371/10186 [14:55<6:34:59,  2.41s/it, v_num=uqm9, train/loss=6.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 372/10186 [15:02<6:36:43,  2.43s/it, v_num=uqm9, train/loss=6.4\r",
+      "Epoch 0:   4%| | 372/10186 [15:02<6:36:43,  2.43s/it, v_num=uqm9, train/loss=6.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 373/10186 [15:03<6:36:04,  2.42s/it, v_num=uqm9, train/loss=6.1\r",
+      "Epoch 0:   4%| | 373/10186 [15:03<6:36:04,  2.42s/it, v_num=uqm9, train/loss=6.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 374/10186 [15:04<6:35:26,  2.42s/it, v_num=uqm9, train/loss=6.5\r",
+      "Epoch 0:   4%| | 374/10186 [15:04<6:35:26,  2.42s/it, v_num=uqm9, train/loss=6.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 375/10186 [15:05<6:34:47,  2.41s/it, v_num=uqm9, train/loss=6.5\r",
+      "Epoch 0:   4%| | 375/10186 [15:05<6:34:47,  2.41s/it, v_num=uqm9, train/loss=6.3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 376/10186 [15:11<6:36:30,  2.43s/it, v_num=uqm9, train/loss=6.3\r",
+      "Epoch 0:   4%| | 376/10186 [15:11<6:36:30,  2.43s/it, v_num=uqm9, train/loss=6.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 377/10186 [15:12<6:35:51,  2.42s/it, v_num=uqm9, train/loss=6.5\r",
+      "Epoch 0:   4%| | 377/10186 [15:12<6:35:51,  2.42s/it, v_num=uqm9, train/loss=6.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 378/10186 [15:13<6:35:13,  2.42s/it, v_num=uqm9, train/loss=6.5\r",
+      "Epoch 0:   4%| | 378/10186 [15:13<6:35:13,  2.42s/it, v_num=uqm9, train/loss=6.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 379/10186 [15:14<6:34:35,  2.41s/it, v_num=uqm9, train/loss=6.5\r",
+      "Epoch 0:   4%| | 379/10186 [15:14<6:34:35,  2.41s/it, v_num=uqm9, train/loss=6.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 380/10186 [15:21<6:36:17,  2.42s/it, v_num=uqm9, train/loss=6.5\r",
+      "Epoch 0:   4%| | 380/10186 [15:21<6:36:17,  2.42s/it, v_num=uqm9, train/loss=6.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 381/10186 [15:22<6:35:39,  2.42s/it, v_num=uqm9, train/loss=6.5\r",
+      "Epoch 0:   4%| | 381/10186 [15:22<6:35:39,  2.42s/it, v_num=uqm9, train/loss=6.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 382/10186 [15:23<6:35:01,  2.42s/it, v_num=uqm9, train/loss=6.4\r",
+      "Epoch 0:   4%| | 382/10186 [15:23<6:35:01,  2.42s/it, v_num=uqm9, train/loss=6.2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 383/10186 [15:24<6:34:23,  2.41s/it, v_num=uqm9, train/loss=6.2\r",
+      "Epoch 0:   4%| | 383/10186 [15:24<6:34:24,  2.41s/it, v_num=uqm9, train/loss=6.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 384/10186 [15:30<6:36:04,  2.42s/it, v_num=uqm9, train/loss=6.4\r",
+      "Epoch 0:   4%| | 384/10186 [15:30<6:36:04,  2.42s/it, v_num=uqm9, train/loss=6.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 385/10186 [15:32<6:35:26,  2.42s/it, v_num=uqm9, train/loss=6.5\r",
+      "Epoch 0:   4%| | 385/10186 [15:32<6:35:26,  2.42s/it, v_num=uqm9, train/loss=6.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 386/10186 [15:33<6:34:49,  2.42s/it, v_num=uqm9, train/loss=6.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 386/10186 [15:33<6:34:49,  2.42s/it, v_num=uqm9, train/loss=7.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 387/10186 [15:34<6:34:12,  2.41s/it, v_num=uqm9, train/loss=7.4\r",
+      "Epoch 0:   4%| | 387/10186 [15:34<6:34:12,  2.41s/it, v_num=uqm9, train/loss=6.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 388/10186 [15:40<6:35:51,  2.42s/it, v_num=uqm9, train/loss=6.4\r",
+      "Epoch 0:   4%| | 388/10186 [15:40<6:35:51,  2.42s/it, v_num=uqm9, train/loss=6.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 389/10186 [15:41<6:35:13,  2.42s/it, v_num=uqm9, train/loss=6.6\r",
+      "Epoch 0:   4%| | 389/10186 [15:41<6:35:13,  2.42s/it, v_num=uqm9, train/loss=6.2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 390/10186 [15:42<6:34:36,  2.42s/it, v_num=uqm9, train/loss=6.2\r",
+      "Epoch 0:   4%| | 390/10186 [15:42<6:34:36,  2.42s/it, v_num=uqm9, train/loss=6.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 391/10186 [15:43<6:34:00,  2.41s/it, v_num=uqm9, train/loss=6.5\r",
+      "Epoch 0:   4%| | 391/10186 [15:43<6:34:00,  2.41s/it, v_num=uqm9, train/loss=6.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 392/10186 [15:50<6:35:38,  2.42s/it, v_num=uqm9, train/loss=6.6\r",
+      "Epoch 0:   4%| | 392/10186 [15:50<6:35:38,  2.42s/it, v_num=uqm9, train/loss=6.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 393/10186 [15:51<6:35:01,  2.42s/it, v_num=uqm9, train/loss=6.4\r",
+      "Epoch 0:   4%| | 393/10186 [15:51<6:35:01,  2.42s/it, v_num=uqm9, train/loss=6.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 394/10186 [15:52<6:34:25,  2.42s/it, v_num=uqm9, train/loss=6.4\r",
+      "Epoch 0:   4%| | 394/10186 [15:52<6:34:25,  2.42s/it, v_num=uqm9, train/loss=6.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 395/10186 [15:53<6:33:48,  2.41s/it, v_num=uqm9, train/loss=6.0\r",
+      "Epoch 0:   4%| | 395/10186 [15:53<6:33:48,  2.41s/it, v_num=uqm9, train/loss=6.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 396/10186 [15:59<6:35:26,  2.42s/it, v_num=uqm9, train/loss=6.5\r",
+      "Epoch 0:   4%| | 396/10186 [15:59<6:35:26,  2.42s/it, v_num=uqm9, train/loss=6.2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 397/10186 [16:00<6:34:49,  2.42s/it, v_num=uqm9, train/loss=6.2\r",
+      "Epoch 0:   4%| | 397/10186 [16:00<6:34:49,  2.42s/it, v_num=uqm9, train/loss=6.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 398/10186 [16:01<6:34:13,  2.42s/it, v_num=uqm9, train/loss=6.8\r",
+      "Epoch 0:   4%| | 398/10186 [16:01<6:34:13,  2.42s/it, v_num=uqm9, train/loss=6.2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 399/10186 [16:02<6:33:37,  2.41s/it, v_num=uqm9, train/loss=6.2\r",
+      "Epoch 0:   4%| | 399/10186 [16:02<6:33:37,  2.41s/it, v_num=uqm9, train/loss=6.3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 400/10186 [16:09<6:35:13,  2.42s/it, v_num=uqm9, train/loss=6.3\r",
+      "Epoch 0:   4%| | 400/10186 [16:09<6:35:13,  2.42s/it, v_num=uqm9, train/loss=6.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 401/10186 [16:10<6:34:37,  2.42s/it, v_num=uqm9, train/loss=6.0\r",
+      "Epoch 0:   4%| | 401/10186 [16:10<6:34:37,  2.42s/it, v_num=uqm9, train/loss=6.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 402/10186 [16:11<6:34:01,  2.42s/it, v_num=uqm9, train/loss=6.4\r",
+      "Epoch 0:   4%| | 402/10186 [16:11<6:34:01,  2.42s/it, v_num=uqm9, train/loss=6.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 403/10186 [16:12<6:33:25,  2.41s/it, v_num=uqm9, train/loss=6.5\r",
+      "Epoch 0:   4%| | 403/10186 [16:12<6:33:25,  2.41s/it, v_num=uqm9, train/loss=6.3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 404/10186 [16:18<6:35:00,  2.42s/it, v_num=uqm9, train/loss=6.3\r",
+      "Epoch 0:   4%| | 404/10186 [16:18<6:35:00,  2.42s/it, v_num=uqm9, train/loss=6.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 405/10186 [16:19<6:34:24,  2.42s/it, v_num=uqm9, train/loss=6.1\r",
+      "Epoch 0:   4%| | 405/10186 [16:19<6:34:24,  2.42s/it, v_num=uqm9, train/loss=6.3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 406/10186 [16:20<6:33:49,  2.42s/it, v_num=uqm9, train/loss=6.3\r",
+      "Epoch 0:   4%| | 406/10186 [16:20<6:33:49,  2.42s/it, v_num=uqm9, train/loss=6.3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 407/10186 [16:21<6:33:13,  2.41s/it, v_num=uqm9, train/loss=6.3\r",
+      "Epoch 0:   4%| | 407/10186 [16:21<6:33:13,  2.41s/it, v_num=uqm9, train/loss=6.3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 408/10186 [16:28<6:34:48,  2.42s/it, v_num=uqm9, train/loss=6.3\r",
+      "Epoch 0:   4%| | 408/10186 [16:28<6:34:48,  2.42s/it, v_num=uqm9, train/loss=6.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 409/10186 [16:29<6:34:12,  2.42s/it, v_num=uqm9, train/loss=6.0\r",
+      "Epoch 0:   4%| | 409/10186 [16:29<6:34:12,  2.42s/it, v_num=uqm9, train/loss=6.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 410/10186 [16:30<6:33:37,  2.42s/it, v_num=uqm9, train/loss=6.5\r",
+      "Epoch 0:   4%| | 410/10186 [16:30<6:33:37,  2.42s/it, v_num=uqm9, train/loss=6.3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 411/10186 [16:31<6:33:02,  2.41s/it, v_num=uqm9, train/loss=6.3\r",
+      "Epoch 0:   4%| | 411/10186 [16:31<6:33:02,  2.41s/it, v_num=uqm9, train/loss=6.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 412/10186 [16:37<6:34:35,  2.42s/it, v_num=uqm9, train/loss=6.1\r",
+      "Epoch 0:   4%| | 412/10186 [16:37<6:34:35,  2.42s/it, v_num=uqm9, train/loss=6.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 413/10186 [16:39<6:34:00,  2.42s/it, v_num=uqm9, train/loss=6.4\r",
+      "Epoch 0:   4%| | 413/10186 [16:39<6:34:00,  2.42s/it, v_num=uqm9, train/loss=6.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 414/10186 [16:40<6:33:25,  2.42s/it, v_num=uqm9, train/loss=6.1\r",
+      "Epoch 0:   4%| | 414/10186 [16:40<6:33:25,  2.42s/it, v_num=uqm9, train/loss=6.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 415/10186 [16:41<6:32:51,  2.41s/it, v_num=uqm9, train/loss=6.5\r",
+      "Epoch 0:   4%| | 415/10186 [16:41<6:32:51,  2.41s/it, v_num=uqm9, train/loss=6.2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 416/10186 [16:47<6:34:23,  2.42s/it, v_num=uqm9, train/loss=6.2\r",
+      "Epoch 0:   4%| | 416/10186 [16:47<6:34:23,  2.42s/it, v_num=uqm9, train/loss=6.3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 417/10186 [16:48<6:33:48,  2.42s/it, v_num=uqm9, train/loss=6.3\r",
+      "Epoch 0:   4%| | 417/10186 [16:48<6:33:48,  2.42s/it, v_num=uqm9, train/loss=6.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 418/10186 [16:49<6:33:14,  2.42s/it, v_num=uqm9, train/loss=6.1\r",
+      "Epoch 0:   4%| | 418/10186 [16:49<6:33:14,  2.42s/it, v_num=uqm9, train/loss=6.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 419/10186 [16:50<6:32:39,  2.41s/it, v_num=uqm9, train/loss=6.5\r",
+      "Epoch 0:   4%| | 419/10186 [16:50<6:32:39,  2.41s/it, v_num=uqm9, train/loss=6.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 420/10186 [16:57<6:34:11,  2.42s/it, v_num=uqm9, train/loss=6.0\r",
+      "Epoch 0:   4%| | 420/10186 [16:57<6:34:11,  2.42s/it, v_num=uqm9, train/loss=5.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 421/10186 [16:58<6:33:36,  2.42s/it, v_num=uqm9, train/loss=5.8\r",
+      "Epoch 0:   4%| | 421/10186 [16:58<6:33:36,  2.42s/it, v_num=uqm9, train/loss=6.3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 422/10186 [16:59<6:33:02,  2.42s/it, v_num=uqm9, train/loss=6.3\r",
+      "Epoch 0:   4%| | 422/10186 [16:59<6:33:02,  2.42s/it, v_num=uqm9, train/loss=6.3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 423/10186 [17:00<6:32:28,  2.41s/it, v_num=uqm9, train/loss=6.3\r",
+      "Epoch 0:   4%| | 423/10186 [17:00<6:32:28,  2.41s/it, v_num=uqm9, train/loss=6.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 424/10186 [17:06<6:33:58,  2.42s/it, v_num=uqm9, train/loss=6.5\r",
+      "Epoch 0:   4%| | 424/10186 [17:06<6:33:58,  2.42s/it, v_num=uqm9, train/loss=6.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 425/10186 [17:07<6:33:24,  2.42s/it, v_num=uqm9, train/loss=6.4\r",
+      "Epoch 0:   4%| | 425/10186 [17:07<6:33:24,  2.42s/it, v_num=uqm9, train/loss=6.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 426/10186 [17:08<6:32:50,  2.41s/it, v_num=uqm9, train/loss=6.4\r",
+      "Epoch 0:   4%| | 426/10186 [17:08<6:32:50,  2.41s/it, v_num=uqm9, train/loss=6.2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 427/10186 [17:09<6:32:16,  2.41s/it, v_num=uqm9, train/loss=6.2\r",
+      "Epoch 0:   4%| | 427/10186 [17:09<6:32:16,  2.41s/it, v_num=uqm9, train/loss=6.3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 428/10186 [17:16<6:33:46,  2.42s/it, v_num=uqm9, train/loss=6.3\r",
+      "Epoch 0:   4%| | 428/10186 [17:16<6:33:46,  2.42s/it, v_num=uqm9, train/loss=6.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 429/10186 [17:17<6:33:12,  2.42s/it, v_num=uqm9, train/loss=6.8\r",
+      "Epoch 0:   4%| | 429/10186 [17:17<6:33:12,  2.42s/it, v_num=uqm9, train/loss=6.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 430/10186 [17:18<6:32:38,  2.41s/it, v_num=uqm9, train/loss=6.4\r",
+      "Epoch 0:   4%| | 430/10186 [17:18<6:32:38,  2.41s/it, v_num=uqm9, train/loss=6.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 431/10186 [17:19<6:32:05,  2.41s/it, v_num=uqm9, train/loss=6.0\r",
+      "Epoch 0:   4%| | 431/10186 [17:19<6:32:05,  2.41s/it, v_num=uqm9, train/loss=6.3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 432/10186 [17:25<6:33:34,  2.42s/it, v_num=uqm9, train/loss=6.3\r",
+      "Epoch 0:   4%| | 432/10186 [17:25<6:33:34,  2.42s/it, v_num=uqm9, train/loss=6.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 433/10186 [17:26<6:33:00,  2.42s/it, v_num=uqm9, train/loss=6.1\r",
+      "Epoch 0:   4%| | 433/10186 [17:26<6:33:00,  2.42s/it, v_num=uqm9, train/loss=6.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 434/10186 [17:27<6:32:27,  2.41s/it, v_num=uqm9, train/loss=6.4\r",
+      "Epoch 0:   4%| | 434/10186 [17:27<6:32:27,  2.41s/it, v_num=uqm9, train/loss=6.3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 435/10186 [17:28<6:31:53,  2.41s/it, v_num=uqm9, train/loss=6.3\r",
+      "Epoch 0:   4%| | 435/10186 [17:28<6:31:53,  2.41s/it, v_num=uqm9, train/loss=6.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 436/10186 [17:35<6:33:22,  2.42s/it, v_num=uqm9, train/loss=6.1\r",
+      "Epoch 0:   4%| | 436/10186 [17:35<6:33:22,  2.42s/it, v_num=uqm9, train/loss=6.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 437/10186 [17:36<6:32:48,  2.42s/it, v_num=uqm9, train/loss=6.4\r",
+      "Epoch 0:   4%| | 437/10186 [17:36<6:32:48,  2.42s/it, v_num=uqm9, train/loss=6.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 438/10186 [17:37<6:32:15,  2.41s/it, v_num=uqm9, train/loss=6.0\r",
+      "Epoch 0:   4%| | 438/10186 [17:37<6:32:15,  2.41s/it, v_num=uqm9, train/loss=6.3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 439/10186 [17:38<6:31:42,  2.41s/it, v_num=uqm9, train/loss=6.3\r",
+      "Epoch 0:   4%| | 439/10186 [17:38<6:31:42,  2.41s/it, v_num=uqm9, train/loss=6.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 440/10186 [17:45<6:33:10,  2.42s/it, v_num=uqm9, train/loss=6.1\r",
+      "Epoch 0:   4%| | 440/10186 [17:45<6:33:10,  2.42s/it, v_num=uqm9, train/loss=6.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 441/10186 [17:46<6:32:37,  2.42s/it, v_num=uqm9, train/loss=6.7\r",
+      "Epoch 0:   4%| | 441/10186 [17:46<6:32:37,  2.42s/it, v_num=uqm9, train/loss=6.3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 442/10186 [17:47<6:32:04,  2.41s/it, v_num=uqm9, train/loss=6.3\r",
+      "Epoch 0:   4%| | 442/10186 [17:47<6:32:04,  2.41s/it, v_num=uqm9, train/loss=6.3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 443/10186 [17:48<6:31:31,  2.41s/it, v_num=uqm9, train/loss=6.3\r",
+      "Epoch 0:   4%| | 443/10186 [17:48<6:31:31,  2.41s/it, v_num=uqm9, train/loss=6.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 444/10186 [17:54<6:32:57,  2.42s/it, v_num=uqm9, train/loss=6.1\r",
+      "Epoch 0:   4%| | 444/10186 [17:54<6:32:57,  2.42s/it, v_num=uqm9, train/loss=6.3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 445/10186 [17:55<6:32:25,  2.42s/it, v_num=uqm9, train/loss=6.3\r",
+      "Epoch 0:   4%| | 445/10186 [17:55<6:32:25,  2.42s/it, v_num=uqm9, train/loss=6.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 446/10186 [17:56<6:31:52,  2.41s/it, v_num=uqm9, train/loss=6.5\r",
+      "Epoch 0:   4%| | 446/10186 [17:56<6:31:52,  2.41s/it, v_num=uqm9, train/loss=6.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 447/10186 [17:57<6:31:20,  2.41s/it, v_num=uqm9, train/loss=6.7\r",
+      "Epoch 0:   4%| | 447/10186 [17:57<6:31:20,  2.41s/it, v_num=uqm9, train/loss=6.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 448/10186 [18:04<6:32:45,  2.42s/it, v_num=uqm9, train/loss=6.7\r",
+      "Epoch 0:   4%| | 448/10186 [18:04<6:32:45,  2.42s/it, v_num=uqm9, train/loss=6.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 449/10186 [18:05<6:32:13,  2.42s/it, v_num=uqm9, train/loss=6.4\r",
+      "Epoch 0:   4%| | 449/10186 [18:05<6:32:13,  2.42s/it, v_num=uqm9, train/loss=6.2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 450/10186 [18:06<6:31:41,  2.41s/it, v_num=uqm9, train/loss=6.2\r",
+      "Epoch 0:   4%| | 450/10186 [18:06<6:31:41,  2.41s/it, v_num=uqm9, train/loss=5.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 451/10186 [18:07<6:31:09,  2.41s/it, v_num=uqm9, train/loss=5.9\r",
+      "Epoch 0:   4%| | 451/10186 [18:07<6:31:09,  2.41s/it, v_num=uqm9, train/loss=6.2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 452/10186 [18:13<6:32:33,  2.42s/it, v_num=uqm9, train/loss=6.2\r",
+      "Epoch 0:   4%| | 452/10186 [18:13<6:32:33,  2.42s/it, v_num=uqm9, train/loss=6.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 453/10186 [18:14<6:32:01,  2.42s/it, v_num=uqm9, train/loss=6.5\r",
+      "Epoch 0:   4%| | 453/10186 [18:14<6:32:01,  2.42s/it, v_num=uqm9, train/loss=6.2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 454/10186 [18:15<6:31:29,  2.41s/it, v_num=uqm9, train/loss=6.2\r",
+      "Epoch 0:   4%| | 454/10186 [18:15<6:31:29,  2.41s/it, v_num=uqm9, train/loss=6.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 455/10186 [18:16<6:30:58,  2.41s/it, v_num=uqm9, train/loss=6.1\r",
+      "Epoch 0:   4%| | 455/10186 [18:16<6:30:58,  2.41s/it, v_num=uqm9, train/loss=6.2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 456/10186 [18:23<6:32:21,  2.42s/it, v_num=uqm9, train/loss=6.2\r",
+      "Epoch 0:   4%| | 456/10186 [18:23<6:32:21,  2.42s/it, v_num=uqm9, train/loss=6.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 457/10186 [18:24<6:31:49,  2.42s/it, v_num=uqm9, train/loss=6.4\r",
+      "Epoch 0:   4%| | 457/10186 [18:24<6:31:49,  2.42s/it, v_num=uqm9, train/loss=6.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%| | 458/10186 [18:25<6:31:18,  2.41s/it, v_num=uqm9, train/loss=6.0\r",
+      "Epoch 0:   4%| | 458/10186 [18:25<6:31:18,  2.41s/it, v_num=uqm9, train/loss=6.3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 459/10186 [18:26<6:30:46,  2.41s/it, v_num=uqm9, train/loss=6.3\r",
+      "Epoch 0:   5%| | 459/10186 [18:26<6:30:46,  2.41s/it, v_num=uqm9, train/loss=6.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 460/10186 [18:32<6:32:09,  2.42s/it, v_num=uqm9, train/loss=6.0\r",
+      "Epoch 0:   5%| | 460/10186 [18:32<6:32:09,  2.42s/it, v_num=uqm9, train/loss=6.2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 461/10186 [18:33<6:31:38,  2.42s/it, v_num=uqm9, train/loss=6.2\r",
+      "Epoch 0:   5%| | 461/10186 [18:33<6:31:38,  2.42s/it, v_num=uqm9, train/loss=5.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 462/10186 [18:34<6:31:07,  2.41s/it, v_num=uqm9, train/loss=5.8\r",
+      "Epoch 0:   5%| | 462/10186 [18:34<6:31:07,  2.41s/it, v_num=uqm9, train/loss=6.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 463/10186 [18:35<6:30:35,  2.41s/it, v_num=uqm9, train/loss=6.5\r",
+      "Epoch 0:   5%| | 463/10186 [18:35<6:30:35,  2.41s/it, v_num=uqm9, train/loss=6.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 464/10186 [18:42<6:31:58,  2.42s/it, v_num=uqm9, train/loss=6.5\r",
+      "Epoch 0:   5%| | 464/10186 [18:42<6:31:58,  2.42s/it, v_num=uqm9, train/loss=5.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 465/10186 [18:43<6:31:26,  2.42s/it, v_num=uqm9, train/loss=5.9\r",
+      "Epoch 0:   5%| | 465/10186 [18:43<6:31:26,  2.42s/it, v_num=uqm9, train/loss=6.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 466/10186 [18:44<6:30:55,  2.41s/it, v_num=uqm9, train/loss=6.1\r",
+      "Epoch 0:   5%| | 466/10186 [18:44<6:30:55,  2.41s/it, v_num=uqm9, train/loss=6.2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 467/10186 [18:45<6:30:24,  2.41s/it, v_num=uqm9, train/loss=6.2\r",
+      "Epoch 0:   5%| | 467/10186 [18:45<6:30:24,  2.41s/it, v_num=uqm9, train/loss=6.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 468/10186 [18:52<6:31:45,  2.42s/it, v_num=uqm9, train/loss=6.5\r",
+      "Epoch 0:   5%| | 468/10186 [18:52<6:31:45,  2.42s/it, v_num=uqm9, train/loss=6.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 469/10186 [18:53<6:31:14,  2.42s/it, v_num=uqm9, train/loss=6.1\r",
+      "Epoch 0:   5%| | 469/10186 [18:53<6:31:14,  2.42s/it, v_num=uqm9, train/loss=6.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 470/10186 [18:54<6:30:44,  2.41s/it, v_num=uqm9, train/loss=6.1\r",
+      "Epoch 0:   5%| | 470/10186 [18:54<6:30:44,  2.41s/it, v_num=uqm9, train/loss=6.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 471/10186 [18:55<6:30:13,  2.41s/it, v_num=uqm9, train/loss=6.5\r",
+      "Epoch 0:   5%| | 471/10186 [18:55<6:30:13,  2.41s/it, v_num=uqm9, train/loss=6.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 472/10186 [19:01<6:31:34,  2.42s/it, v_num=uqm9, train/loss=6.1\r",
+      "Epoch 0:   5%| | 472/10186 [19:01<6:31:34,  2.42s/it, v_num=uqm9, train/loss=6.2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 473/10186 [19:02<6:31:03,  2.42s/it, v_num=uqm9, train/loss=6.2\r",
+      "Epoch 0:   5%| | 473/10186 [19:02<6:31:03,  2.42s/it, v_num=uqm9, train/loss=6.2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 474/10186 [19:03<6:30:32,  2.41s/it, v_num=uqm9, train/loss=6.2\r",
+      "Epoch 0:   5%| | 474/10186 [19:03<6:30:32,  2.41s/it, v_num=uqm9, train/loss=6.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 475/10186 [19:04<6:30:02,  2.41s/it, v_num=uqm9, train/loss=6.1\r",
+      "Epoch 0:   5%| | 475/10186 [19:04<6:30:02,  2.41s/it, v_num=uqm9, train/loss=6.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 476/10186 [19:11<6:31:22,  2.42s/it, v_num=uqm9, train/loss=6.0\r",
+      "Epoch 0:   5%| | 476/10186 [19:11<6:31:22,  2.42s/it, v_num=uqm9, train/loss=6.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 477/10186 [19:12<6:30:51,  2.42s/it, v_num=uqm9, train/loss=6.1\r",
+      "Epoch 0:   5%| | 477/10186 [19:12<6:30:51,  2.42s/it, v_num=uqm9, train/loss=6.3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 478/10186 [19:13<6:30:21,  2.41s/it, v_num=uqm9, train/loss=6.3\r",
+      "Epoch 0:   5%| | 478/10186 [19:13<6:30:21,  2.41s/it, v_num=uqm9, train/loss=6.2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 479/10186 [19:14<6:29:51,  2.41s/it, v_num=uqm9, train/loss=6.2\r",
+      "Epoch 0:   5%| | 479/10186 [19:14<6:29:51,  2.41s/it, v_num=uqm9, train/loss=6.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 480/10186 [19:20<6:31:10,  2.42s/it, v_num=uqm9, train/loss=6.8\r",
+      "Epoch 0:   5%| | 480/10186 [19:20<6:31:10,  2.42s/it, v_num=uqm9, train/loss=6.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 481/10186 [19:21<6:30:40,  2.42s/it, v_num=uqm9, train/loss=6.4\r",
+      "Epoch 0:   5%| | 481/10186 [19:21<6:30:40,  2.42s/it, v_num=uqm9, train/loss=6.3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 482/10186 [19:22<6:30:10,  2.41s/it, v_num=uqm9, train/loss=6.3\r",
+      "Epoch 0:   5%| | 482/10186 [19:22<6:30:10,  2.41s/it, v_num=uqm9, train/loss=6.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 483/10186 [19:23<6:29:40,  2.41s/it, v_num=uqm9, train/loss=6.7\r",
+      "Epoch 0:   5%| | 483/10186 [19:23<6:29:40,  2.41s/it, v_num=uqm9, train/loss=6.3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 484/10186 [19:30<6:30:58,  2.42s/it, v_num=uqm9, train/loss=6.3\r",
+      "Epoch 0:   5%| | 484/10186 [19:30<6:30:58,  2.42s/it, v_num=uqm9, train/loss=6.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 485/10186 [19:31<6:30:28,  2.42s/it, v_num=uqm9, train/loss=6.6\r",
+      "Epoch 0:   5%| | 485/10186 [19:31<6:30:28,  2.42s/it, v_num=uqm9, train/loss=6.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 486/10186 [19:32<6:29:59,  2.41s/it, v_num=uqm9, train/loss=6.0\r",
+      "Epoch 0:   5%| | 486/10186 [19:32<6:29:59,  2.41s/it, v_num=uqm9, train/loss=6.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 487/10186 [19:33<6:29:29,  2.41s/it, v_num=uqm9, train/loss=6.0\r",
+      "Epoch 0:   5%| | 487/10186 [19:33<6:29:29,  2.41s/it, v_num=uqm9, train/loss=6.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 488/10186 [19:39<6:30:47,  2.42s/it, v_num=uqm9, train/loss=6.4\r",
+      "Epoch 0:   5%| | 488/10186 [19:39<6:30:47,  2.42s/it, v_num=uqm9, train/loss=6.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 489/10186 [19:40<6:30:17,  2.41s/it, v_num=uqm9, train/loss=6.5\r",
+      "Epoch 0:   5%| | 489/10186 [19:40<6:30:17,  2.41s/it, v_num=uqm9, train/loss=6.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 490/10186 [19:41<6:29:47,  2.41s/it, v_num=uqm9, train/loss=6.0\r",
+      "Epoch 0:   5%| | 490/10186 [19:41<6:29:47,  2.41s/it, v_num=uqm9, train/loss=6.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 491/10186 [19:42<6:29:18,  2.41s/it, v_num=uqm9, train/loss=6.1\r",
+      "Epoch 0:   5%| | 491/10186 [19:42<6:29:18,  2.41s/it, v_num=uqm9, train/loss=6.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 492/10186 [19:49<6:30:35,  2.42s/it, v_num=uqm9, train/loss=6.0\r",
+      "Epoch 0:   5%| | 492/10186 [19:49<6:30:35,  2.42s/it, v_num=uqm9, train/loss=6.2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 493/10186 [19:50<6:30:05,  2.41s/it, v_num=uqm9, train/loss=6.2\r",
+      "Epoch 0:   5%| | 493/10186 [19:50<6:30:05,  2.41s/it, v_num=uqm9, train/loss=6.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 494/10186 [19:51<6:29:36,  2.41s/it, v_num=uqm9, train/loss=6.1\r",
+      "Epoch 0:   5%| | 494/10186 [19:51<6:29:36,  2.41s/it, v_num=uqm9, train/loss=6.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 495/10186 [19:52<6:29:07,  2.41s/it, v_num=uqm9, train/loss=6.1\r",
+      "Epoch 0:   5%| | 495/10186 [19:52<6:29:07,  2.41s/it, v_num=uqm9, train/loss=6.3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 496/10186 [19:59<6:30:24,  2.42s/it, v_num=uqm9, train/loss=6.3\r",
+      "Epoch 0:   5%| | 496/10186 [19:59<6:30:24,  2.42s/it, v_num=uqm9, train/loss=6.2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 497/10186 [20:00<6:29:54,  2.41s/it, v_num=uqm9, train/loss=6.2\r",
+      "Epoch 0:   5%| | 497/10186 [20:00<6:29:54,  2.41s/it, v_num=uqm9, train/loss=6.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 498/10186 [20:01<6:29:25,  2.41s/it, v_num=uqm9, train/loss=6.0\r",
+      "Epoch 0:   5%| | 498/10186 [20:01<6:29:25,  2.41s/it, v_num=uqm9, train/loss=5.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 499/10186 [20:02<6:28:56,  2.41s/it, v_num=uqm9, train/loss=5.6\r",
+      "Epoch 0:   5%| | 499/10186 [20:02<6:28:56,  2.41s/it, v_num=uqm9, train/loss=6.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 500/10186 [20:08<6:30:12,  2.42s/it, v_num=uqm9, train/loss=6.0\r",
+      "Epoch 0:   5%| | 500/10186 [20:08<6:30:12,  2.42s/it, v_num=uqm9, train/loss=6.2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 501/10186 [20:09<6:29:43,  2.41s/it, v_num=uqm9, train/loss=6.2\r",
+      "Epoch 0:   5%| | 501/10186 [20:09<6:29:43,  2.41s/it, v_num=uqm9, train/loss=6.2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 502/10186 [20:10<6:29:14,  2.41s/it, v_num=uqm9, train/loss=6.2\r",
+      "Epoch 0:   5%| | 502/10186 [20:10<6:29:14,  2.41s/it, v_num=uqm9, train/loss=6.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 503/10186 [20:11<6:28:45,  2.41s/it, v_num=uqm9, train/loss=6.0\r",
+      "Epoch 0:   5%| | 503/10186 [20:11<6:28:45,  2.41s/it, v_num=uqm9, train/loss=5.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 504/10186 [20:18<6:30:00,  2.42s/it, v_num=uqm9, train/loss=5.9\r",
+      "Epoch 0:   5%| | 504/10186 [20:18<6:30:00,  2.42s/it, v_num=uqm9, train/loss=6.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 505/10186 [20:19<6:29:31,  2.41s/it, v_num=uqm9, train/loss=6.0\r",
+      "Epoch 0:   5%| | 505/10186 [20:19<6:29:31,  2.41s/it, v_num=uqm9, train/loss=5.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 506/10186 [20:20<6:29:03,  2.41s/it, v_num=uqm9, train/loss=5.8\r",
+      "Epoch 0:   5%| | 506/10186 [20:20<6:29:03,  2.41s/it, v_num=uqm9, train/loss=5.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 507/10186 [20:21<6:28:34,  2.41s/it, v_num=uqm9, train/loss=5.9\r",
+      "Epoch 0:   5%| | 507/10186 [20:21<6:28:34,  2.41s/it, v_num=uqm9, train/loss=5.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 508/10186 [20:27<6:29:49,  2.42s/it, v_num=uqm9, train/loss=5.9\r",
+      "Epoch 0:   5%| | 508/10186 [20:27<6:29:49,  2.42s/it, v_num=uqm9, train/loss=6.3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 509/10186 [20:28<6:29:20,  2.41s/it, v_num=uqm9, train/loss=6.3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 509/10186 [20:28<6:29:20,  2.41s/it, v_num=uqm9, train/loss=6.3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 510/10186 [20:29<6:28:52,  2.41s/it, v_num=uqm9, train/loss=6.3\r",
+      "Epoch 0:   5%| | 510/10186 [20:29<6:28:52,  2.41s/it, v_num=uqm9, train/loss=6.3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 511/10186 [20:30<6:28:24,  2.41s/it, v_num=uqm9, train/loss=6.3\r",
+      "Epoch 0:   5%| | 511/10186 [20:30<6:28:24,  2.41s/it, v_num=uqm9, train/loss=6.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 512/10186 [20:37<6:29:38,  2.42s/it, v_num=uqm9, train/loss=6.4\r",
+      "Epoch 0:   5%| | 512/10186 [20:37<6:29:38,  2.42s/it, v_num=uqm9, train/loss=5.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 513/10186 [20:38<6:29:09,  2.41s/it, v_num=uqm9, train/loss=5.5\r",
+      "Epoch 0:   5%| | 513/10186 [20:38<6:29:09,  2.41s/it, v_num=uqm9, train/loss=5.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 514/10186 [20:39<6:28:41,  2.41s/it, v_num=uqm9, train/loss=5.9\r",
+      "Epoch 0:   5%| | 514/10186 [20:39<6:28:41,  2.41s/it, v_num=uqm9, train/loss=6.2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 515/10186 [20:40<6:28:13,  2.41s/it, v_num=uqm9, train/loss=6.2\r",
+      "Epoch 0:   5%| | 515/10186 [20:40<6:28:13,  2.41s/it, v_num=uqm9, train/loss=6.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 516/10186 [20:46<6:29:26,  2.42s/it, v_num=uqm9, train/loss=6.1\r",
+      "Epoch 0:   5%| | 516/10186 [20:46<6:29:26,  2.42s/it, v_num=uqm9, train/loss=6.2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 517/10186 [20:47<6:28:58,  2.41s/it, v_num=uqm9, train/loss=6.2\r",
+      "Epoch 0:   5%| | 517/10186 [20:47<6:28:58,  2.41s/it, v_num=uqm9, train/loss=6.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 518/10186 [20:48<6:28:30,  2.41s/it, v_num=uqm9, train/loss=6.1\r",
+      "Epoch 0:   5%| | 518/10186 [20:48<6:28:30,  2.41s/it, v_num=uqm9, train/loss=6.2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 519/10186 [20:49<6:28:02,  2.41s/it, v_num=uqm9, train/loss=6.2\r",
+      "Epoch 0:   5%| | 519/10186 [20:49<6:28:02,  2.41s/it, v_num=uqm9, train/loss=5.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 520/10186 [20:56<6:29:15,  2.42s/it, v_num=uqm9, train/loss=5.5\r",
+      "Epoch 0:   5%| | 520/10186 [20:56<6:29:15,  2.42s/it, v_num=uqm9, train/loss=5.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 521/10186 [20:57<6:28:47,  2.41s/it, v_num=uqm9, train/loss=5.5\r",
+      "Epoch 0:   5%| | 521/10186 [20:57<6:28:47,  2.41s/it, v_num=uqm9, train/loss=6.2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 522/10186 [20:58<6:28:19,  2.41s/it, v_num=uqm9, train/loss=6.2\r",
+      "Epoch 0:   5%| | 522/10186 [20:58<6:28:19,  2.41s/it, v_num=uqm9, train/loss=5.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 523/10186 [20:59<6:27:51,  2.41s/it, v_num=uqm9, train/loss=5.9\r",
+      "Epoch 0:   5%| | 523/10186 [20:59<6:27:51,  2.41s/it, v_num=uqm9, train/loss=5.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 524/10186 [21:05<6:29:03,  2.42s/it, v_num=uqm9, train/loss=5.8\r",
+      "Epoch 0:   5%| | 524/10186 [21:05<6:29:03,  2.42s/it, v_num=uqm9, train/loss=6.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 525/10186 [21:07<6:28:35,  2.41s/it, v_num=uqm9, train/loss=6.0\r",
+      "Epoch 0:   5%| | 525/10186 [21:07<6:28:35,  2.41s/it, v_num=uqm9, train/loss=5.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 526/10186 [21:08<6:28:08,  2.41s/it, v_num=uqm9, train/loss=5.8\r",
+      "Epoch 0:   5%| | 526/10186 [21:08<6:28:08,  2.41s/it, v_num=uqm9, train/loss=5.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 527/10186 [21:09<6:27:40,  2.41s/it, v_num=uqm9, train/loss=5.8\r",
+      "Epoch 0:   5%| | 527/10186 [21:09<6:27:40,  2.41s/it, v_num=uqm9, train/loss=6.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 528/10186 [21:15<6:28:52,  2.42s/it, v_num=uqm9, train/loss=6.1\r",
+      "Epoch 0:   5%| | 528/10186 [21:15<6:28:52,  2.42s/it, v_num=uqm9, train/loss=5.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 529/10186 [21:16<6:28:25,  2.41s/it, v_num=uqm9, train/loss=5.9\r",
+      "Epoch 0:   5%| | 529/10186 [21:16<6:28:25,  2.41s/it, v_num=uqm9, train/loss=5.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 530/10186 [21:17<6:27:57,  2.41s/it, v_num=uqm9, train/loss=5.9\r",
+      "Epoch 0:   5%| | 530/10186 [21:17<6:27:57,  2.41s/it, v_num=uqm9, train/loss=5.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 531/10186 [21:18<6:27:30,  2.41s/it, v_num=uqm9, train/loss=5.4\r",
+      "Epoch 0:   5%| | 531/10186 [21:18<6:27:30,  2.41s/it, v_num=uqm9, train/loss=5.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 532/10186 [21:25<6:28:41,  2.42s/it, v_num=uqm9, train/loss=5.9\r",
+      "Epoch 0:   5%| | 532/10186 [21:25<6:28:41,  2.42s/it, v_num=uqm9, train/loss=5.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 533/10186 [21:26<6:28:14,  2.41s/it, v_num=uqm9, train/loss=5.9\r",
+      "Epoch 0:   5%| | 533/10186 [21:26<6:28:14,  2.41s/it, v_num=uqm9, train/loss=5.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 534/10186 [21:27<6:27:47,  2.41s/it, v_num=uqm9, train/loss=5.9\r",
+      "Epoch 0:   5%| | 534/10186 [21:27<6:27:47,  2.41s/it, v_num=uqm9, train/loss=6.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 535/10186 [21:28<6:27:19,  2.41s/it, v_num=uqm9, train/loss=6.0\r",
+      "Epoch 0:   5%| | 535/10186 [21:28<6:27:19,  2.41s/it, v_num=uqm9, train/loss=6.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 536/10186 [21:34<6:28:30,  2.42s/it, v_num=uqm9, train/loss=6.0\r",
+      "Epoch 0:   5%| | 536/10186 [21:34<6:28:30,  2.42s/it, v_num=uqm9, train/loss=5.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 537/10186 [21:35<6:28:03,  2.41s/it, v_num=uqm9, train/loss=5.5\r",
+      "Epoch 0:   5%| | 537/10186 [21:35<6:28:03,  2.41s/it, v_num=uqm9, train/loss=6.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 538/10186 [21:36<6:27:36,  2.41s/it, v_num=uqm9, train/loss=6.0\r",
+      "Epoch 0:   5%| | 538/10186 [21:36<6:27:36,  2.41s/it, v_num=uqm9, train/loss=5.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 539/10186 [21:37<6:27:09,  2.41s/it, v_num=uqm9, train/loss=5.8\r",
+      "Epoch 0:   5%| | 539/10186 [21:37<6:27:09,  2.41s/it, v_num=uqm9, train/loss=6.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 540/10186 [21:44<6:28:19,  2.42s/it, v_num=uqm9, train/loss=6.1\r",
+      "Epoch 0:   5%| | 540/10186 [21:44<6:28:19,  2.42s/it, v_num=uqm9, train/loss=6.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 541/10186 [21:45<6:27:52,  2.41s/it, v_num=uqm9, train/loss=6.0\r",
+      "Epoch 0:   5%| | 541/10186 [21:45<6:27:52,  2.41s/it, v_num=uqm9, train/loss=6.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 542/10186 [21:46<6:27:25,  2.41s/it, v_num=uqm9, train/loss=6.1\r",
+      "Epoch 0:   5%| | 542/10186 [21:46<6:27:25,  2.41s/it, v_num=uqm9, train/loss=5.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 543/10186 [21:47<6:26:58,  2.41s/it, v_num=uqm9, train/loss=5.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 543/10186 [21:47<6:26:58,  2.41s/it, v_num=uqm9, train/loss=5.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 544/10186 [21:53<6:28:08,  2.42s/it, v_num=uqm9, train/loss=5.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 544/10186 [21:53<6:28:08,  2.42s/it, v_num=uqm9, train/loss=5.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 545/10186 [21:54<6:27:41,  2.41s/it, v_num=uqm9, train/loss=5.8\r",
+      "Epoch 0:   5%| | 545/10186 [21:54<6:27:41,  2.41s/it, v_num=uqm9, train/loss=5.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 546/10186 [21:55<6:27:14,  2.41s/it, v_num=uqm9, train/loss=5.9\r",
+      "Epoch 0:   5%| | 546/10186 [21:55<6:27:14,  2.41s/it, v_num=uqm9, train/loss=6.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 547/10186 [21:57<6:26:48,  2.41s/it, v_num=uqm9, train/loss=6.7\r",
+      "Epoch 0:   5%| | 547/10186 [21:57<6:26:48,  2.41s/it, v_num=uqm9, train/loss=5.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 548/10186 [22:03<6:27:57,  2.42s/it, v_num=uqm9, train/loss=5.8\r",
+      "Epoch 0:   5%| | 548/10186 [22:03<6:27:57,  2.42s/it, v_num=uqm9, train/loss=6.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 549/10186 [22:04<6:27:30,  2.41s/it, v_num=uqm9, train/loss=6.0\r",
+      "Epoch 0:   5%| | 549/10186 [22:04<6:27:30,  2.41s/it, v_num=uqm9, train/loss=6.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 550/10186 [22:05<6:27:03,  2.41s/it, v_num=uqm9, train/loss=6.0\r",
+      "Epoch 0:   5%| | 550/10186 [22:05<6:27:03,  2.41s/it, v_num=uqm9, train/loss=6.3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 551/10186 [22:06<6:26:37,  2.41s/it, v_num=uqm9, train/loss=6.3\r",
+      "Epoch 0:   5%| | 551/10186 [22:06<6:26:37,  2.41s/it, v_num=uqm9, train/loss=6.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 552/10186 [22:13<6:27:45,  2.41s/it, v_num=uqm9, train/loss=6.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 552/10186 [22:13<6:27:45,  2.41s/it, v_num=uqm9, train/loss=6.3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 553/10186 [22:14<6:27:19,  2.41s/it, v_num=uqm9, train/loss=6.3\r",
+      "Epoch 0:   5%| | 553/10186 [22:14<6:27:19,  2.41s/it, v_num=uqm9, train/loss=6.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 554/10186 [22:15<6:26:53,  2.41s/it, v_num=uqm9, train/loss=6.0\r",
+      "Epoch 0:   5%| | 554/10186 [22:15<6:26:53,  2.41s/it, v_num=uqm9, train/loss=6.3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 555/10186 [22:16<6:26:27,  2.41s/it, v_num=uqm9, train/loss=6.3\r",
+      "Epoch 0:   5%| | 555/10186 [22:16<6:26:27,  2.41s/it, v_num=uqm9, train/loss=6.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 556/10186 [22:22<6:27:34,  2.41s/it, v_num=uqm9, train/loss=6.9\r",
+      "Epoch 0:   5%| | 556/10186 [22:22<6:27:34,  2.41s/it, v_num=uqm9, train/loss=5.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 557/10186 [22:23<6:27:08,  2.41s/it, v_num=uqm9, train/loss=5.9\r",
+      "Epoch 0:   5%| | 557/10186 [22:23<6:27:08,  2.41s/it, v_num=uqm9, train/loss=6.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 558/10186 [22:24<6:26:42,  2.41s/it, v_num=uqm9, train/loss=6.0\r",
+      "Epoch 0:   5%| | 558/10186 [22:24<6:26:42,  2.41s/it, v_num=uqm9, train/loss=6.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 559/10186 [22:25<6:26:16,  2.41s/it, v_num=uqm9, train/loss=6.5\r",
+      "Epoch 0:   5%| | 559/10186 [22:25<6:26:16,  2.41s/it, v_num=uqm9, train/loss=6.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 560/10186 [22:32<6:27:23,  2.41s/it, v_num=uqm9, train/loss=6.0\r",
+      "Epoch 0:   5%| | 560/10186 [22:32<6:27:23,  2.41s/it, v_num=uqm9, train/loss=6.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 561/10186 [22:33<6:26:57,  2.41s/it, v_num=uqm9, train/loss=6.0\r",
+      "Epoch 0:   6%| | 561/10186 [22:33<6:26:57,  2.41s/it, v_num=uqm9, train/loss=6.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 562/10186 [22:34<6:26:31,  2.41s/it, v_num=uqm9, train/loss=6.1\r",
+      "Epoch 0:   6%| | 562/10186 [22:34<6:26:31,  2.41s/it, v_num=uqm9, train/loss=6.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 563/10186 [22:35<6:26:05,  2.41s/it, v_num=uqm9, train/loss=6.1\r",
+      "Epoch 0:   6%| | 563/10186 [22:35<6:26:05,  2.41s/it, v_num=uqm9, train/loss=6.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 564/10186 [22:41<6:27:12,  2.41s/it, v_num=uqm9, train/loss=6.4\r",
+      "Epoch 0:   6%| | 564/10186 [22:41<6:27:12,  2.41s/it, v_num=uqm9, train/loss=6.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 565/10186 [22:42<6:26:46,  2.41s/it, v_num=uqm9, train/loss=6.4\r",
+      "Epoch 0:   6%| | 565/10186 [22:42<6:26:46,  2.41s/it, v_num=uqm9, train/loss=5.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 566/10186 [22:43<6:26:20,  2.41s/it, v_num=uqm9, train/loss=5.8\r",
+      "Epoch 0:   6%| | 566/10186 [22:43<6:26:20,  2.41s/it, v_num=uqm9, train/loss=6.3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 567/10186 [22:44<6:25:55,  2.41s/it, v_num=uqm9, train/loss=6.3\r",
+      "Epoch 0:   6%| | 567/10186 [22:44<6:25:55,  2.41s/it, v_num=uqm9, train/loss=6.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 568/10186 [22:51<6:27:00,  2.41s/it, v_num=uqm9, train/loss=6.5\r",
+      "Epoch 0:   6%| | 568/10186 [22:51<6:27:00,  2.41s/it, v_num=uqm9, train/loss=5.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 569/10186 [22:52<6:26:35,  2.41s/it, v_num=uqm9, train/loss=5.9\r",
+      "Epoch 0:   6%| | 569/10186 [22:52<6:26:35,  2.41s/it, v_num=uqm9, train/loss=5.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 570/10186 [22:53<6:26:09,  2.41s/it, v_num=uqm9, train/loss=5.4\r",
+      "Epoch 0:   6%| | 570/10186 [22:53<6:26:09,  2.41s/it, v_num=uqm9, train/loss=6.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 571/10186 [22:54<6:25:44,  2.41s/it, v_num=uqm9, train/loss=6.0\r",
+      "Epoch 0:   6%| | 571/10186 [22:54<6:25:44,  2.41s/it, v_num=uqm9, train/loss=5.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 572/10186 [23:00<6:26:49,  2.41s/it, v_num=uqm9, train/loss=5.9\r",
+      "Epoch 0:   6%| | 572/10186 [23:00<6:26:49,  2.41s/it, v_num=uqm9, train/loss=5.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 573/10186 [23:01<6:26:24,  2.41s/it, v_num=uqm9, train/loss=5.6\r",
+      "Epoch 0:   6%| | 573/10186 [23:01<6:26:24,  2.41s/it, v_num=uqm9, train/loss=6.3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 574/10186 [23:02<6:25:59,  2.41s/it, v_num=uqm9, train/loss=6.3\r",
+      "Epoch 0:   6%| | 574/10186 [23:02<6:25:59,  2.41s/it, v_num=uqm9, train/loss=6.2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 575/10186 [23:04<6:25:33,  2.41s/it, v_num=uqm9, train/loss=6.2\r",
+      "Epoch 0:   6%| | 575/10186 [23:04<6:25:33,  2.41s/it, v_num=uqm9, train/loss=6.2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 576/10186 [23:10<6:26:38,  2.41s/it, v_num=uqm9, train/loss=6.2\r",
+      "Epoch 0:   6%| | 576/10186 [23:10<6:26:38,  2.41s/it, v_num=uqm9, train/loss=6.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 577/10186 [23:11<6:26:13,  2.41s/it, v_num=uqm9, train/loss=6.5\r",
+      "Epoch 0:   6%| | 577/10186 [23:11<6:26:13,  2.41s/it, v_num=uqm9, train/loss=6.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 578/10186 [23:12<6:25:48,  2.41s/it, v_num=uqm9, train/loss=6.0\r",
+      "Epoch 0:   6%| | 578/10186 [23:12<6:25:48,  2.41s/it, v_num=uqm9, train/loss=6.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 579/10186 [23:13<6:25:23,  2.41s/it, v_num=uqm9, train/loss=6.1\r",
+      "Epoch 0:   6%| | 579/10186 [23:13<6:25:23,  2.41s/it, v_num=uqm9, train/loss=6.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 580/10186 [23:20<6:26:27,  2.41s/it, v_num=uqm9, train/loss=6.1\r",
+      "Epoch 0:   6%| | 580/10186 [23:20<6:26:27,  2.41s/it, v_num=uqm9, train/loss=5.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 581/10186 [23:21<6:26:02,  2.41s/it, v_num=uqm9, train/loss=5.5\r",
+      "Epoch 0:   6%| | 581/10186 [23:21<6:26:02,  2.41s/it, v_num=uqm9, train/loss=6.3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 582/10186 [23:22<6:25:37,  2.41s/it, v_num=uqm9, train/loss=6.3\r",
+      "Epoch 0:   6%| | 582/10186 [23:22<6:25:37,  2.41s/it, v_num=uqm9, train/loss=5.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 583/10186 [23:23<6:25:12,  2.41s/it, v_num=uqm9, train/loss=5.9\r",
+      "Epoch 0:   6%| | 583/10186 [23:23<6:25:12,  2.41s/it, v_num=uqm9, train/loss=6.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 584/10186 [23:29<6:26:16,  2.41s/it, v_num=uqm9, train/loss=6.0\r",
+      "Epoch 0:   6%| | 584/10186 [23:29<6:26:16,  2.41s/it, v_num=uqm9, train/loss=6.2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 585/10186 [23:30<6:25:51,  2.41s/it, v_num=uqm9, train/loss=6.2\r",
+      "Epoch 0:   6%| | 585/10186 [23:30<6:25:51,  2.41s/it, v_num=uqm9, train/loss=6.2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 586/10186 [23:31<6:25:27,  2.41s/it, v_num=uqm9, train/loss=6.2\r",
+      "Epoch 0:   6%| | 586/10186 [23:31<6:25:27,  2.41s/it, v_num=uqm9, train/loss=6.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 587/10186 [23:32<6:25:02,  2.41s/it, v_num=uqm9, train/loss=6.1\r",
+      "Epoch 0:   6%| | 587/10186 [23:32<6:25:02,  2.41s/it, v_num=uqm9, train/loss=6.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 588/10186 [23:39<6:26:05,  2.41s/it, v_num=uqm9, train/loss=6.0\r",
+      "Epoch 0:   6%| | 588/10186 [23:39<6:26:05,  2.41s/it, v_num=uqm9, train/loss=6.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 589/10186 [23:40<6:25:40,  2.41s/it, v_num=uqm9, train/loss=6.0\r",
+      "Epoch 0:   6%| | 589/10186 [23:40<6:25:40,  2.41s/it, v_num=uqm9, train/loss=6.2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 590/10186 [23:41<6:25:16,  2.41s/it, v_num=uqm9, train/loss=6.2\r",
+      "Epoch 0:   6%| | 590/10186 [23:41<6:25:16,  2.41s/it, v_num=uqm9, train/loss=5.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 591/10186 [23:42<6:24:51,  2.41s/it, v_num=uqm9, train/loss=5.9\r",
+      "Epoch 0:   6%| | 591/10186 [23:42<6:24:51,  2.41s/it, v_num=uqm9, train/loss=6.2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 592/10186 [23:48<6:25:54,  2.41s/it, v_num=uqm9, train/loss=6.2\r",
+      "Epoch 0:   6%| | 592/10186 [23:48<6:25:54,  2.41s/it, v_num=uqm9, train/loss=5.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 593/10186 [23:49<6:25:30,  2.41s/it, v_num=uqm9, train/loss=5.8\r",
+      "Epoch 0:   6%| | 593/10186 [23:49<6:25:30,  2.41s/it, v_num=uqm9, train/loss=6.3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 594/10186 [23:50<6:25:05,  2.41s/it, v_num=uqm9, train/loss=6.3\r",
+      "Epoch 0:   6%| | 594/10186 [23:50<6:25:05,  2.41s/it, v_num=uqm9, train/loss=6.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 595/10186 [23:51<6:24:41,  2.41s/it, v_num=uqm9, train/loss=6.1\r",
+      "Epoch 0:   6%| | 595/10186 [23:51<6:24:41,  2.41s/it, v_num=uqm9, train/loss=5.3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 596/10186 [23:58<6:25:43,  2.41s/it, v_num=uqm9, train/loss=5.3\r",
+      "Epoch 0:   6%| | 596/10186 [23:58<6:25:43,  2.41s/it, v_num=uqm9, train/loss=6.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 597/10186 [23:59<6:25:19,  2.41s/it, v_num=uqm9, train/loss=6.1\r",
+      "Epoch 0:   6%| | 597/10186 [23:59<6:25:19,  2.41s/it, v_num=uqm9, train/loss=6.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 598/10186 [24:00<6:24:54,  2.41s/it, v_num=uqm9, train/loss=6.0\r",
+      "Epoch 0:   6%| | 598/10186 [24:00<6:24:54,  2.41s/it, v_num=uqm9, train/loss=6.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 599/10186 [24:01<6:24:30,  2.41s/it, v_num=uqm9, train/loss=6.0\r",
+      "Epoch 0:   6%| | 599/10186 [24:01<6:24:30,  2.41s/it, v_num=uqm9, train/loss=6.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 600/10186 [24:07<6:25:32,  2.41s/it, v_num=uqm9, train/loss=6.1\r",
+      "Epoch 0:   6%| | 600/10186 [24:07<6:25:32,  2.41s/it, v_num=uqm9, train/loss=5.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 601/10186 [24:08<6:25:08,  2.41s/it, v_num=uqm9, train/loss=5.8\r",
+      "Epoch 0:   6%| | 601/10186 [24:08<6:25:08,  2.41s/it, v_num=uqm9, train/loss=5.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 602/10186 [24:09<6:24:44,  2.41s/it, v_num=uqm9, train/loss=5.9\r",
+      "Epoch 0:   6%| | 602/10186 [24:09<6:24:44,  2.41s/it, v_num=uqm9, train/loss=6.2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 603/10186 [24:11<6:24:20,  2.41s/it, v_num=uqm9, train/loss=6.2\r",
+      "Epoch 0:   6%| | 603/10186 [24:11<6:24:20,  2.41s/it, v_num=uqm9, train/loss=6.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 604/10186 [24:17<6:25:21,  2.41s/it, v_num=uqm9, train/loss=6.1\r",
+      "Epoch 0:   6%| | 604/10186 [24:17<6:25:21,  2.41s/it, v_num=uqm9, train/loss=6.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 605/10186 [24:18<6:24:57,  2.41s/it, v_num=uqm9, train/loss=6.0\r",
+      "Epoch 0:   6%| | 605/10186 [24:18<6:24:57,  2.41s/it, v_num=uqm9, train/loss=5.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 606/10186 [24:19<6:24:33,  2.41s/it, v_num=uqm9, train/loss=5.5\r",
+      "Epoch 0:   6%| | 606/10186 [24:19<6:24:33,  2.41s/it, v_num=uqm9, train/loss=6.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 607/10186 [24:20<6:24:09,  2.41s/it, v_num=uqm9, train/loss=6.1\r",
+      "Epoch 0:   6%| | 607/10186 [24:20<6:24:09,  2.41s/it, v_num=uqm9, train/loss=6.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 608/10186 [24:27<6:25:11,  2.41s/it, v_num=uqm9, train/loss=6.1\r",
+      "Epoch 0:   6%| | 608/10186 [24:27<6:25:11,  2.41s/it, v_num=uqm9, train/loss=6.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 609/10186 [24:28<6:24:46,  2.41s/it, v_num=uqm9, train/loss=6.1\r",
+      "Epoch 0:   6%| | 609/10186 [24:28<6:24:46,  2.41s/it, v_num=uqm9, train/loss=6.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 610/10186 [24:29<6:24:23,  2.41s/it, v_num=uqm9, train/loss=6.0\r",
+      "Epoch 0:   6%| | 610/10186 [24:29<6:24:23,  2.41s/it, v_num=uqm9, train/loss=6.3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 611/10186 [24:30<6:23:59,  2.41s/it, v_num=uqm9, train/loss=6.3\r",
+      "Epoch 0:   6%| | 611/10186 [24:30<6:23:59,  2.41s/it, v_num=uqm9, train/loss=5.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 612/10186 [24:36<6:25:00,  2.41s/it, v_num=uqm9, train/loss=5.8\r",
+      "Epoch 0:   6%| | 612/10186 [24:36<6:25:00,  2.41s/it, v_num=uqm9, train/loss=6.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 613/10186 [24:37<6:24:36,  2.41s/it, v_num=uqm9, train/loss=6.4\r",
+      "Epoch 0:   6%| | 613/10186 [24:37<6:24:36,  2.41s/it, v_num=uqm9, train/loss=5.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 614/10186 [24:38<6:24:12,  2.41s/it, v_num=uqm9, train/loss=5.7\r",
+      "Epoch 0:   6%| | 614/10186 [24:38<6:24:12,  2.41s/it, v_num=uqm9, train/loss=5.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 615/10186 [24:39<6:23:48,  2.41s/it, v_num=uqm9, train/loss=5.9\r",
+      "Epoch 0:   6%| | 615/10186 [24:39<6:23:48,  2.41s/it, v_num=uqm9, train/loss=5.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 616/10186 [24:46<6:24:49,  2.41s/it, v_num=uqm9, train/loss=5.7\r",
+      "Epoch 0:   6%| | 616/10186 [24:46<6:24:49,  2.41s/it, v_num=uqm9, train/loss=6.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 617/10186 [24:47<6:24:25,  2.41s/it, v_num=uqm9, train/loss=6.1\r",
+      "Epoch 0:   6%| | 617/10186 [24:47<6:24:25,  2.41s/it, v_num=uqm9, train/loss=5.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 618/10186 [24:48<6:24:02,  2.41s/it, v_num=uqm9, train/loss=5.6\r",
+      "Epoch 0:   6%| | 618/10186 [24:48<6:24:02,  2.41s/it, v_num=uqm9, train/loss=5.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 619/10186 [24:49<6:23:38,  2.41s/it, v_num=uqm9, train/loss=5.5\r",
+      "Epoch 0:   6%| | 619/10186 [24:49<6:23:38,  2.41s/it, v_num=uqm9, train/loss=6.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 620/10186 [24:55<6:24:38,  2.41s/it, v_num=uqm9, train/loss=6.0\r",
+      "Epoch 0:   6%| | 620/10186 [24:55<6:24:38,  2.41s/it, v_num=uqm9, train/loss=6.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 621/10186 [24:56<6:24:14,  2.41s/it, v_num=uqm9, train/loss=6.0\r",
+      "Epoch 0:   6%| | 621/10186 [24:56<6:24:14,  2.41s/it, v_num=uqm9, train/loss=6.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 622/10186 [24:57<6:23:51,  2.41s/it, v_num=uqm9, train/loss=6.0\r",
+      "Epoch 0:   6%| | 622/10186 [24:57<6:23:51,  2.41s/it, v_num=uqm9, train/loss=5.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 623/10186 [24:58<6:23:28,  2.41s/it, v_num=uqm9, train/loss=5.8\r",
+      "Epoch 0:   6%| | 623/10186 [24:58<6:23:28,  2.41s/it, v_num=uqm9, train/loss=6.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 624/10186 [25:05<6:24:28,  2.41s/it, v_num=uqm9, train/loss=6.1\r",
+      "Epoch 0:   6%| | 624/10186 [25:05<6:24:28,  2.41s/it, v_num=uqm9, train/loss=5.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 625/10186 [25:06<6:24:04,  2.41s/it, v_num=uqm9, train/loss=5.7\r",
+      "Epoch 0:   6%| | 625/10186 [25:06<6:24:04,  2.41s/it, v_num=uqm9, train/loss=6.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 626/10186 [25:07<6:23:41,  2.41s/it, v_num=uqm9, train/loss=6.1\r",
+      "Epoch 0:   6%| | 626/10186 [25:07<6:23:41,  2.41s/it, v_num=uqm9, train/loss=6.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 627/10186 [25:08<6:23:18,  2.41s/it, v_num=uqm9, train/loss=6.0\r",
+      "Epoch 0:   6%| | 627/10186 [25:08<6:23:18,  2.41s/it, v_num=uqm9, train/loss=6.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 628/10186 [25:14<6:24:17,  2.41s/it, v_num=uqm9, train/loss=6.1\r",
+      "Epoch 0:   6%| | 628/10186 [25:14<6:24:17,  2.41s/it, v_num=uqm9, train/loss=5.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 629/10186 [25:15<6:23:53,  2.41s/it, v_num=uqm9, train/loss=5.9\r",
+      "Epoch 0:   6%| | 629/10186 [25:15<6:23:53,  2.41s/it, v_num=uqm9, train/loss=5.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 630/10186 [25:17<6:23:30,  2.41s/it, v_num=uqm9, train/loss=5.8\r",
+      "Epoch 0:   6%| | 630/10186 [25:17<6:23:30,  2.41s/it, v_num=uqm9, train/loss=6.2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 631/10186 [25:18<6:23:07,  2.41s/it, v_num=uqm9, train/loss=6.2\r",
+      "Epoch 0:   6%| | 631/10186 [25:18<6:23:07,  2.41s/it, v_num=uqm9, train/loss=6.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 632/10186 [25:24<6:24:06,  2.41s/it, v_num=uqm9, train/loss=6.0\r",
+      "Epoch 0:   6%| | 632/10186 [25:24<6:24:06,  2.41s/it, v_num=uqm9, train/loss=6.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 633/10186 [25:25<6:23:43,  2.41s/it, v_num=uqm9, train/loss=6.0\r",
+      "Epoch 0:   6%| | 633/10186 [25:25<6:23:43,  2.41s/it, v_num=uqm9, train/loss=6.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 634/10186 [25:26<6:23:20,  2.41s/it, v_num=uqm9, train/loss=6.0\r",
+      "Epoch 0:   6%| | 634/10186 [25:26<6:23:20,  2.41s/it, v_num=uqm9, train/loss=5.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 635/10186 [25:27<6:22:57,  2.41s/it, v_num=uqm9, train/loss=5.9\r",
+      "Epoch 0:   6%| | 635/10186 [25:27<6:22:57,  2.41s/it, v_num=uqm9, train/loss=5.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 636/10186 [25:34<6:23:55,  2.41s/it, v_num=uqm9, train/loss=5.6\r",
+      "Epoch 0:   6%| | 636/10186 [25:34<6:23:55,  2.41s/it, v_num=uqm9, train/loss=5.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 637/10186 [25:35<6:23:32,  2.41s/it, v_num=uqm9, train/loss=5.7\r",
+      "Epoch 0:   6%| | 637/10186 [25:35<6:23:32,  2.41s/it, v_num=uqm9, train/loss=6.3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 638/10186 [25:36<6:23:09,  2.41s/it, v_num=uqm9, train/loss=6.3\r",
+      "Epoch 0:   6%| | 638/10186 [25:36<6:23:09,  2.41s/it, v_num=uqm9, train/loss=7.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 639/10186 [25:37<6:22:47,  2.41s/it, v_num=uqm9, train/loss=7.1\r",
+      "Epoch 0:   6%| | 639/10186 [25:37<6:22:47,  2.41s/it, v_num=uqm9, train/loss=6.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 640/10186 [25:43<6:23:45,  2.41s/it, v_num=uqm9, train/loss=6.4\r",
+      "Epoch 0:   6%| | 640/10186 [25:43<6:23:45,  2.41s/it, v_num=uqm9, train/loss=5.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 641/10186 [25:44<6:23:22,  2.41s/it, v_num=uqm9, train/loss=5.9\r",
+      "Epoch 0:   6%| | 641/10186 [25:44<6:23:22,  2.41s/it, v_num=uqm9, train/loss=6.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 642/10186 [25:45<6:22:59,  2.41s/it, v_num=uqm9, train/loss=6.0\r",
+      "Epoch 0:   6%| | 642/10186 [25:45<6:22:59,  2.41s/it, v_num=uqm9, train/loss=5.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 643/10186 [25:46<6:22:36,  2.41s/it, v_num=uqm9, train/loss=5.8\r",
+      "Epoch 0:   6%| | 643/10186 [25:46<6:22:36,  2.41s/it, v_num=uqm9, train/loss=5.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 644/10186 [25:53<6:23:34,  2.41s/it, v_num=uqm9, train/loss=5.6\r",
+      "Epoch 0:   6%| | 644/10186 [25:53<6:23:34,  2.41s/it, v_num=uqm9, train/loss=5.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 645/10186 [25:54<6:23:11,  2.41s/it, v_num=uqm9, train/loss=5.9\r",
+      "Epoch 0:   6%| | 645/10186 [25:54<6:23:11,  2.41s/it, v_num=uqm9, train/loss=6.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 646/10186 [25:55<6:22:49,  2.41s/it, v_num=uqm9, train/loss=6.0\r",
+      "Epoch 0:   6%| | 646/10186 [25:55<6:22:49,  2.41s/it, v_num=uqm9, train/loss=5.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 647/10186 [25:56<6:22:26,  2.41s/it, v_num=uqm9, train/loss=5.9\r",
+      "Epoch 0:   6%| | 647/10186 [25:56<6:22:26,  2.41s/it, v_num=uqm9, train/loss=5.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 648/10186 [26:02<6:23:23,  2.41s/it, v_num=uqm9, train/loss=5.4\r",
+      "Epoch 0:   6%| | 648/10186 [26:02<6:23:23,  2.41s/it, v_num=uqm9, train/loss=5.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 649/10186 [26:03<6:23:01,  2.41s/it, v_num=uqm9, train/loss=5.9\r",
+      "Epoch 0:   6%| | 649/10186 [26:03<6:23:01,  2.41s/it, v_num=uqm9, train/loss=5.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 650/10186 [26:04<6:22:38,  2.41s/it, v_num=uqm9, train/loss=5.7\r",
+      "Epoch 0:   6%| | 650/10186 [26:04<6:22:38,  2.41s/it, v_num=uqm9, train/loss=5.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 651/10186 [26:05<6:22:16,  2.41s/it, v_num=uqm9, train/loss=5.7\r",
+      "Epoch 0:   6%| | 651/10186 [26:05<6:22:16,  2.41s/it, v_num=uqm9, train/loss=5.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 652/10186 [26:12<6:23:13,  2.41s/it, v_num=uqm9, train/loss=5.4\r",
+      "Epoch 0:   6%| | 652/10186 [26:12<6:23:13,  2.41s/it, v_num=uqm9, train/loss=5.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 653/10186 [26:13<6:22:50,  2.41s/it, v_num=uqm9, train/loss=5.7\r",
+      "Epoch 0:   6%| | 653/10186 [26:13<6:22:50,  2.41s/it, v_num=uqm9, train/loss=6.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 654/10186 [26:14<6:22:28,  2.41s/it, v_num=uqm9, train/loss=6.1\r",
+      "Epoch 0:   6%| | 654/10186 [26:14<6:22:28,  2.41s/it, v_num=uqm9, train/loss=6.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 655/10186 [26:15<6:22:06,  2.41s/it, v_num=uqm9, train/loss=6.1\r",
+      "Epoch 0:   6%| | 655/10186 [26:15<6:22:06,  2.41s/it, v_num=uqm9, train/loss=6.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 656/10186 [26:21<6:23:02,  2.41s/it, v_num=uqm9, train/loss=6.0\r",
+      "Epoch 0:   6%| | 656/10186 [26:21<6:23:02,  2.41s/it, v_num=uqm9, train/loss=6.2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 657/10186 [26:23<6:22:39,  2.41s/it, v_num=uqm9, train/loss=6.2\r",
+      "Epoch 0:   6%| | 657/10186 [26:23<6:22:40,  2.41s/it, v_num=uqm9, train/loss=5.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 658/10186 [26:24<6:22:17,  2.41s/it, v_num=uqm9, train/loss=5.6\r",
+      "Epoch 0:   6%| | 658/10186 [26:24<6:22:17,  2.41s/it, v_num=uqm9, train/loss=6.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 659/10186 [26:25<6:21:55,  2.41s/it, v_num=uqm9, train/loss=6.0\r",
+      "Epoch 0:   6%| | 659/10186 [26:25<6:21:55,  2.41s/it, v_num=uqm9, train/loss=5.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 660/10186 [26:31<6:22:51,  2.41s/it, v_num=uqm9, train/loss=5.8\r",
+      "Epoch 0:   6%| | 660/10186 [26:31<6:22:51,  2.41s/it, v_num=uqm9, train/loss=6.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 661/10186 [26:32<6:22:29,  2.41s/it, v_num=uqm9, train/loss=6.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 661/10186 [26:32<6:22:29,  2.41s/it, v_num=uqm9, train/loss=5.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 662/10186 [26:33<6:22:07,  2.41s/it, v_num=uqm9, train/loss=5.7\r",
+      "Epoch 0:   6%| | 662/10186 [26:33<6:22:07,  2.41s/it, v_num=uqm9, train/loss=6.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 663/10186 [26:34<6:21:45,  2.41s/it, v_num=uqm9, train/loss=6.0\r",
+      "Epoch 0:   7%| | 663/10186 [26:34<6:21:45,  2.41s/it, v_num=uqm9, train/loss=6.2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 664/10186 [26:41<6:22:41,  2.41s/it, v_num=uqm9, train/loss=6.2\r",
+      "Epoch 0:   7%| | 664/10186 [26:41<6:22:41,  2.41s/it, v_num=uqm9, train/loss=6.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 665/10186 [26:42<6:22:19,  2.41s/it, v_num=uqm9, train/loss=6.0\r",
+      "Epoch 0:   7%| | 665/10186 [26:42<6:22:19,  2.41s/it, v_num=uqm9, train/loss=6.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 666/10186 [26:43<6:21:57,  2.41s/it, v_num=uqm9, train/loss=6.0\r",
+      "Epoch 0:   7%| | 666/10186 [26:43<6:21:57,  2.41s/it, v_num=uqm9, train/loss=6.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 667/10186 [26:44<6:21:35,  2.41s/it, v_num=uqm9, train/loss=6.5\r",
+      "Epoch 0:   7%| | 667/10186 [26:44<6:21:35,  2.41s/it, v_num=uqm9, train/loss=6.3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 668/10186 [26:50<6:22:30,  2.41s/it, v_num=uqm9, train/loss=6.3\r",
+      "Epoch 0:   7%| | 668/10186 [26:50<6:22:30,  2.41s/it, v_num=uqm9, train/loss=5.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 669/10186 [26:51<6:22:08,  2.41s/it, v_num=uqm9, train/loss=5.8\r",
+      "Epoch 0:   7%| | 669/10186 [26:51<6:22:08,  2.41s/it, v_num=uqm9, train/loss=5.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 670/10186 [26:52<6:21:47,  2.41s/it, v_num=uqm9, train/loss=5.9\r",
+      "Epoch 0:   7%| | 670/10186 [26:52<6:21:47,  2.41s/it, v_num=uqm9, train/loss=5.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 671/10186 [26:53<6:21:25,  2.41s/it, v_num=uqm9, train/loss=5.7\r",
+      "Epoch 0:   7%| | 671/10186 [26:53<6:21:25,  2.41s/it, v_num=uqm9, train/loss=6.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 672/10186 [27:00<6:22:20,  2.41s/it, v_num=uqm9, train/loss=6.0\r",
+      "Epoch 0:   7%| | 672/10186 [27:00<6:22:20,  2.41s/it, v_num=uqm9, train/loss=5.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 673/10186 [27:01<6:21:58,  2.41s/it, v_num=uqm9, train/loss=5.8\r",
+      "Epoch 0:   7%| | 673/10186 [27:01<6:21:58,  2.41s/it, v_num=uqm9, train/loss=5.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 674/10186 [27:02<6:21:36,  2.41s/it, v_num=uqm9, train/loss=5.7\r",
+      "Epoch 0:   7%| | 674/10186 [27:02<6:21:36,  2.41s/it, v_num=uqm9, train/loss=5.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 675/10186 [27:03<6:21:15,  2.41s/it, v_num=uqm9, train/loss=5.9\r",
+      "Epoch 0:   7%| | 675/10186 [27:03<6:21:15,  2.41s/it, v_num=uqm9, train/loss=6.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 676/10186 [27:09<6:22:09,  2.41s/it, v_num=uqm9, train/loss=6.1\r",
+      "Epoch 0:   7%| | 676/10186 [27:09<6:22:09,  2.41s/it, v_num=uqm9, train/loss=6.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 677/10186 [27:10<6:21:48,  2.41s/it, v_num=uqm9, train/loss=6.0\r",
+      "Epoch 0:   7%| | 677/10186 [27:10<6:21:48,  2.41s/it, v_num=uqm9, train/loss=5.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 678/10186 [27:12<6:21:26,  2.41s/it, v_num=uqm9, train/loss=5.5\r",
+      "Epoch 0:   7%| | 678/10186 [27:12<6:21:26,  2.41s/it, v_num=uqm9, train/loss=6.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 679/10186 [27:13<6:21:05,  2.41s/it, v_num=uqm9, train/loss=6.6\r",
+      "Epoch 0:   7%| | 679/10186 [27:13<6:21:05,  2.41s/it, v_num=uqm9, train/loss=5.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 680/10186 [27:19<6:21:59,  2.41s/it, v_num=uqm9, train/loss=5.1\r",
+      "Epoch 0:   7%| | 680/10186 [27:19<6:21:59,  2.41s/it, v_num=uqm9, train/loss=5.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 681/10186 [27:20<6:21:37,  2.41s/it, v_num=uqm9, train/loss=5.9\r",
+      "Epoch 0:   7%| | 681/10186 [27:20<6:21:37,  2.41s/it, v_num=uqm9, train/loss=5.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 682/10186 [27:21<6:21:16,  2.41s/it, v_num=uqm9, train/loss=5.8\r",
+      "Epoch 0:   7%| | 682/10186 [27:21<6:21:16,  2.41s/it, v_num=uqm9, train/loss=6.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 683/10186 [27:22<6:20:55,  2.41s/it, v_num=uqm9, train/loss=6.0\r",
+      "Epoch 0:   7%| | 683/10186 [27:22<6:20:55,  2.41s/it, v_num=uqm9, train/loss=6.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 684/10186 [27:29<6:21:48,  2.41s/it, v_num=uqm9, train/loss=6.0\r",
+      "Epoch 0:   7%| | 684/10186 [27:29<6:21:48,  2.41s/it, v_num=uqm9, train/loss=5.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 685/10186 [27:30<6:21:27,  2.41s/it, v_num=uqm9, train/loss=5.9\r",
+      "Epoch 0:   7%| | 685/10186 [27:30<6:21:27,  2.41s/it, v_num=uqm9, train/loss=6.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 686/10186 [27:31<6:21:06,  2.41s/it, v_num=uqm9, train/loss=6.1\r",
+      "Epoch 0:   7%| | 686/10186 [27:31<6:21:06,  2.41s/it, v_num=uqm9, train/loss=5.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 687/10186 [27:32<6:20:44,  2.40s/it, v_num=uqm9, train/loss=5.8\r",
+      "Epoch 0:   7%| | 687/10186 [27:32<6:20:44,  2.40s/it, v_num=uqm9, train/loss=6.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 688/10186 [27:38<6:21:38,  2.41s/it, v_num=uqm9, train/loss=6.1\r",
+      "Epoch 0:   7%| | 688/10186 [27:38<6:21:38,  2.41s/it, v_num=uqm9, train/loss=5.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 689/10186 [27:39<6:21:16,  2.41s/it, v_num=uqm9, train/loss=5.9\r",
+      "Epoch 0:   7%| | 689/10186 [27:39<6:21:16,  2.41s/it, v_num=uqm9, train/loss=6.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 690/10186 [27:40<6:20:55,  2.41s/it, v_num=uqm9, train/loss=6.1\r",
+      "Epoch 0:   7%| | 690/10186 [27:40<6:20:55,  2.41s/it, v_num=uqm9, train/loss=5.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 691/10186 [27:41<6:20:34,  2.40s/it, v_num=uqm9, train/loss=5.7\r",
+      "Epoch 0:   7%| | 691/10186 [27:41<6:20:34,  2.40s/it, v_num=uqm9, train/loss=5.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 692/10186 [27:48<6:21:27,  2.41s/it, v_num=uqm9, train/loss=5.6\r",
+      "Epoch 0:   7%| | 692/10186 [27:48<6:21:27,  2.41s/it, v_num=uqm9, train/loss=5.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 693/10186 [27:49<6:21:06,  2.41s/it, v_num=uqm9, train/loss=5.8\r",
+      "Epoch 0:   7%| | 693/10186 [27:49<6:21:06,  2.41s/it, v_num=uqm9, train/loss=6.3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 694/10186 [27:50<6:20:45,  2.41s/it, v_num=uqm9, train/loss=6.3\r",
+      "Epoch 0:   7%| | 694/10186 [27:50<6:20:45,  2.41s/it, v_num=uqm9, train/loss=6.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 695/10186 [27:51<6:20:24,  2.40s/it, v_num=uqm9, train/loss=6.1\r",
+      "Epoch 0:   7%| | 695/10186 [27:51<6:20:24,  2.40s/it, v_num=uqm9, train/loss=5.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 696/10186 [27:57<6:21:17,  2.41s/it, v_num=uqm9, train/loss=5.7\r",
+      "Epoch 0:   7%| | 696/10186 [27:57<6:21:17,  2.41s/it, v_num=uqm9, train/loss=6.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 697/10186 [27:58<6:20:56,  2.41s/it, v_num=uqm9, train/loss=6.0\r",
+      "Epoch 0:   7%| | 697/10186 [27:58<6:20:56,  2.41s/it, v_num=uqm9, train/loss=5.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 698/10186 [27:59<6:20:35,  2.41s/it, v_num=uqm9, train/loss=5.8\r",
+      "Epoch 0:   7%| | 698/10186 [27:59<6:20:35,  2.41s/it, v_num=uqm9, train/loss=5.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 699/10186 [28:00<6:20:14,  2.40s/it, v_num=uqm9, train/loss=5.8\r",
+      "Epoch 0:   7%| | 699/10186 [28:00<6:20:14,  2.40s/it, v_num=uqm9, train/loss=6.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 700/10186 [28:07<6:21:06,  2.41s/it, v_num=uqm9, train/loss=6.0\r",
+      "Epoch 0:   7%| | 700/10186 [28:07<6:21:06,  2.41s/it, v_num=uqm9, train/loss=5.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 701/10186 [28:08<6:20:45,  2.41s/it, v_num=uqm9, train/loss=5.9\r",
+      "Epoch 0:   7%| | 701/10186 [28:08<6:20:45,  2.41s/it, v_num=uqm9, train/loss=6.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 702/10186 [28:09<6:20:24,  2.41s/it, v_num=uqm9, train/loss=6.1\r",
+      "Epoch 0:   7%| | 702/10186 [28:09<6:20:24,  2.41s/it, v_num=uqm9, train/loss=5.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 703/10186 [28:10<6:20:04,  2.40s/it, v_num=uqm9, train/loss=5.6\r",
+      "Epoch 0:   7%| | 703/10186 [28:10<6:20:04,  2.40s/it, v_num=uqm9, train/loss=5.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 704/10186 [28:16<6:20:56,  2.41s/it, v_num=uqm9, train/loss=5.9\r",
+      "Epoch 0:   7%| | 704/10186 [28:16<6:20:56,  2.41s/it, v_num=uqm9, train/loss=5.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 705/10186 [28:18<6:20:35,  2.41s/it, v_num=uqm9, train/loss=5.7\r",
+      "Epoch 0:   7%| | 705/10186 [28:18<6:20:35,  2.41s/it, v_num=uqm9, train/loss=6.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 706/10186 [28:19<6:20:14,  2.41s/it, v_num=uqm9, train/loss=6.0\r",
+      "Epoch 0:   7%| | 706/10186 [28:19<6:20:14,  2.41s/it, v_num=uqm9, train/loss=5.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 707/10186 [28:20<6:19:53,  2.40s/it, v_num=uqm9, train/loss=5.8\r",
+      "Epoch 0:   7%| | 707/10186 [28:20<6:19:53,  2.40s/it, v_num=uqm9, train/loss=5.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 708/10186 [28:26<6:20:45,  2.41s/it, v_num=uqm9, train/loss=5.8\r",
+      "Epoch 0:   7%| | 708/10186 [28:26<6:20:45,  2.41s/it, v_num=uqm9, train/loss=5.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 709/10186 [28:27<6:20:24,  2.41s/it, v_num=uqm9, train/loss=5.7\r",
+      "Epoch 0:   7%| | 709/10186 [28:27<6:20:24,  2.41s/it, v_num=uqm9, train/loss=5.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 710/10186 [28:28<6:20:04,  2.41s/it, v_num=uqm9, train/loss=5.7\r",
+      "Epoch 0:   7%| | 710/10186 [28:28<6:20:04,  2.41s/it, v_num=uqm9, train/loss=5.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 711/10186 [28:29<6:19:43,  2.40s/it, v_num=uqm9, train/loss=5.6\r",
+      "Epoch 0:   7%| | 711/10186 [28:29<6:19:43,  2.40s/it, v_num=uqm9, train/loss=6.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 712/10186 [28:36<6:20:35,  2.41s/it, v_num=uqm9, train/loss=6.0\r",
+      "Epoch 0:   7%| | 712/10186 [28:36<6:20:35,  2.41s/it, v_num=uqm9, train/loss=5.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 713/10186 [28:37<6:20:14,  2.41s/it, v_num=uqm9, train/loss=5.8\r",
+      "Epoch 0:   7%| | 713/10186 [28:37<6:20:14,  2.41s/it, v_num=uqm9, train/loss=5.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 714/10186 [28:38<6:19:53,  2.41s/it, v_num=uqm9, train/loss=5.7\r",
+      "Epoch 0:   7%| | 714/10186 [28:38<6:19:53,  2.41s/it, v_num=uqm9, train/loss=5.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 715/10186 [28:39<6:19:33,  2.40s/it, v_num=uqm9, train/loss=5.9\r",
+      "Epoch 0:   7%| | 715/10186 [28:39<6:19:33,  2.40s/it, v_num=uqm9, train/loss=5.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 716/10186 [28:45<6:20:24,  2.41s/it, v_num=uqm9, train/loss=5.9\r",
+      "Epoch 0:   7%| | 716/10186 [28:45<6:20:24,  2.41s/it, v_num=uqm9, train/loss=6.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 717/10186 [28:46<6:20:04,  2.41s/it, v_num=uqm9, train/loss=6.1\r",
+      "Epoch 0:   7%| | 717/10186 [28:46<6:20:04,  2.41s/it, v_num=uqm9, train/loss=6.2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 718/10186 [28:47<6:19:43,  2.41s/it, v_num=uqm9, train/loss=6.2\r",
+      "Epoch 0:   7%| | 718/10186 [28:47<6:19:43,  2.41s/it, v_num=uqm9, train/loss=6.3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 719/10186 [28:48<6:19:23,  2.40s/it, v_num=uqm9, train/loss=6.3\r",
+      "Epoch 0:   7%| | 719/10186 [28:48<6:19:23,  2.40s/it, v_num=uqm9, train/loss=5.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 720/10186 [28:55<6:20:14,  2.41s/it, v_num=uqm9, train/loss=5.9\r",
+      "Epoch 0:   7%| | 720/10186 [28:55<6:20:14,  2.41s/it, v_num=uqm9, train/loss=5.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 721/10186 [28:56<6:19:53,  2.41s/it, v_num=uqm9, train/loss=5.9\r",
+      "Epoch 0:   7%| | 721/10186 [28:56<6:19:53,  2.41s/it, v_num=uqm9, train/loss=5.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 722/10186 [28:57<6:19:33,  2.41s/it, v_num=uqm9, train/loss=5.8\r",
+      "Epoch 0:   7%| | 722/10186 [28:57<6:19:33,  2.41s/it, v_num=uqm9, train/loss=5.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 723/10186 [28:58<6:19:13,  2.40s/it, v_num=uqm9, train/loss=5.5\r",
+      "Epoch 0:   7%| | 723/10186 [28:58<6:19:13,  2.40s/it, v_num=uqm9, train/loss=6.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 724/10186 [29:04<6:20:03,  2.41s/it, v_num=uqm9, train/loss=6.0\r",
+      "Epoch 0:   7%| | 724/10186 [29:04<6:20:03,  2.41s/it, v_num=uqm9, train/loss=5.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 725/10186 [29:05<6:19:43,  2.41s/it, v_num=uqm9, train/loss=5.5\r",
+      "Epoch 0:   7%| | 725/10186 [29:05<6:19:43,  2.41s/it, v_num=uqm9, train/loss=5.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 726/10186 [29:06<6:19:23,  2.41s/it, v_num=uqm9, train/loss=5.8\r",
+      "Epoch 0:   7%| | 726/10186 [29:06<6:19:23,  2.41s/it, v_num=uqm9, train/loss=5.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 727/10186 [29:07<6:19:03,  2.40s/it, v_num=uqm9, train/loss=5.8\r",
+      "Epoch 0:   7%| | 727/10186 [29:07<6:19:03,  2.40s/it, v_num=uqm9, train/loss=6.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 728/10186 [29:14<6:19:53,  2.41s/it, v_num=uqm9, train/loss=6.1\r",
+      "Epoch 0:   7%| | 728/10186 [29:14<6:19:53,  2.41s/it, v_num=uqm9, train/loss=6.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 729/10186 [29:15<6:19:33,  2.41s/it, v_num=uqm9, train/loss=6.4\r",
+      "Epoch 0:   7%| | 729/10186 [29:15<6:19:33,  2.41s/it, v_num=uqm9, train/loss=5.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 730/10186 [29:16<6:19:13,  2.41s/it, v_num=uqm9, train/loss=5.8\r",
+      "Epoch 0:   7%| | 730/10186 [29:16<6:19:13,  2.41s/it, v_num=uqm9, train/loss=6.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 731/10186 [29:17<6:18:53,  2.40s/it, v_num=uqm9, train/loss=6.0\r",
+      "Epoch 0:   7%| | 731/10186 [29:17<6:18:53,  2.40s/it, v_num=uqm9, train/loss=5.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 732/10186 [29:24<6:19:43,  2.41s/it, v_num=uqm9, train/loss=5.8\r",
+      "Epoch 0:   7%| | 732/10186 [29:24<6:19:43,  2.41s/it, v_num=uqm9, train/loss=5.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 733/10186 [29:25<6:19:22,  2.41s/it, v_num=uqm9, train/loss=5.8\r",
+      "Epoch 0:   7%| | 733/10186 [29:25<6:19:22,  2.41s/it, v_num=uqm9, train/loss=5.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 734/10186 [29:26<6:19:02,  2.41s/it, v_num=uqm9, train/loss=5.8\r",
+      "Epoch 0:   7%| | 734/10186 [29:26<6:19:02,  2.41s/it, v_num=uqm9, train/loss=5.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 735/10186 [29:27<6:18:42,  2.40s/it, v_num=uqm9, train/loss=5.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 735/10186 [29:27<6:18:42,  2.40s/it, v_num=uqm9, train/loss=6.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 736/10186 [29:33<6:19:32,  2.41s/it, v_num=uqm9, train/loss=6.0\r",
+      "Epoch 0:   7%| | 736/10186 [29:33<6:19:32,  2.41s/it, v_num=uqm9, train/loss=5.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 737/10186 [29:34<6:19:12,  2.41s/it, v_num=uqm9, train/loss=5.8\r",
+      "Epoch 0:   7%| | 737/10186 [29:34<6:19:12,  2.41s/it, v_num=uqm9, train/loss=5.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 738/10186 [29:35<6:18:52,  2.41s/it, v_num=uqm9, train/loss=5.9\r",
+      "Epoch 0:   7%| | 738/10186 [29:35<6:18:52,  2.41s/it, v_num=uqm9, train/loss=5.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 739/10186 [29:36<6:18:32,  2.40s/it, v_num=uqm9, train/loss=5.9\r",
+      "Epoch 0:   7%| | 739/10186 [29:36<6:18:32,  2.40s/it, v_num=uqm9, train/loss=5.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 740/10186 [29:43<6:19:22,  2.41s/it, v_num=uqm9, train/loss=5.7\r",
+      "Epoch 0:   7%| | 740/10186 [29:43<6:19:22,  2.41s/it, v_num=uqm9, train/loss=5.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 741/10186 [29:44<6:19:02,  2.41s/it, v_num=uqm9, train/loss=5.9\r",
+      "Epoch 0:   7%| | 741/10186 [29:44<6:19:02,  2.41s/it, v_num=uqm9, train/loss=5.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 742/10186 [29:45<6:18:42,  2.41s/it, v_num=uqm9, train/loss=5.7\r",
+      "Epoch 0:   7%| | 742/10186 [29:45<6:18:42,  2.41s/it, v_num=uqm9, train/loss=5.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 743/10186 [29:46<6:18:22,  2.40s/it, v_num=uqm9, train/loss=5.7\r",
+      "Epoch 0:   7%| | 743/10186 [29:46<6:18:22,  2.40s/it, v_num=uqm9, train/loss=5.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 744/10186 [29:52<6:19:11,  2.41s/it, v_num=uqm9, train/loss=5.4\r",
+      "Epoch 0:   7%| | 744/10186 [29:52<6:19:11,  2.41s/it, v_num=uqm9, train/loss=5.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 745/10186 [29:53<6:18:51,  2.41s/it, v_num=uqm9, train/loss=5.5\r",
+      "Epoch 0:   7%| | 745/10186 [29:53<6:18:51,  2.41s/it, v_num=uqm9, train/loss=5.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 746/10186 [29:54<6:18:32,  2.41s/it, v_num=uqm9, train/loss=5.9\r",
+      "Epoch 0:   7%| | 746/10186 [29:54<6:18:32,  2.41s/it, v_num=uqm9, train/loss=6.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 747/10186 [29:55<6:18:12,  2.40s/it, v_num=uqm9, train/loss=6.0\r",
+      "Epoch 0:   7%| | 747/10186 [29:55<6:18:12,  2.40s/it, v_num=uqm9, train/loss=5.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 748/10186 [30:02<6:19:01,  2.41s/it, v_num=uqm9, train/loss=5.8\r",
+      "Epoch 0:   7%| | 748/10186 [30:02<6:19:01,  2.41s/it, v_num=uqm9, train/loss=5.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 749/10186 [30:03<6:18:41,  2.41s/it, v_num=uqm9, train/loss=5.5\r",
+      "Epoch 0:   7%| | 749/10186 [30:03<6:18:41,  2.41s/it, v_num=uqm9, train/loss=5.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 750/10186 [30:04<6:18:21,  2.41s/it, v_num=uqm9, train/loss=5.8\r",
+      "Epoch 0:   7%| | 750/10186 [30:04<6:18:21,  2.41s/it, v_num=uqm9, train/loss=6.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 751/10186 [30:05<6:18:02,  2.40s/it, v_num=uqm9, train/loss=6.0\r",
+      "Epoch 0:   7%| | 751/10186 [30:05<6:18:02,  2.40s/it, v_num=uqm9, train/loss=4.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 752/10186 [30:11<6:18:50,  2.41s/it, v_num=uqm9, train/loss=4.9\r",
+      "Epoch 0:   7%| | 752/10186 [30:11<6:18:50,  2.41s/it, v_num=uqm9, train/loss=5.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 753/10186 [30:12<6:18:31,  2.41s/it, v_num=uqm9, train/loss=5.5\r",
+      "Epoch 0:   7%| | 753/10186 [30:12<6:18:31,  2.41s/it, v_num=uqm9, train/loss=5.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 754/10186 [30:14<6:18:11,  2.41s/it, v_num=uqm9, train/loss=5.6\r",
+      "Epoch 0:   7%| | 754/10186 [30:14<6:18:11,  2.41s/it, v_num=uqm9, train/loss=5.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 755/10186 [30:15<6:17:52,  2.40s/it, v_num=uqm9, train/loss=5.9\r",
+      "Epoch 0:   7%| | 755/10186 [30:15<6:17:52,  2.40s/it, v_num=uqm9, train/loss=6.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 756/10186 [30:21<6:18:40,  2.41s/it, v_num=uqm9, train/loss=6.1\r",
+      "Epoch 0:   7%| | 756/10186 [30:21<6:18:40,  2.41s/it, v_num=uqm9, train/loss=5.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 757/10186 [30:22<6:18:21,  2.41s/it, v_num=uqm9, train/loss=5.6\r",
+      "Epoch 0:   7%| | 757/10186 [30:22<6:18:21,  2.41s/it, v_num=uqm9, train/loss=5.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 758/10186 [30:23<6:18:01,  2.41s/it, v_num=uqm9, train/loss=5.6\r",
+      "Epoch 0:   7%| | 758/10186 [30:23<6:18:01,  2.41s/it, v_num=uqm9, train/loss=5.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 759/10186 [30:24<6:17:42,  2.40s/it, v_num=uqm9, train/loss=5.6\r",
+      "Epoch 0:   7%| | 759/10186 [30:24<6:17:42,  2.40s/it, v_num=uqm9, train/loss=5.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 760/10186 [30:31<6:18:30,  2.41s/it, v_num=uqm9, train/loss=5.6\r",
+      "Epoch 0:   7%| | 760/10186 [30:31<6:18:30,  2.41s/it, v_num=uqm9, train/loss=6.2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 761/10186 [30:32<6:18:10,  2.41s/it, v_num=uqm9, train/loss=6.2\r",
+      "Epoch 0:   7%| | 761/10186 [30:32<6:18:11,  2.41s/it, v_num=uqm9, train/loss=6.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 762/10186 [30:33<6:17:51,  2.41s/it, v_num=uqm9, train/loss=6.0\r",
+      "Epoch 0:   7%| | 762/10186 [30:33<6:17:51,  2.41s/it, v_num=uqm9, train/loss=5.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 763/10186 [30:34<6:17:32,  2.40s/it, v_num=uqm9, train/loss=5.9\r",
+      "Epoch 0:   7%| | 763/10186 [30:34<6:17:32,  2.40s/it, v_num=uqm9, train/loss=5.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 764/10186 [30:40<6:18:20,  2.41s/it, v_num=uqm9, train/loss=5.9\r",
+      "Epoch 0:   8%| | 764/10186 [30:40<6:18:20,  2.41s/it, v_num=uqm9, train/loss=6.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 765/10186 [30:41<6:18:00,  2.41s/it, v_num=uqm9, train/loss=6.0\r",
+      "Epoch 0:   8%| | 765/10186 [30:41<6:18:00,  2.41s/it, v_num=uqm9, train/loss=4.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 766/10186 [30:42<6:17:41,  2.41s/it, v_num=uqm9, train/loss=4.8\r",
+      "Epoch 0:   8%| | 766/10186 [30:42<6:17:41,  2.41s/it, v_num=uqm9, train/loss=5.2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 767/10186 [30:43<6:17:22,  2.40s/it, v_num=uqm9, train/loss=5.2\r",
+      "Epoch 0:   8%| | 767/10186 [30:43<6:17:22,  2.40s/it, v_num=uqm9, train/loss=5.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 768/10186 [30:50<6:18:09,  2.41s/it, v_num=uqm9, train/loss=5.9\r",
+      "Epoch 0:   8%| | 768/10186 [30:50<6:18:09,  2.41s/it, v_num=uqm9, train/loss=5.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 769/10186 [30:51<6:17:50,  2.41s/it, v_num=uqm9, train/loss=5.7\r",
+      "Epoch 0:   8%| | 769/10186 [30:51<6:17:50,  2.41s/it, v_num=uqm9, train/loss=5.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 770/10186 [30:52<6:17:31,  2.41s/it, v_num=uqm9, train/loss=5.6\r",
+      "Epoch 0:   8%| | 770/10186 [30:52<6:17:31,  2.41s/it, v_num=uqm9, train/loss=7.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 771/10186 [30:53<6:17:12,  2.40s/it, v_num=uqm9, train/loss=7.1\r",
+      "Epoch 0:   8%| | 771/10186 [30:53<6:17:12,  2.40s/it, v_num=uqm9, train/loss=5.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 772/10186 [30:59<6:17:59,  2.41s/it, v_num=uqm9, train/loss=5.7\r",
+      "Epoch 0:   8%| | 772/10186 [30:59<6:17:59,  2.41s/it, v_num=uqm9, train/loss=6.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 773/10186 [31:00<6:17:40,  2.41s/it, v_num=uqm9, train/loss=6.0\r",
+      "Epoch 0:   8%| | 773/10186 [31:00<6:17:40,  2.41s/it, v_num=uqm9, train/loss=5.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 774/10186 [31:01<6:17:21,  2.41s/it, v_num=uqm9, train/loss=5.7\r",
+      "Epoch 0:   8%| | 774/10186 [31:01<6:17:21,  2.41s/it, v_num=uqm9, train/loss=5.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 775/10186 [31:02<6:17:02,  2.40s/it, v_num=uqm9, train/loss=5.5\r",
+      "Epoch 0:   8%| | 775/10186 [31:02<6:17:02,  2.40s/it, v_num=uqm9, train/loss=5.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 776/10186 [31:09<6:17:48,  2.41s/it, v_num=uqm9, train/loss=5.9\r",
+      "Epoch 0:   8%| | 776/10186 [31:09<6:17:48,  2.41s/it, v_num=uqm9, train/loss=5.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 777/10186 [31:10<6:17:29,  2.41s/it, v_num=uqm9, train/loss=5.5\r",
+      "Epoch 0:   8%| | 777/10186 [31:10<6:17:29,  2.41s/it, v_num=uqm9, train/loss=5.3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 778/10186 [31:11<6:17:11,  2.41s/it, v_num=uqm9, train/loss=5.3\r",
+      "Epoch 0:   8%| | 778/10186 [31:11<6:17:11,  2.41s/it, v_num=uqm9, train/loss=5.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 779/10186 [31:12<6:16:52,  2.40s/it, v_num=uqm9, train/loss=5.8\r",
+      "Epoch 0:   8%| | 779/10186 [31:12<6:16:52,  2.40s/it, v_num=uqm9, train/loss=5.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 780/10186 [31:18<6:17:38,  2.41s/it, v_num=uqm9, train/loss=5.8\r",
+      "Epoch 0:   8%| | 780/10186 [31:18<6:17:38,  2.41s/it, v_num=uqm9, train/loss=6.2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 781/10186 [31:20<6:17:19,  2.41s/it, v_num=uqm9, train/loss=6.2\r",
+      "Epoch 0:   8%| | 781/10186 [31:20<6:17:19,  2.41s/it, v_num=uqm9, train/loss=5.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 782/10186 [31:21<6:17:00,  2.41s/it, v_num=uqm9, train/loss=5.5\r",
+      "Epoch 0:   8%| | 782/10186 [31:21<6:17:00,  2.41s/it, v_num=uqm9, train/loss=5.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 783/10186 [31:22<6:16:41,  2.40s/it, v_num=uqm9, train/loss=5.8\r",
+      "Epoch 0:   8%| | 783/10186 [31:22<6:16:41,  2.40s/it, v_num=uqm9, train/loss=6.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 784/10186 [31:28<6:17:28,  2.41s/it, v_num=uqm9, train/loss=6.1\r",
+      "Epoch 0:   8%| | 784/10186 [31:28<6:17:28,  2.41s/it, v_num=uqm9, train/loss=5.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 785/10186 [31:29<6:17:09,  2.41s/it, v_num=uqm9, train/loss=5.7\r",
+      "Epoch 0:   8%| | 785/10186 [31:29<6:17:09,  2.41s/it, v_num=uqm9, train/loss=6.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 786/10186 [31:30<6:16:50,  2.41s/it, v_num=uqm9, train/loss=6.1\r",
+      "Epoch 0:   8%| | 786/10186 [31:30<6:16:50,  2.41s/it, v_num=uqm9, train/loss=6.2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 787/10186 [31:31<6:16:32,  2.40s/it, v_num=uqm9, train/loss=6.2\r",
+      "Epoch 0:   8%| | 787/10186 [31:31<6:16:32,  2.40s/it, v_num=uqm9, train/loss=5.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 788/10186 [31:38<6:17:18,  2.41s/it, v_num=uqm9, train/loss=5.8\r",
+      "Epoch 0:   8%| | 788/10186 [31:38<6:17:18,  2.41s/it, v_num=uqm9, train/loss=5.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 789/10186 [31:39<6:16:59,  2.41s/it, v_num=uqm9, train/loss=5.6\r",
+      "Epoch 0:   8%| | 789/10186 [31:39<6:16:59,  2.41s/it, v_num=uqm9, train/loss=5.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 790/10186 [31:40<6:16:40,  2.41s/it, v_num=uqm9, train/loss=5.9\r",
+      "Epoch 0:   8%| | 790/10186 [31:40<6:16:40,  2.41s/it, v_num=uqm9, train/loss=5.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 791/10186 [31:41<6:16:22,  2.40s/it, v_num=uqm9, train/loss=5.9\r",
+      "Epoch 0:   8%| | 791/10186 [31:41<6:16:22,  2.40s/it, v_num=uqm9, train/loss=5.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 792/10186 [31:47<6:17:07,  2.41s/it, v_num=uqm9, train/loss=5.8\r",
+      "Epoch 0:   8%| | 792/10186 [31:47<6:17:07,  2.41s/it, v_num=uqm9, train/loss=5.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 793/10186 [31:48<6:16:49,  2.41s/it, v_num=uqm9, train/loss=5.6\r",
+      "Epoch 0:   8%| | 793/10186 [31:48<6:16:49,  2.41s/it, v_num=uqm9, train/loss=5.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 794/10186 [31:49<6:16:30,  2.41s/it, v_num=uqm9, train/loss=5.8\r",
+      "Epoch 0:   8%| | 794/10186 [31:49<6:16:30,  2.41s/it, v_num=uqm9, train/loss=5.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 795/10186 [31:50<6:16:12,  2.40s/it, v_num=uqm9, train/loss=5.8\r",
+      "Epoch 0:   8%| | 795/10186 [31:50<6:16:12,  2.40s/it, v_num=uqm9, train/loss=6.2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 796/10186 [31:57<6:16:57,  2.41s/it, v_num=uqm9, train/loss=6.2\r",
+      "Epoch 0:   8%| | 796/10186 [31:57<6:16:57,  2.41s/it, v_num=uqm9, train/loss=5.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 797/10186 [31:58<6:16:39,  2.41s/it, v_num=uqm9, train/loss=5.9\r",
+      "Epoch 0:   8%| | 797/10186 [31:58<6:16:39,  2.41s/it, v_num=uqm9, train/loss=5.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 798/10186 [31:59<6:16:20,  2.41s/it, v_num=uqm9, train/loss=5.7\r",
+      "Epoch 0:   8%| | 798/10186 [31:59<6:16:20,  2.41s/it, v_num=uqm9, train/loss=4.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 799/10186 [32:00<6:16:02,  2.40s/it, v_num=uqm9, train/loss=4.9\r",
+      "Epoch 0:   8%| | 799/10186 [32:00<6:16:02,  2.40s/it, v_num=uqm9, train/loss=5.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 800/10186 [32:06<6:16:47,  2.41s/it, v_num=uqm9, train/loss=5.8\r",
+      "Epoch 0:   8%| | 800/10186 [32:06<6:16:47,  2.41s/it, v_num=uqm9, train/loss=4.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 801/10186 [32:07<6:16:29,  2.41s/it, v_num=uqm9, train/loss=4.6\r",
+      "Epoch 0:   8%| | 801/10186 [32:07<6:16:29,  2.41s/it, v_num=uqm9, train/loss=5.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 802/10186 [32:08<6:16:10,  2.41s/it, v_num=uqm9, train/loss=5.7\r",
+      "Epoch 0:   8%| | 802/10186 [32:08<6:16:10,  2.41s/it, v_num=uqm9, train/loss=5.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 803/10186 [32:10<6:15:52,  2.40s/it, v_num=uqm9, train/loss=5.7\r",
+      "Epoch 0:   8%| | 803/10186 [32:10<6:15:52,  2.40s/it, v_num=uqm9, train/loss=5.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 804/10186 [32:16<6:16:37,  2.41s/it, v_num=uqm9, train/loss=5.9\r",
+      "Epoch 0:   8%| | 804/10186 [32:16<6:16:37,  2.41s/it, v_num=uqm9, train/loss=5.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 805/10186 [32:17<6:16:19,  2.41s/it, v_num=uqm9, train/loss=5.8\r",
+      "Epoch 0:   8%| | 805/10186 [32:17<6:16:19,  2.41s/it, v_num=uqm9, train/loss=5.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 806/10186 [32:18<6:16:00,  2.41s/it, v_num=uqm9, train/loss=5.9\r",
+      "Epoch 0:   8%| | 806/10186 [32:18<6:16:00,  2.41s/it, v_num=uqm9, train/loss=6.3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 807/10186 [32:19<6:15:42,  2.40s/it, v_num=uqm9, train/loss=6.3\r",
+      "Epoch 0:   8%| | 807/10186 [32:19<6:15:42,  2.40s/it, v_num=uqm9, train/loss=5.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 808/10186 [32:26<6:16:27,  2.41s/it, v_num=uqm9, train/loss=5.9\r",
+      "Epoch 0:   8%| | 808/10186 [32:26<6:16:27,  2.41s/it, v_num=uqm9, train/loss=5.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 809/10186 [32:27<6:16:08,  2.41s/it, v_num=uqm9, train/loss=5.6\r",
+      "Epoch 0:   8%| | 809/10186 [32:27<6:16:08,  2.41s/it, v_num=uqm9, train/loss=5.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 810/10186 [32:28<6:15:50,  2.41s/it, v_num=uqm9, train/loss=5.7\r",
+      "Epoch 0:   8%| | 810/10186 [32:28<6:15:50,  2.41s/it, v_num=uqm9, train/loss=5.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 811/10186 [32:29<6:15:32,  2.40s/it, v_num=uqm9, train/loss=5.8\r",
+      "Epoch 0:   8%| | 811/10186 [32:29<6:15:32,  2.40s/it, v_num=uqm9, train/loss=5.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 812/10186 [32:35<6:16:16,  2.41s/it, v_num=uqm9, train/loss=5.6\r",
+      "Epoch 0:   8%| | 812/10186 [32:35<6:16:16,  2.41s/it, v_num=uqm9, train/loss=6.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 813/10186 [32:36<6:15:58,  2.41s/it, v_num=uqm9, train/loss=6.1\r",
+      "Epoch 0:   8%| | 813/10186 [32:36<6:15:58,  2.41s/it, v_num=uqm9, train/loss=5.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 814/10186 [32:37<6:15:40,  2.41s/it, v_num=uqm9, train/loss=5.8\r",
+      "Epoch 0:   8%| | 814/10186 [32:37<6:15:40,  2.41s/it, v_num=uqm9, train/loss=6.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 815/10186 [32:38<6:15:22,  2.40s/it, v_num=uqm9, train/loss=6.0\r",
+      "Epoch 0:   8%| | 815/10186 [32:38<6:15:22,  2.40s/it, v_num=uqm9, train/loss=5.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 816/10186 [32:45<6:16:06,  2.41s/it, v_num=uqm9, train/loss=5.8\r",
+      "Epoch 0:   8%| | 816/10186 [32:45<6:16:06,  2.41s/it, v_num=uqm9, train/loss=5.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 817/10186 [32:46<6:15:48,  2.41s/it, v_num=uqm9, train/loss=5.6\r",
+      "Epoch 0:   8%| | 817/10186 [32:46<6:15:48,  2.41s/it, v_num=uqm9, train/loss=5.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 818/10186 [32:47<6:15:30,  2.41s/it, v_num=uqm9, train/loss=5.7\r",
+      "Epoch 0:   8%| | 818/10186 [32:47<6:15:30,  2.41s/it, v_num=uqm9, train/loss=5.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 819/10186 [32:48<6:15:12,  2.40s/it, v_num=uqm9, train/loss=5.4\r",
+      "Epoch 0:   8%| | 819/10186 [32:48<6:15:12,  2.40s/it, v_num=uqm9, train/loss=5.2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 820/10186 [32:54<6:15:56,  2.41s/it, v_num=uqm9, train/loss=5.2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 820/10186 [32:54<6:15:56,  2.41s/it, v_num=uqm9, train/loss=5.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 821/10186 [32:55<6:15:38,  2.41s/it, v_num=uqm9, train/loss=5.8\r",
+      "Epoch 0:   8%| | 821/10186 [32:55<6:15:38,  2.41s/it, v_num=uqm9, train/loss=6.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 822/10186 [32:56<6:15:20,  2.41s/it, v_num=uqm9, train/loss=6.0\r",
+      "Epoch 0:   8%| | 822/10186 [32:56<6:15:20,  2.41s/it, v_num=uqm9, train/loss=5.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 823/10186 [32:57<6:15:02,  2.40s/it, v_num=uqm9, train/loss=5.7\r",
+      "Epoch 0:   8%| | 823/10186 [32:57<6:15:02,  2.40s/it, v_num=uqm9, train/loss=5.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 824/10186 [33:04<6:15:46,  2.41s/it, v_num=uqm9, train/loss=5.5\r",
+      "Epoch 0:   8%| | 824/10186 [33:04<6:15:46,  2.41s/it, v_num=uqm9, train/loss=6.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 825/10186 [33:05<6:15:28,  2.41s/it, v_num=uqm9, train/loss=6.0\r",
+      "Epoch 0:   8%| | 825/10186 [33:05<6:15:28,  2.41s/it, v_num=uqm9, train/loss=5.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 826/10186 [33:06<6:15:10,  2.40s/it, v_num=uqm9, train/loss=5.7\r",
+      "Epoch 0:   8%| | 826/10186 [33:06<6:15:10,  2.40s/it, v_num=uqm9, train/loss=5.2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 827/10186 [33:07<6:14:52,  2.40s/it, v_num=uqm9, train/loss=5.2\r",
+      "Epoch 0:   8%| | 827/10186 [33:07<6:14:52,  2.40s/it, v_num=uqm9, train/loss=5.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 828/10186 [33:14<6:15:36,  2.41s/it, v_num=uqm9, train/loss=5.9\r",
+      "Epoch 0:   8%| | 828/10186 [33:14<6:15:36,  2.41s/it, v_num=uqm9, train/loss=5.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 829/10186 [33:15<6:15:18,  2.41s/it, v_num=uqm9, train/loss=5.4\r",
+      "Epoch 0:   8%| | 829/10186 [33:15<6:15:18,  2.41s/it, v_num=uqm9, train/loss=5.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 830/10186 [33:16<6:15:00,  2.40s/it, v_num=uqm9, train/loss=5.5\r",
+      "Epoch 0:   8%| | 830/10186 [33:16<6:15:00,  2.40s/it, v_num=uqm9, train/loss=5.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 831/10186 [33:17<6:14:42,  2.40s/it, v_num=uqm9, train/loss=5.6\r",
+      "Epoch 0:   8%| | 831/10186 [33:17<6:14:42,  2.40s/it, v_num=uqm9, train/loss=5.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 832/10186 [33:23<6:15:26,  2.41s/it, v_num=uqm9, train/loss=5.4\r",
+      "Epoch 0:   8%| | 832/10186 [33:23<6:15:26,  2.41s/it, v_num=uqm9, train/loss=6.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 833/10186 [33:24<6:15:08,  2.41s/it, v_num=uqm9, train/loss=6.0\r",
+      "Epoch 0:   8%| | 833/10186 [33:24<6:15:08,  2.41s/it, v_num=uqm9, train/loss=5.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 834/10186 [33:25<6:14:50,  2.40s/it, v_num=uqm9, train/loss=5.7\r",
+      "Epoch 0:   8%| | 834/10186 [33:25<6:14:50,  2.40s/it, v_num=uqm9, train/loss=5.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 835/10186 [33:26<6:14:32,  2.40s/it, v_num=uqm9, train/loss=5.5\r",
+      "Epoch 0:   8%| | 835/10186 [33:26<6:14:32,  2.40s/it, v_num=uqm9, train/loss=5.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 836/10186 [33:33<6:15:15,  2.41s/it, v_num=uqm9, train/loss=5.7\r",
+      "Epoch 0:   8%| | 836/10186 [33:33<6:15:16,  2.41s/it, v_num=uqm9, train/loss=5.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 837/10186 [33:34<6:14:58,  2.41s/it, v_num=uqm9, train/loss=5.1\r",
+      "Epoch 0:   8%| | 837/10186 [33:34<6:14:58,  2.41s/it, v_num=uqm9, train/loss=5.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 838/10186 [33:35<6:14:40,  2.40s/it, v_num=uqm9, train/loss=5.8\r",
+      "Epoch 0:   8%| | 838/10186 [33:35<6:14:40,  2.40s/it, v_num=uqm9, train/loss=5.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 839/10186 [33:36<6:14:23,  2.40s/it, v_num=uqm9, train/loss=5.9\r",
+      "Epoch 0:   8%| | 839/10186 [33:36<6:14:23,  2.40s/it, v_num=uqm9, train/loss=5.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 840/10186 [33:42<6:15:05,  2.41s/it, v_num=uqm9, train/loss=5.5\r",
+      "Epoch 0:   8%| | 840/10186 [33:42<6:15:05,  2.41s/it, v_num=uqm9, train/loss=6.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 841/10186 [33:43<6:14:48,  2.41s/it, v_num=uqm9, train/loss=6.1\r",
+      "Epoch 0:   8%| | 841/10186 [33:43<6:14:48,  2.41s/it, v_num=uqm9, train/loss=5.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 842/10186 [33:44<6:14:30,  2.40s/it, v_num=uqm9, train/loss=5.4\r",
+      "Epoch 0:   8%| | 842/10186 [33:44<6:14:30,  2.40s/it, v_num=uqm9, train/loss=5.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 843/10186 [33:45<6:14:13,  2.40s/it, v_num=uqm9, train/loss=5.5\r",
+      "Epoch 0:   8%| | 843/10186 [33:45<6:14:13,  2.40s/it, v_num=uqm9, train/loss=5.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 844/10186 [33:52<6:14:55,  2.41s/it, v_num=uqm9, train/loss=5.7\r",
+      "Epoch 0:   8%| | 844/10186 [33:52<6:14:55,  2.41s/it, v_num=uqm9, train/loss=5.3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 845/10186 [33:53<6:14:38,  2.41s/it, v_num=uqm9, train/loss=5.3\r",
+      "Epoch 0:   8%| | 845/10186 [33:53<6:14:38,  2.41s/it, v_num=uqm9, train/loss=5.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 846/10186 [33:54<6:14:20,  2.40s/it, v_num=uqm9, train/loss=5.9\r",
+      "Epoch 0:   8%| | 846/10186 [33:54<6:14:20,  2.40s/it, v_num=uqm9, train/loss=6.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 847/10186 [33:55<6:14:03,  2.40s/it, v_num=uqm9, train/loss=6.1\r",
+      "Epoch 0:   8%| | 847/10186 [33:55<6:14:03,  2.40s/it, v_num=uqm9, train/loss=5.2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 848/10186 [34:01<6:14:45,  2.41s/it, v_num=uqm9, train/loss=5.2\r",
+      "Epoch 0:   8%| | 848/10186 [34:01<6:14:45,  2.41s/it, v_num=uqm9, train/loss=5.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 849/10186 [34:02<6:14:28,  2.41s/it, v_num=uqm9, train/loss=5.8\r",
+      "Epoch 0:   8%| | 849/10186 [34:02<6:14:28,  2.41s/it, v_num=uqm9, train/loss=5.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 850/10186 [34:04<6:14:10,  2.40s/it, v_num=uqm9, train/loss=5.5\r",
+      "Epoch 0:   8%| | 850/10186 [34:04<6:14:10,  2.40s/it, v_num=uqm9, train/loss=5.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 851/10186 [34:05<6:13:53,  2.40s/it, v_num=uqm9, train/loss=5.5\r",
+      "Epoch 0:   8%| | 851/10186 [34:05<6:13:53,  2.40s/it, v_num=uqm9, train/loss=5.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 852/10186 [34:11<6:14:35,  2.41s/it, v_num=uqm9, train/loss=5.7\r",
+      "Epoch 0:   8%| | 852/10186 [34:11<6:14:35,  2.41s/it, v_num=uqm9, train/loss=5.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 853/10186 [34:12<6:14:18,  2.41s/it, v_num=uqm9, train/loss=5.5\r",
+      "Epoch 0:   8%| | 853/10186 [34:12<6:14:18,  2.41s/it, v_num=uqm9, train/loss=5.3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 854/10186 [34:13<6:14:00,  2.40s/it, v_num=uqm9, train/loss=5.3\r",
+      "Epoch 0:   8%| | 854/10186 [34:13<6:14:00,  2.40s/it, v_num=uqm9, train/loss=5.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 855/10186 [34:14<6:13:43,  2.40s/it, v_num=uqm9, train/loss=5.6\r",
+      "Epoch 0:   8%| | 855/10186 [34:14<6:13:43,  2.40s/it, v_num=uqm9, train/loss=5.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 856/10186 [34:21<6:14:25,  2.41s/it, v_num=uqm9, train/loss=5.7\r",
+      "Epoch 0:   8%| | 856/10186 [34:21<6:14:25,  2.41s/it, v_num=uqm9, train/loss=5.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 857/10186 [34:22<6:14:08,  2.41s/it, v_num=uqm9, train/loss=5.5\r",
+      "Epoch 0:   8%| | 857/10186 [34:22<6:14:08,  2.41s/it, v_num=uqm9, train/loss=5.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 858/10186 [34:23<6:13:51,  2.40s/it, v_num=uqm9, train/loss=5.5\r",
+      "Epoch 0:   8%| | 858/10186 [34:23<6:13:51,  2.40s/it, v_num=uqm9, train/loss=5.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 859/10186 [34:24<6:13:33,  2.40s/it, v_num=uqm9, train/loss=5.5\r",
+      "Epoch 0:   8%| | 859/10186 [34:24<6:13:33,  2.40s/it, v_num=uqm9, train/loss=5.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 860/10186 [34:30<6:14:15,  2.41s/it, v_num=uqm9, train/loss=5.4\r",
+      "Epoch 0:   8%| | 860/10186 [34:30<6:14:15,  2.41s/it, v_num=uqm9, train/loss=5.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 861/10186 [34:31<6:13:58,  2.41s/it, v_num=uqm9, train/loss=5.8\r",
+      "Epoch 0:   8%| | 861/10186 [34:31<6:13:58,  2.41s/it, v_num=uqm9, train/loss=5.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 862/10186 [34:32<6:13:40,  2.40s/it, v_num=uqm9, train/loss=5.1\r",
+      "Epoch 0:   8%| | 862/10186 [34:32<6:13:40,  2.40s/it, v_num=uqm9, train/loss=5.3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 863/10186 [34:33<6:13:23,  2.40s/it, v_num=uqm9, train/loss=5.3\r",
+      "Epoch 0:   8%| | 863/10186 [34:33<6:13:23,  2.40s/it, v_num=uqm9, train/loss=5.3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 864/10186 [34:40<6:14:05,  2.41s/it, v_num=uqm9, train/loss=5.3\r",
+      "Epoch 0:   8%| | 864/10186 [34:40<6:14:05,  2.41s/it, v_num=uqm9, train/loss=5.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 865/10186 [34:41<6:13:48,  2.41s/it, v_num=uqm9, train/loss=5.0\r",
+      "Epoch 0:   8%| | 865/10186 [34:41<6:13:48,  2.41s/it, v_num=uqm9, train/loss=5.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 866/10186 [34:42<6:13:31,  2.40s/it, v_num=uqm9, train/loss=5.8\r",
+      "Epoch 0:   9%| | 866/10186 [34:42<6:13:31,  2.40s/it, v_num=uqm9, train/loss=5.2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 867/10186 [34:43<6:13:14,  2.40s/it, v_num=uqm9, train/loss=5.2\r",
+      "Epoch 0:   9%| | 867/10186 [34:43<6:13:14,  2.40s/it, v_num=uqm9, train/loss=5.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 868/10186 [34:49<6:13:55,  2.41s/it, v_num=uqm9, train/loss=5.5\r",
+      "Epoch 0:   9%| | 868/10186 [34:49<6:13:55,  2.41s/it, v_num=uqm9, train/loss=5.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 869/10186 [34:50<6:13:37,  2.41s/it, v_num=uqm9, train/loss=5.4\r",
+      "Epoch 0:   9%| | 869/10186 [34:50<6:13:37,  2.41s/it, v_num=uqm9, train/loss=5.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 870/10186 [34:51<6:13:20,  2.40s/it, v_num=uqm9, train/loss=5.5\r",
+      "Epoch 0:   9%| | 870/10186 [34:51<6:13:20,  2.40s/it, v_num=uqm9, train/loss=5.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 871/10186 [34:53<6:13:03,  2.40s/it, v_num=uqm9, train/loss=5.5\r",
+      "Epoch 0:   9%| | 871/10186 [34:53<6:13:03,  2.40s/it, v_num=uqm9, train/loss=6.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 872/10186 [34:59<6:13:44,  2.41s/it, v_num=uqm9, train/loss=6.1\r",
+      "Epoch 0:   9%| | 872/10186 [34:59<6:13:44,  2.41s/it, v_num=uqm9, train/loss=5.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 873/10186 [35:00<6:13:27,  2.41s/it, v_num=uqm9, train/loss=5.8\r",
+      "Epoch 0:   9%| | 873/10186 [35:00<6:13:27,  2.41s/it, v_num=uqm9, train/loss=5.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 874/10186 [35:01<6:13:10,  2.40s/it, v_num=uqm9, train/loss=5.8\r",
+      "Epoch 0:   9%| | 874/10186 [35:01<6:13:10,  2.40s/it, v_num=uqm9, train/loss=6.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 875/10186 [35:02<6:12:53,  2.40s/it, v_num=uqm9, train/loss=6.0\r",
+      "Epoch 0:   9%| | 875/10186 [35:02<6:12:53,  2.40s/it, v_num=uqm9, train/loss=5.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 876/10186 [35:09<6:13:34,  2.41s/it, v_num=uqm9, train/loss=5.8\r",
+      "Epoch 0:   9%| | 876/10186 [35:09<6:13:34,  2.41s/it, v_num=uqm9, train/loss=5.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 877/10186 [35:10<6:13:17,  2.41s/it, v_num=uqm9, train/loss=5.7\r",
+      "Epoch 0:   9%| | 877/10186 [35:10<6:13:17,  2.41s/it, v_num=uqm9, train/loss=5.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 878/10186 [35:11<6:13:00,  2.40s/it, v_num=uqm9, train/loss=5.7\r",
+      "Epoch 0:   9%| | 878/10186 [35:11<6:13:00,  2.40s/it, v_num=uqm9, train/loss=5.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 879/10186 [35:12<6:12:44,  2.40s/it, v_num=uqm9, train/loss=5.5\r",
+      "Epoch 0:   9%| | 879/10186 [35:12<6:12:44,  2.40s/it, v_num=uqm9, train/loss=5.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 880/10186 [35:18<6:13:24,  2.41s/it, v_num=uqm9, train/loss=5.6\r",
+      "Epoch 0:   9%| | 880/10186 [35:18<6:13:24,  2.41s/it, v_num=uqm9, train/loss=5.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 881/10186 [35:19<6:13:07,  2.41s/it, v_num=uqm9, train/loss=5.8\r",
+      "Epoch 0:   9%| | 881/10186 [35:19<6:13:07,  2.41s/it, v_num=uqm9, train/loss=5.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 882/10186 [35:20<6:12:50,  2.40s/it, v_num=uqm9, train/loss=5.6\r",
+      "Epoch 0:   9%| | 882/10186 [35:20<6:12:50,  2.40s/it, v_num=uqm9, train/loss=5.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 883/10186 [35:21<6:12:34,  2.40s/it, v_num=uqm9, train/loss=5.0\r",
+      "Epoch 0:   9%| | 883/10186 [35:21<6:12:34,  2.40s/it, v_num=uqm9, train/loss=5.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 884/10186 [35:28<6:13:14,  2.41s/it, v_num=uqm9, train/loss=5.5\r",
+      "Epoch 0:   9%| | 884/10186 [35:28<6:13:14,  2.41s/it, v_num=uqm9, train/loss=5.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 885/10186 [35:29<6:12:57,  2.41s/it, v_num=uqm9, train/loss=5.6\r",
+      "Epoch 0:   9%| | 885/10186 [35:29<6:12:57,  2.41s/it, v_num=uqm9, train/loss=5.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 886/10186 [35:30<6:12:40,  2.40s/it, v_num=uqm9, train/loss=5.4\r",
+      "Epoch 0:   9%| | 886/10186 [35:30<6:12:40,  2.40s/it, v_num=uqm9, train/loss=5.3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 887/10186 [35:31<6:12:24,  2.40s/it, v_num=uqm9, train/loss=5.3\r",
+      "Epoch 0:   9%| | 887/10186 [35:31<6:12:24,  2.40s/it, v_num=uqm9, train/loss=5.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 888/10186 [35:37<6:13:04,  2.41s/it, v_num=uqm9, train/loss=5.8\r",
+      "Epoch 0:   9%| | 888/10186 [35:37<6:13:04,  2.41s/it, v_num=uqm9, train/loss=5.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 889/10186 [35:38<6:12:47,  2.41s/it, v_num=uqm9, train/loss=5.7\r",
+      "Epoch 0:   9%| | 889/10186 [35:38<6:12:47,  2.41s/it, v_num=uqm9, train/loss=6.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 890/10186 [35:39<6:12:31,  2.40s/it, v_num=uqm9, train/loss=6.0\r",
+      "Epoch 0:   9%| | 890/10186 [35:39<6:12:31,  2.40s/it, v_num=uqm9, train/loss=5.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 891/10186 [35:40<6:12:14,  2.40s/it, v_num=uqm9, train/loss=5.6\r",
+      "Epoch 0:   9%| | 891/10186 [35:40<6:12:14,  2.40s/it, v_num=uqm9, train/loss=5.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 892/10186 [35:47<6:12:54,  2.41s/it, v_num=uqm9, train/loss=5.9\r",
+      "Epoch 0:   9%| | 892/10186 [35:47<6:12:54,  2.41s/it, v_num=uqm9, train/loss=5.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 893/10186 [35:48<6:12:37,  2.41s/it, v_num=uqm9, train/loss=5.9\r",
+      "Epoch 0:   9%| | 893/10186 [35:48<6:12:37,  2.41s/it, v_num=uqm9, train/loss=5.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 894/10186 [35:49<6:12:21,  2.40s/it, v_num=uqm9, train/loss=5.7\r",
+      "Epoch 0:   9%| | 894/10186 [35:49<6:12:21,  2.40s/it, v_num=uqm9, train/loss=5.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 895/10186 [35:50<6:12:04,  2.40s/it, v_num=uqm9, train/loss=5.9\r",
+      "Epoch 0:   9%| | 895/10186 [35:50<6:12:04,  2.40s/it, v_num=uqm9, train/loss=5.2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 896/10186 [35:56<6:12:44,  2.41s/it, v_num=uqm9, train/loss=5.2\r",
+      "Epoch 0:   9%| | 896/10186 [35:56<6:12:44,  2.41s/it, v_num=uqm9, train/loss=5.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 897/10186 [35:58<6:12:27,  2.41s/it, v_num=uqm9, train/loss=5.6\r",
+      "Epoch 0:   9%| | 897/10186 [35:58<6:12:27,  2.41s/it, v_num=uqm9, train/loss=5.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 898/10186 [35:59<6:12:11,  2.40s/it, v_num=uqm9, train/loss=5.7\r",
+      "Epoch 0:   9%| | 898/10186 [35:59<6:12:11,  2.40s/it, v_num=uqm9, train/loss=6.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 899/10186 [36:00<6:11:54,  2.40s/it, v_num=uqm9, train/loss=6.0\r",
+      "Epoch 0:   9%| | 899/10186 [36:00<6:11:54,  2.40s/it, v_num=uqm9, train/loss=5.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 900/10186 [36:06<6:12:34,  2.41s/it, v_num=uqm9, train/loss=5.5\r",
+      "Epoch 0:   9%| | 900/10186 [36:06<6:12:34,  2.41s/it, v_num=uqm9, train/loss=5.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 901/10186 [36:07<6:12:17,  2.41s/it, v_num=uqm9, train/loss=5.5\r",
+      "Epoch 0:   9%| | 901/10186 [36:07<6:12:17,  2.41s/it, v_num=uqm9, train/loss=5.3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 902/10186 [36:08<6:12:01,  2.40s/it, v_num=uqm9, train/loss=5.3\r",
+      "Epoch 0:   9%| | 902/10186 [36:08<6:12:01,  2.40s/it, v_num=uqm9, train/loss=5.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 903/10186 [36:09<6:11:44,  2.40s/it, v_num=uqm9, train/loss=5.9\r",
+      "Epoch 0:   9%| | 903/10186 [36:09<6:11:44,  2.40s/it, v_num=uqm9, train/loss=5.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 904/10186 [36:16<6:12:24,  2.41s/it, v_num=uqm9, train/loss=5.4\r",
+      "Epoch 0:   9%| | 904/10186 [36:16<6:12:24,  2.41s/it, v_num=uqm9, train/loss=5.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 905/10186 [36:17<6:12:07,  2.41s/it, v_num=uqm9, train/loss=5.8\r",
+      "Epoch 0:   9%| | 905/10186 [36:17<6:12:07,  2.41s/it, v_num=uqm9, train/loss=5.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 906/10186 [36:18<6:11:51,  2.40s/it, v_num=uqm9, train/loss=5.4\r",
+      "Epoch 0:   9%| | 906/10186 [36:18<6:11:51,  2.40s/it, v_num=uqm9, train/loss=5.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 907/10186 [36:19<6:11:35,  2.40s/it, v_num=uqm9, train/loss=5.8\r",
+      "Epoch 0:   9%| | 907/10186 [36:19<6:11:35,  2.40s/it, v_num=uqm9, train/loss=5.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 908/10186 [36:25<6:12:14,  2.41s/it, v_num=uqm9, train/loss=5.7\r",
+      "Epoch 0:   9%| | 908/10186 [36:25<6:12:14,  2.41s/it, v_num=uqm9, train/loss=5.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 909/10186 [36:26<6:11:57,  2.41s/it, v_num=uqm9, train/loss=5.4\r",
+      "Epoch 0:   9%| | 909/10186 [36:26<6:11:57,  2.41s/it, v_num=uqm9, train/loss=5.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 910/10186 [36:27<6:11:41,  2.40s/it, v_num=uqm9, train/loss=5.6\r",
+      "Epoch 0:   9%| | 910/10186 [36:27<6:11:41,  2.40s/it, v_num=uqm9, train/loss=5.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 911/10186 [36:28<6:11:25,  2.40s/it, v_num=uqm9, train/loss=5.7\r",
+      "Epoch 0:   9%| | 911/10186 [36:28<6:11:25,  2.40s/it, v_num=uqm9, train/loss=5.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 912/10186 [36:35<6:12:04,  2.41s/it, v_num=uqm9, train/loss=5.6\r",
+      "Epoch 0:   9%| | 912/10186 [36:35<6:12:04,  2.41s/it, v_num=uqm9, train/loss=5.3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 913/10186 [36:36<6:11:47,  2.41s/it, v_num=uqm9, train/loss=5.3\r",
+      "Epoch 0:   9%| | 913/10186 [36:36<6:11:47,  2.41s/it, v_num=uqm9, train/loss=5.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 914/10186 [36:37<6:11:31,  2.40s/it, v_num=uqm9, train/loss=5.4\r",
+      "Epoch 0:   9%| | 914/10186 [36:37<6:11:31,  2.40s/it, v_num=uqm9, train/loss=5.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 915/10186 [36:38<6:11:15,  2.40s/it, v_num=uqm9, train/loss=5.5\r",
+      "Epoch 0:   9%| | 915/10186 [36:38<6:11:15,  2.40s/it, v_num=uqm9, train/loss=5.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 916/10186 [36:44<6:11:54,  2.41s/it, v_num=uqm9, train/loss=5.5\r",
+      "Epoch 0:   9%| | 916/10186 [36:44<6:11:54,  2.41s/it, v_num=uqm9, train/loss=5.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 917/10186 [36:45<6:11:37,  2.41s/it, v_num=uqm9, train/loss=5.6\r",
+      "Epoch 0:   9%| | 917/10186 [36:45<6:11:37,  2.41s/it, v_num=uqm9, train/loss=5.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 918/10186 [36:47<6:11:21,  2.40s/it, v_num=uqm9, train/loss=5.5\r",
+      "Epoch 0:   9%| | 918/10186 [36:47<6:11:21,  2.40s/it, v_num=uqm9, train/loss=5.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 919/10186 [36:48<6:11:05,  2.40s/it, v_num=uqm9, train/loss=5.8\r",
+      "Epoch 0:   9%| | 919/10186 [36:48<6:11:05,  2.40s/it, v_num=uqm9, train/loss=5.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 920/10186 [36:54<6:11:44,  2.41s/it, v_num=uqm9, train/loss=5.8\r",
+      "Epoch 0:   9%| | 920/10186 [36:54<6:11:44,  2.41s/it, v_num=uqm9, train/loss=6.3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 921/10186 [36:55<6:11:27,  2.41s/it, v_num=uqm9, train/loss=6.3\r",
+      "Epoch 0:   9%| | 921/10186 [36:55<6:11:27,  2.41s/it, v_num=uqm9, train/loss=5.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 922/10186 [36:56<6:11:11,  2.40s/it, v_num=uqm9, train/loss=5.1\r",
+      "Epoch 0:   9%| | 922/10186 [36:56<6:11:11,  2.40s/it, v_num=uqm9, train/loss=5.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 923/10186 [36:57<6:10:55,  2.40s/it, v_num=uqm9, train/loss=5.7\r",
+      "Epoch 0:   9%| | 923/10186 [36:57<6:10:55,  2.40s/it, v_num=uqm9, train/loss=5.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 924/10186 [37:04<6:11:33,  2.41s/it, v_num=uqm9, train/loss=5.8\r",
+      "Epoch 0:   9%| | 924/10186 [37:04<6:11:33,  2.41s/it, v_num=uqm9, train/loss=5.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 925/10186 [37:05<6:11:17,  2.41s/it, v_num=uqm9, train/loss=5.9\r",
+      "Epoch 0:   9%| | 925/10186 [37:05<6:11:17,  2.41s/it, v_num=uqm9, train/loss=5.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 926/10186 [37:06<6:11:01,  2.40s/it, v_num=uqm9, train/loss=5.6\r",
+      "Epoch 0:   9%| | 926/10186 [37:06<6:11:01,  2.40s/it, v_num=uqm9, train/loss=5.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 927/10186 [37:07<6:10:45,  2.40s/it, v_num=uqm9, train/loss=5.6\r",
+      "Epoch 0:   9%| | 927/10186 [37:07<6:10:45,  2.40s/it, v_num=uqm9, train/loss=5.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 928/10186 [37:13<6:11:23,  2.41s/it, v_num=uqm9, train/loss=5.7\r",
+      "Epoch 0:   9%| | 928/10186 [37:13<6:11:23,  2.41s/it, v_num=uqm9, train/loss=5.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 929/10186 [37:14<6:11:07,  2.41s/it, v_num=uqm9, train/loss=5.7\r",
+      "Epoch 0:   9%| | 929/10186 [37:14<6:11:07,  2.41s/it, v_num=uqm9, train/loss=4.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 930/10186 [37:15<6:10:51,  2.40s/it, v_num=uqm9, train/loss=4.9\r",
+      "Epoch 0:   9%| | 930/10186 [37:15<6:10:51,  2.40s/it, v_num=uqm9, train/loss=5.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 931/10186 [37:16<6:10:36,  2.40s/it, v_num=uqm9, train/loss=5.5\r",
+      "Epoch 0:   9%| | 931/10186 [37:16<6:10:36,  2.40s/it, v_num=uqm9, train/loss=5.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 932/10186 [37:23<6:11:13,  2.41s/it, v_num=uqm9, train/loss=5.4\r",
+      "Epoch 0:   9%| | 932/10186 [37:23<6:11:13,  2.41s/it, v_num=uqm9, train/loss=5.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 933/10186 [37:24<6:10:57,  2.41s/it, v_num=uqm9, train/loss=5.8\r",
+      "Epoch 0:   9%| | 933/10186 [37:24<6:10:57,  2.41s/it, v_num=uqm9, train/loss=5.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 934/10186 [37:25<6:10:42,  2.40s/it, v_num=uqm9, train/loss=5.4\r",
+      "Epoch 0:   9%| | 934/10186 [37:25<6:10:42,  2.40s/it, v_num=uqm9, train/loss=5.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 935/10186 [37:26<6:10:26,  2.40s/it, v_num=uqm9, train/loss=5.8\r",
+      "Epoch 0:   9%| | 935/10186 [37:26<6:10:26,  2.40s/it, v_num=uqm9, train/loss=6.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 936/10186 [37:32<6:11:03,  2.41s/it, v_num=uqm9, train/loss=6.0\r",
+      "Epoch 0:   9%| | 936/10186 [37:32<6:11:03,  2.41s/it, v_num=uqm9, train/loss=5.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 937/10186 [37:33<6:10:47,  2.41s/it, v_num=uqm9, train/loss=5.7\r",
+      "Epoch 0:   9%| | 937/10186 [37:33<6:10:47,  2.41s/it, v_num=uqm9, train/loss=5.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 938/10186 [37:34<6:10:32,  2.40s/it, v_num=uqm9, train/loss=5.5\r",
+      "Epoch 0:   9%| | 938/10186 [37:34<6:10:32,  2.40s/it, v_num=uqm9, train/loss=5.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 939/10186 [37:35<6:10:16,  2.40s/it, v_num=uqm9, train/loss=5.8\r",
+      "Epoch 0:   9%| | 939/10186 [37:35<6:10:16,  2.40s/it, v_num=uqm9, train/loss=5.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 940/10186 [37:42<6:10:53,  2.41s/it, v_num=uqm9, train/loss=5.8\r",
+      "Epoch 0:   9%| | 940/10186 [37:42<6:10:53,  2.41s/it, v_num=uqm9, train/loss=5.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 941/10186 [37:43<6:10:37,  2.41s/it, v_num=uqm9, train/loss=5.9\r",
+      "Epoch 0:   9%| | 941/10186 [37:43<6:10:37,  2.41s/it, v_num=uqm9, train/loss=5.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 942/10186 [37:44<6:10:22,  2.40s/it, v_num=uqm9, train/loss=5.6\r",
+      "Epoch 0:   9%| | 942/10186 [37:44<6:10:22,  2.40s/it, v_num=uqm9, train/loss=5.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 943/10186 [37:45<6:10:06,  2.40s/it, v_num=uqm9, train/loss=5.9\r",
+      "Epoch 0:   9%| | 943/10186 [37:45<6:10:06,  2.40s/it, v_num=uqm9, train/loss=5.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 944/10186 [37:52<6:10:43,  2.41s/it, v_num=uqm9, train/loss=5.4\r",
+      "Epoch 0:   9%| | 944/10186 [37:52<6:10:43,  2.41s/it, v_num=uqm9, train/loss=5.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 945/10186 [37:53<6:10:27,  2.41s/it, v_num=uqm9, train/loss=5.6\r",
+      "Epoch 0:   9%| | 945/10186 [37:53<6:10:27,  2.41s/it, v_num=uqm9, train/loss=5.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 946/10186 [37:54<6:10:12,  2.40s/it, v_num=uqm9, train/loss=5.5\r",
+      "Epoch 0:   9%| | 946/10186 [37:54<6:10:12,  2.40s/it, v_num=uqm9, train/loss=5.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 947/10186 [37:55<6:09:56,  2.40s/it, v_num=uqm9, train/loss=5.5\r",
+      "Epoch 0:   9%| | 947/10186 [37:55<6:09:56,  2.40s/it, v_num=uqm9, train/loss=5.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 948/10186 [38:01<6:10:33,  2.41s/it, v_num=uqm9, train/loss=5.4\r",
+      "Epoch 0:   9%| | 948/10186 [38:01<6:10:33,  2.41s/it, v_num=uqm9, train/loss=5.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 949/10186 [38:02<6:10:17,  2.41s/it, v_num=uqm9, train/loss=5.7\r",
+      "Epoch 0:   9%| | 949/10186 [38:02<6:10:17,  2.41s/it, v_num=uqm9, train/loss=5.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 950/10186 [38:03<6:10:02,  2.40s/it, v_num=uqm9, train/loss=5.7\r",
+      "Epoch 0:   9%| | 950/10186 [38:03<6:10:02,  2.40s/it, v_num=uqm9, train/loss=5.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 951/10186 [38:04<6:09:46,  2.40s/it, v_num=uqm9, train/loss=5.6\r",
+      "Epoch 0:   9%| | 951/10186 [38:04<6:09:46,  2.40s/it, v_num=uqm9, train/loss=5.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 952/10186 [38:11<6:10:23,  2.41s/it, v_num=uqm9, train/loss=5.6\r",
+      "Epoch 0:   9%| | 952/10186 [38:11<6:10:23,  2.41s/it, v_num=uqm9, train/loss=5.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 953/10186 [38:12<6:10:07,  2.41s/it, v_num=uqm9, train/loss=5.6\r",
+      "Epoch 0:   9%| | 953/10186 [38:12<6:10:07,  2.41s/it, v_num=uqm9, train/loss=5.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 954/10186 [38:13<6:09:52,  2.40s/it, v_num=uqm9, train/loss=5.5\r",
+      "Epoch 0:   9%| | 954/10186 [38:13<6:09:52,  2.40s/it, v_num=uqm9, train/loss=5.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 955/10186 [38:14<6:09:36,  2.40s/it, v_num=uqm9, train/loss=5.7\r",
+      "Epoch 0:   9%| | 955/10186 [38:14<6:09:36,  2.40s/it, v_num=uqm9, train/loss=6.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 956/10186 [38:20<6:10:13,  2.41s/it, v_num=uqm9, train/loss=6.0\r",
+      "Epoch 0:   9%| | 956/10186 [38:20<6:10:13,  2.41s/it, v_num=uqm9, train/loss=5.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 957/10186 [38:21<6:09:57,  2.41s/it, v_num=uqm9, train/loss=5.6\r",
+      "Epoch 0:   9%| | 957/10186 [38:21<6:09:57,  2.41s/it, v_num=uqm9, train/loss=5.3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 958/10186 [38:22<6:09:42,  2.40s/it, v_num=uqm9, train/loss=5.3\r",
+      "Epoch 0:   9%| | 958/10186 [38:22<6:09:42,  2.40s/it, v_num=uqm9, train/loss=5.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 959/10186 [38:23<6:09:27,  2.40s/it, v_num=uqm9, train/loss=5.5\r",
+      "Epoch 0:   9%| | 959/10186 [38:23<6:09:27,  2.40s/it, v_num=uqm9, train/loss=5.2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 960/10186 [38:30<6:10:03,  2.41s/it, v_num=uqm9, train/loss=5.2\r",
+      "Epoch 0:   9%| | 960/10186 [38:30<6:10:03,  2.41s/it, v_num=uqm9, train/loss=5.2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 961/10186 [38:31<6:09:48,  2.41s/it, v_num=uqm9, train/loss=5.2\r",
+      "Epoch 0:   9%| | 961/10186 [38:31<6:09:48,  2.41s/it, v_num=uqm9, train/loss=5.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 962/10186 [38:32<6:09:32,  2.40s/it, v_num=uqm9, train/loss=5.6\r",
+      "Epoch 0:   9%| | 962/10186 [38:32<6:09:32,  2.40s/it, v_num=uqm9, train/loss=4.3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 963/10186 [38:33<6:09:17,  2.40s/it, v_num=uqm9, train/loss=4.3\r",
+      "Epoch 0:   9%| | 963/10186 [38:33<6:09:17,  2.40s/it, v_num=uqm9, train/loss=5.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 964/10186 [38:39<6:09:53,  2.41s/it, v_num=uqm9, train/loss=5.4\r",
+      "Epoch 0:   9%| | 964/10186 [38:39<6:09:53,  2.41s/it, v_num=uqm9, train/loss=5.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 965/10186 [38:40<6:09:38,  2.41s/it, v_num=uqm9, train/loss=5.1\r",
+      "Epoch 0:   9%| | 965/10186 [38:40<6:09:38,  2.41s/it, v_num=uqm9, train/loss=5.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 966/10186 [38:42<6:09:22,  2.40s/it, v_num=uqm9, train/loss=5.5\r",
+      "Epoch 0:   9%| | 966/10186 [38:42<6:09:22,  2.40s/it, v_num=uqm9, train/loss=5.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 967/10186 [38:43<6:09:07,  2.40s/it, v_num=uqm9, train/loss=5.5\r",
+      "Epoch 0:   9%| | 967/10186 [38:43<6:09:07,  2.40s/it, v_num=uqm9, train/loss=5.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 968/10186 [38:49<6:09:43,  2.41s/it, v_num=uqm9, train/loss=5.6\r",
+      "Epoch 0:  10%| | 968/10186 [38:49<6:09:43,  2.41s/it, v_num=uqm9, train/loss=5.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 969/10186 [38:50<6:09:28,  2.41s/it, v_num=uqm9, train/loss=5.7\r",
+      "Epoch 0:  10%| | 969/10186 [38:50<6:09:28,  2.41s/it, v_num=uqm9, train/loss=5.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 970/10186 [38:51<6:09:12,  2.40s/it, v_num=uqm9, train/loss=5.4\r",
+      "Epoch 0:  10%| | 970/10186 [38:51<6:09:12,  2.40s/it, v_num=uqm9, train/loss=5.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 971/10186 [38:52<6:08:57,  2.40s/it, v_num=uqm9, train/loss=5.5\r",
+      "Epoch 0:  10%| | 971/10186 [38:52<6:08:57,  2.40s/it, v_num=uqm9, train/loss=5.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 972/10186 [38:59<6:09:33,  2.41s/it, v_num=uqm9, train/loss=5.6\r",
+      "Epoch 0:  10%| | 972/10186 [38:59<6:09:33,  2.41s/it, v_num=uqm9, train/loss=5.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 973/10186 [39:00<6:09:18,  2.41s/it, v_num=uqm9, train/loss=5.5\r",
+      "Epoch 0:  10%| | 973/10186 [39:00<6:09:18,  2.41s/it, v_num=uqm9, train/loss=5.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 974/10186 [39:01<6:09:03,  2.40s/it, v_num=uqm9, train/loss=5.8\r",
+      "Epoch 0:  10%| | 974/10186 [39:01<6:09:03,  2.40s/it, v_num=uqm9, train/loss=5.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 975/10186 [39:02<6:08:47,  2.40s/it, v_num=uqm9, train/loss=5.5\r",
+      "Epoch 0:  10%| | 975/10186 [39:02<6:08:47,  2.40s/it, v_num=uqm9, train/loss=5.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 976/10186 [39:08<6:09:23,  2.41s/it, v_num=uqm9, train/loss=5.4\r",
+      "Epoch 0:  10%| | 976/10186 [39:08<6:09:23,  2.41s/it, v_num=uqm9, train/loss=5.0"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 977/10186 [39:09<6:09:08,  2.41s/it, v_num=uqm9, train/loss=5.0\r",
+      "Epoch 0:  10%| | 977/10186 [39:09<6:09:08,  2.41s/it, v_num=uqm9, train/loss=5.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 978/10186 [39:10<6:08:53,  2.40s/it, v_num=uqm9, train/loss=5.5\r",
+      "Epoch 0:  10%| | 978/10186 [39:10<6:08:53,  2.40s/it, v_num=uqm9, train/loss=5.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 979/10186 [39:11<6:08:37,  2.40s/it, v_num=uqm9, train/loss=5.5\r",
+      "Epoch 0:  10%| | 979/10186 [39:11<6:08:37,  2.40s/it, v_num=uqm9, train/loss=5.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 980/10186 [39:18<6:09:13,  2.41s/it, v_num=uqm9, train/loss=5.8\r",
+      "Epoch 0:  10%| | 980/10186 [39:18<6:09:13,  2.41s/it, v_num=uqm9, train/loss=5.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 981/10186 [39:19<6:08:58,  2.41s/it, v_num=uqm9, train/loss=5.6\r",
+      "Epoch 0:  10%| | 981/10186 [39:19<6:08:58,  2.41s/it, v_num=uqm9, train/loss=5.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 982/10186 [39:20<6:08:43,  2.40s/it, v_num=uqm9, train/loss=5.6\r",
+      "Epoch 0:  10%| | 982/10186 [39:20<6:08:43,  2.40s/it, v_num=uqm9, train/loss=5.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 983/10186 [39:21<6:08:28,  2.40s/it, v_num=uqm9, train/loss=5.5\r",
+      "Epoch 0:  10%| | 983/10186 [39:21<6:08:28,  2.40s/it, v_num=uqm9, train/loss=5.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 984/10186 [39:27<6:09:03,  2.41s/it, v_num=uqm9, train/loss=5.5\r",
+      "Epoch 0:  10%| | 984/10186 [39:27<6:09:03,  2.41s/it, v_num=uqm9, train/loss=5.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 985/10186 [39:28<6:08:48,  2.41s/it, v_num=uqm9, train/loss=5.6\r",
+      "Epoch 0:  10%| | 985/10186 [39:28<6:08:48,  2.41s/it, v_num=uqm9, train/loss=5.2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 986/10186 [39:29<6:08:33,  2.40s/it, v_num=uqm9, train/loss=5.2\r",
+      "Epoch 0:  10%| | 986/10186 [39:29<6:08:33,  2.40s/it, v_num=uqm9, train/loss=5.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 987/10186 [39:31<6:08:18,  2.40s/it, v_num=uqm9, train/loss=5.6\r",
+      "Epoch 0:  10%| | 987/10186 [39:31<6:08:18,  2.40s/it, v_num=uqm9, train/loss=5.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 988/10186 [39:37<6:08:53,  2.41s/it, v_num=uqm9, train/loss=5.7\r",
+      "Epoch 0:  10%| | 988/10186 [39:37<6:08:53,  2.41s/it, v_num=uqm9, train/loss=5.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 989/10186 [39:38<6:08:38,  2.40s/it, v_num=uqm9, train/loss=5.5\r",
+      "Epoch 0:  10%| | 989/10186 [39:38<6:08:38,  2.40s/it, v_num=uqm9, train/loss=5.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 990/10186 [39:39<6:08:23,  2.40s/it, v_num=uqm9, train/loss=5.4\r",
+      "Epoch 0:  10%| | 990/10186 [39:39<6:08:23,  2.40s/it, v_num=uqm9, train/loss=5.7"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 991/10186 [39:40<6:08:08,  2.40s/it, v_num=uqm9, train/loss=5.7\r",
+      "Epoch 0:  10%| | 991/10186 [39:40<6:08:08,  2.40s/it, v_num=uqm9, train/loss=5.5"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 992/10186 [39:47<6:08:43,  2.41s/it, v_num=uqm9, train/loss=5.5\r",
+      "Epoch 0:  10%| | 992/10186 [39:47<6:08:43,  2.41s/it, v_num=uqm9, train/loss=5.9"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 993/10186 [39:48<6:08:28,  2.40s/it, v_num=uqm9, train/loss=5.9\r",
+      "Epoch 0:  10%| | 993/10186 [39:48<6:08:28,  2.40s/it, v_num=uqm9, train/loss=5.4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 994/10186 [39:49<6:08:13,  2.40s/it, v_num=uqm9, train/loss=5.4\r",
+      "Epoch 0:  10%| | 994/10186 [39:49<6:08:13,  2.40s/it, v_num=uqm9, train/loss=5.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 995/10186 [39:50<6:07:58,  2.40s/it, v_num=uqm9, train/loss=5.8\r",
+      "Epoch 0:  10%| | 995/10186 [39:50<6:07:58,  2.40s/it, v_num=uqm9, train/loss=5.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 996/10186 [39:56<6:08:33,  2.41s/it, v_num=uqm9, train/loss=5.6\r",
+      "Epoch 0:  10%| | 996/10186 [39:56<6:08:33,  2.41s/it, v_num=uqm9, train/loss=5.1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 997/10186 [39:57<6:08:18,  2.40s/it, v_num=uqm9, train/loss=5.1\r",
+      "Epoch 0:  10%| | 997/10186 [39:57<6:08:18,  2.40s/it, v_num=uqm9, train/loss=5.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 998/10186 [39:58<6:08:03,  2.40s/it, v_num=uqm9, train/loss=5.6"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 998/10186 [39:58<6:08:03,  2.40s/it, v_num=uqm9, train/loss=5.8"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 999/10186 [39:59<6:07:48,  2.40s/it, v_num=uqm9, train/loss=5.8\r",
+      "Epoch 0:  10%| | 999/10186 [39:59<6:07:48,  2.40s/it, v_num=uqm9, train/loss=5.2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 1000/10186 [40:06<6:08:23,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  10%| | 1000/10186 [40:06<6:08:23,  2.41s/it, v_num=uqm9, train/loss=5./usr/local/lib/python3.11/dist-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.\r\n",
+      "  warnings.warn(\r\n",
+      "/usr/local/lib/python3.11/dist-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.\r\n",
+      "  warnings.warn(\r\n",
+      "/usr/local/lib/python3.11/dist-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.\r\n",
+      "  warnings.warn(\r\n",
+      "/usr/local/lib/python3.11/dist-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.\r\n",
+      "  warnings.warn(\r\n",
+      "/usr/local/lib/python3.11/dist-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.\r\n",
+      "  warnings.warn(\r\n",
+      "/usr/local/lib/python3.11/dist-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.\r\n",
+      "  warnings.warn(\r\n",
+      "/usr/local/lib/python3.11/dist-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.\r\n",
+      "  warnings.warn(\r\n",
+      "/usr/local/lib/python3.11/dist-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.\r\n",
+      "  warnings.warn(\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 1001/10186 [40:23<6:10:37,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  10%| | 1001/10186 [40:23<6:10:37,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 1002/10186 [40:24<6:10:22,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  10%| | 1002/10186 [40:24<6:10:22,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 1003/10186 [40:25<6:10:07,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  10%| | 1003/10186 [40:25<6:10:07,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 1004/10186 [40:32<6:10:41,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  10%| | 1004/10186 [40:32<6:10:41,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 1005/10186 [40:33<6:10:26,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  10%| | 1005/10186 [40:33<6:10:26,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 1006/10186 [40:34<6:10:11,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  10%| | 1006/10186 [40:34<6:10:11,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 1007/10186 [40:35<6:09:56,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  10%| | 1007/10186 [40:35<6:09:56,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 1008/10186 [40:41<6:10:31,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  10%| | 1008/10186 [40:41<6:10:31,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 1009/10186 [40:42<6:10:16,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  10%| | 1009/10186 [40:42<6:10:16,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 1010/10186 [40:43<6:10:01,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  10%| | 1010/10186 [40:43<6:10:01,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 1011/10186 [40:44<6:09:46,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  10%| | 1011/10186 [40:44<6:09:46,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 1012/10186 [40:51<6:10:20,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  10%| | 1012/10186 [40:51<6:10:20,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 1013/10186 [40:52<6:10:05,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  10%| | 1013/10186 [40:52<6:10:05,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 1014/10186 [40:53<6:09:50,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  10%| | 1014/10186 [40:53<6:09:50,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 1015/10186 [40:54<6:09:35,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  10%| | 1015/10186 [40:54<6:09:35,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 1016/10186 [41:00<6:10:10,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  10%| | 1016/10186 [41:00<6:10:10,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 1017/10186 [41:01<6:09:55,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  10%| | 1017/10186 [41:01<6:09:55,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 1018/10186 [41:02<6:09:40,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  10%| | 1018/10186 [41:02<6:09:40,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 1019/10186 [41:03<6:09:25,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  10%| | 1019/10186 [41:03<6:09:25,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 1020/10186 [41:10<6:09:59,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  10%| | 1020/10186 [41:10<6:09:59,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 1021/10186 [41:11<6:09:44,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  10%| | 1021/10186 [41:11<6:09:44,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 1022/10186 [41:12<6:09:29,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  10%| | 1022/10186 [41:12<6:09:30,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 1023/10186 [41:13<6:09:15,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  10%| | 1023/10186 [41:13<6:09:15,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 1024/10186 [41:19<6:09:49,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  10%| | 1024/10186 [41:19<6:09:49,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 1025/10186 [41:21<6:09:34,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  10%| | 1025/10186 [41:21<6:09:34,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 1026/10186 [41:22<6:09:19,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  10%| | 1026/10186 [41:22<6:09:19,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 1027/10186 [41:23<6:09:04,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  10%| | 1027/10186 [41:23<6:09:04,  2.42s/it, v_num=uqm9, train/loss=6."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 1028/10186 [41:29<6:09:38,  2.42s/it, v_num=uqm9, train/loss=6.\r",
+      "Epoch 0:  10%| | 1028/10186 [41:29<6:09:38,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 1029/10186 [41:30<6:09:23,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  10%| | 1029/10186 [41:30<6:09:23,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 1030/10186 [41:31<6:09:08,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  10%| | 1030/10186 [41:31<6:09:08,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 1031/10186 [41:32<6:08:54,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  10%| | 1031/10186 [41:32<6:08:54,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 1032/10186 [41:39<6:09:27,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  10%| | 1032/10186 [41:39<6:09:27,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 1033/10186 [41:40<6:09:12,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  10%| | 1033/10186 [41:40<6:09:12,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 1034/10186 [41:41<6:08:58,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  10%| | 1034/10186 [41:41<6:08:58,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 1035/10186 [41:42<6:08:43,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  10%| | 1035/10186 [41:42<6:08:43,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 1036/10186 [41:48<6:09:17,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  10%| | 1036/10186 [41:48<6:09:17,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 1037/10186 [41:49<6:09:02,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  10%| | 1037/10186 [41:49<6:09:02,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 1038/10186 [41:50<6:08:47,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  10%| | 1038/10186 [41:50<6:08:47,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 1039/10186 [41:51<6:08:33,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  10%| | 1039/10186 [41:51<6:08:33,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 1040/10186 [41:58<6:09:06,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  10%| | 1040/10186 [41:58<6:09:06,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 1041/10186 [41:59<6:08:51,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  10%| | 1041/10186 [41:59<6:08:51,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 1042/10186 [42:00<6:08:37,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  10%| | 1042/10186 [42:00<6:08:37,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 1043/10186 [42:01<6:08:22,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  10%| | 1043/10186 [42:01<6:08:22,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 1044/10186 [42:07<6:08:55,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  10%| | 1044/10186 [42:07<6:08:55,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 1045/10186 [42:08<6:08:41,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  10%| | 1045/10186 [42:08<6:08:41,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 1046/10186 [42:09<6:08:26,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  10%| | 1046/10186 [42:09<6:08:26,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 1047/10186 [42:10<6:08:12,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  10%| | 1047/10186 [42:10<6:08:12,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 1048/10186 [42:17<6:08:45,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  10%| | 1048/10186 [42:17<6:08:45,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 1049/10186 [42:18<6:08:30,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  10%| | 1049/10186 [42:18<6:08:30,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 1050/10186 [42:19<6:08:16,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  10%| | 1050/10186 [42:19<6:08:16,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 1051/10186 [42:20<6:08:01,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  10%| | 1051/10186 [42:20<6:08:01,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 1052/10186 [42:27<6:08:34,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  10%| | 1052/10186 [42:27<6:08:34,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 1053/10186 [42:28<6:08:20,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  10%| | 1053/10186 [42:28<6:08:20,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 1054/10186 [42:29<6:08:05,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  10%| | 1054/10186 [42:29<6:08:05,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 1055/10186 [42:30<6:07:51,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  10%| | 1055/10186 [42:30<6:07:51,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 1056/10186 [42:36<6:08:24,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  10%| | 1056/10186 [42:36<6:08:24,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 1057/10186 [42:37<6:08:09,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  10%| | 1057/10186 [42:37<6:08:09,  2.42s/it, v_num=uqm9, train/loss=6."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 1058/10186 [42:38<6:07:55,  2.42s/it, v_num=uqm9, train/loss=6.\r",
+      "Epoch 0:  10%| | 1058/10186 [42:38<6:07:55,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 1059/10186 [42:39<6:07:41,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  10%| | 1059/10186 [42:39<6:07:41,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 1060/10186 [42:46<6:08:13,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  10%| | 1060/10186 [42:46<6:08:13,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 1061/10186 [42:47<6:07:59,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  10%| | 1061/10186 [42:47<6:07:59,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 1062/10186 [42:48<6:07:45,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  10%| | 1062/10186 [42:48<6:07:45,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 1063/10186 [42:49<6:07:30,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  10%| | 1063/10186 [42:49<6:07:30,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 1064/10186 [42:55<6:08:03,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  10%| | 1064/10186 [42:55<6:08:03,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 1065/10186 [42:56<6:07:48,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  10%| | 1065/10186 [42:56<6:07:48,  2.42s/it, v_num=uqm9, train/loss=6."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 1066/10186 [42:57<6:07:34,  2.42s/it, v_num=uqm9, train/loss=6.\r",
+      "Epoch 0:  10%| | 1066/10186 [42:57<6:07:34,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 1067/10186 [42:58<6:07:20,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  10%| | 1067/10186 [42:58<6:07:20,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 1068/10186 [43:05<6:07:52,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  10%| | 1068/10186 [43:05<6:07:52,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 1069/10186 [43:06<6:07:38,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 1069/10186 [43:06<6:07:38,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1070/10186 [43:07<6:07:24,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1070/10186 [43:07<6:07:24,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1071/10186 [43:08<6:07:10,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1071/10186 [43:08<6:07:10,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1072/10186 [43:14<6:07:41,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1072/10186 [43:14<6:07:41,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1073/10186 [43:15<6:07:27,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1073/10186 [43:15<6:07:27,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1074/10186 [43:17<6:07:13,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1074/10186 [43:17<6:07:13,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1075/10186 [43:18<6:06:59,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1075/10186 [43:18<6:06:59,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1076/10186 [43:24<6:07:31,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1076/10186 [43:24<6:07:31,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1077/10186 [43:25<6:07:17,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1077/10186 [43:25<6:07:17,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1078/10186 [43:26<6:07:03,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1078/10186 [43:26<6:07:03,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1079/10186 [43:27<6:06:49,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1079/10186 [43:27<6:06:49,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1080/10186 [43:34<6:07:20,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1080/10186 [43:34<6:07:20,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1081/10186 [43:35<6:07:06,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1081/10186 [43:35<6:07:06,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1082/10186 [43:36<6:06:52,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1082/10186 [43:36<6:06:52,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1083/10186 [43:37<6:06:38,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1083/10186 [43:37<6:06:38,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1084/10186 [43:43<6:07:10,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1084/10186 [43:43<6:07:10,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1085/10186 [43:44<6:06:56,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1085/10186 [43:44<6:06:56,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1086/10186 [43:45<6:06:42,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1086/10186 [43:45<6:06:42,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1087/10186 [43:46<6:06:28,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1087/10186 [43:46<6:06:28,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1088/10186 [43:53<6:07:00,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1088/10186 [43:53<6:07:00,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1089/10186 [43:54<6:06:46,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1089/10186 [43:54<6:06:46,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1090/10186 [43:55<6:06:32,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1090/10186 [43:55<6:06:32,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1091/10186 [43:56<6:06:18,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1091/10186 [43:56<6:06:18,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1092/10186 [44:02<6:06:49,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1092/10186 [44:02<6:06:49,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1093/10186 [44:03<6:06:35,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1093/10186 [44:03<6:06:35,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1094/10186 [44:04<6:06:21,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1094/10186 [44:04<6:06:21,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1095/10186 [44:05<6:06:07,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1095/10186 [44:05<6:06:07,  2.42s/it, v_num=uqm9, train/loss=6."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1096/10186 [44:12<6:06:38,  2.42s/it, v_num=uqm9, train/loss=6.\r",
+      "Epoch 0:  11%| | 1096/10186 [44:12<6:06:38,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1097/10186 [44:13<6:06:25,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1097/10186 [44:13<6:06:25,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1098/10186 [44:14<6:06:11,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1098/10186 [44:14<6:06:11,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1099/10186 [44:15<6:05:57,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1099/10186 [44:15<6:05:57,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1100/10186 [44:22<6:06:28,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1100/10186 [44:22<6:06:28,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1101/10186 [44:23<6:06:14,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1101/10186 [44:23<6:06:14,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1102/10186 [44:24<6:06:00,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1102/10186 [44:24<6:06:00,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1103/10186 [44:25<6:05:47,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1103/10186 [44:25<6:05:47,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1104/10186 [44:31<6:06:17,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1104/10186 [44:31<6:06:17,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1105/10186 [44:32<6:06:04,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1105/10186 [44:32<6:06:04,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1106/10186 [44:33<6:05:50,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1106/10186 [44:33<6:05:50,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1107/10186 [44:34<6:05:36,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1107/10186 [44:34<6:05:36,  2.42s/it, v_num=uqm9, train/loss=6."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1108/10186 [44:41<6:06:07,  2.42s/it, v_num=uqm9, train/loss=6.\r",
+      "Epoch 0:  11%| | 1108/10186 [44:41<6:06:07,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1109/10186 [44:42<6:05:53,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1109/10186 [44:42<6:05:53,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1110/10186 [44:43<6:05:40,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1110/10186 [44:43<6:05:40,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1111/10186 [44:44<6:05:26,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1111/10186 [44:44<6:05:26,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1112/10186 [44:50<6:05:57,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  11%| | 1112/10186 [44:50<6:05:57,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1113/10186 [44:51<6:05:43,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1113/10186 [44:51<6:05:43,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1114/10186 [44:52<6:05:29,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1114/10186 [44:52<6:05:29,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1115/10186 [44:53<6:05:16,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1115/10186 [44:53<6:05:16,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1116/10186 [45:00<6:05:46,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1116/10186 [45:00<6:05:46,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1117/10186 [45:01<6:05:32,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1117/10186 [45:01<6:05:32,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1118/10186 [45:02<6:05:19,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1118/10186 [45:02<6:05:19,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1119/10186 [45:03<6:05:05,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1119/10186 [45:03<6:05:05,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1120/10186 [45:09<6:05:36,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1120/10186 [45:09<6:05:36,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1121/10186 [45:10<6:05:22,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1121/10186 [45:10<6:05:22,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1122/10186 [45:12<6:05:08,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1122/10186 [45:12<6:05:08,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1123/10186 [45:13<6:04:55,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1123/10186 [45:13<6:04:55,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1124/10186 [45:19<6:05:25,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1124/10186 [45:19<6:05:25,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1125/10186 [45:20<6:05:12,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1125/10186 [45:20<6:05:12,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1126/10186 [45:21<6:04:58,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1126/10186 [45:21<6:04:58,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1127/10186 [45:22<6:04:45,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1127/10186 [45:22<6:04:45,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1128/10186 [45:29<6:05:15,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  11%| | 1128/10186 [45:29<6:05:15,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1129/10186 [45:30<6:05:01,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1129/10186 [45:30<6:05:01,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1130/10186 [45:31<6:04:48,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1130/10186 [45:31<6:04:48,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1131/10186 [45:32<6:04:34,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1131/10186 [45:32<6:04:34,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1132/10186 [45:38<6:05:04,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1132/10186 [45:38<6:05:04,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1133/10186 [45:39<6:04:51,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1133/10186 [45:39<6:04:51,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1134/10186 [45:40<6:04:37,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1134/10186 [45:40<6:04:37,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1135/10186 [45:41<6:04:24,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1135/10186 [45:41<6:04:24,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1136/10186 [45:48<6:04:54,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1136/10186 [45:48<6:04:54,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1137/10186 [45:49<6:04:40,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1137/10186 [45:49<6:04:40,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1138/10186 [45:50<6:04:27,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1138/10186 [45:50<6:04:27,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1139/10186 [45:51<6:04:14,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1139/10186 [45:51<6:04:14,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1140/10186 [45:57<6:04:43,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1140/10186 [45:57<6:04:43,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1141/10186 [45:58<6:04:30,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1141/10186 [45:58<6:04:30,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1142/10186 [45:59<6:04:17,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1142/10186 [45:59<6:04:17,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1143/10186 [46:00<6:04:04,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1143/10186 [46:01<6:04:04,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1144/10186 [46:07<6:04:33,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1144/10186 [46:07<6:04:33,  2.42s/it, v_num=uqm9, train/loss=6."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1145/10186 [46:08<6:04:20,  2.42s/it, v_num=uqm9, train/loss=6.\r",
+      "Epoch 0:  11%| | 1145/10186 [46:08<6:04:20,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1146/10186 [46:09<6:04:06,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1146/10186 [46:09<6:04:06,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1147/10186 [46:10<6:03:53,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1147/10186 [46:10<6:03:53,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1148/10186 [46:17<6:04:23,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1148/10186 [46:17<6:04:23,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1149/10186 [46:18<6:04:09,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1149/10186 [46:18<6:04:09,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1150/10186 [46:19<6:03:56,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1150/10186 [46:19<6:03:56,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1151/10186 [46:20<6:03:43,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1151/10186 [46:20<6:03:43,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1152/10186 [46:26<6:04:12,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1152/10186 [46:26<6:04:12,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1153/10186 [46:27<6:03:59,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1153/10186 [46:27<6:03:59,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1154/10186 [46:28<6:03:46,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1154/10186 [46:28<6:03:46,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1155/10186 [46:29<6:03:33,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1155/10186 [46:29<6:03:33,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1156/10186 [46:36<6:04:02,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1156/10186 [46:36<6:04:02,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1157/10186 [46:37<6:03:49,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1157/10186 [46:37<6:03:49,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1158/10186 [46:38<6:03:35,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1158/10186 [46:38<6:03:35,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1159/10186 [46:39<6:03:22,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1159/10186 [46:39<6:03:22,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1160/10186 [46:45<6:03:51,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1160/10186 [46:45<6:03:51,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1161/10186 [46:46<6:03:38,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  11%| | 1161/10186 [46:46<6:03:38,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1162/10186 [46:47<6:03:25,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1162/10186 [46:47<6:03:25,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1163/10186 [46:48<6:03:12,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1163/10186 [46:48<6:03:12,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1164/10186 [46:55<6:03:41,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1164/10186 [46:55<6:03:41,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1165/10186 [46:56<6:03:28,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1165/10186 [46:56<6:03:28,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1166/10186 [46:57<6:03:15,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1166/10186 [46:57<6:03:15,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1167/10186 [46:58<6:03:02,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1167/10186 [46:58<6:03:02,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1168/10186 [47:04<6:03:31,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1168/10186 [47:04<6:03:31,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1169/10186 [47:05<6:03:17,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1169/10186 [47:05<6:03:17,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1170/10186 [47:07<6:03:04,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1170/10186 [47:07<6:03:04,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 1171/10186 [47:08<6:02:51,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  11%| | 1171/10186 [47:08<6:02:51,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1172/10186 [47:14<6:03:20,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1172/10186 [47:14<6:03:20,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1173/10186 [47:15<6:03:07,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1173/10186 [47:15<6:03:07,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1174/10186 [47:16<6:02:54,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1174/10186 [47:16<6:02:54,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1175/10186 [47:17<6:02:41,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1175/10186 [47:17<6:02:41,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1176/10186 [47:24<6:03:10,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1176/10186 [47:24<6:03:10,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1177/10186 [47:25<6:02:57,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1177/10186 [47:25<6:02:57,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1178/10186 [47:26<6:02:44,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1178/10186 [47:26<6:02:44,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1179/10186 [47:27<6:02:31,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1179/10186 [47:27<6:02:31,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1180/10186 [47:33<6:02:59,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1180/10186 [47:33<6:02:59,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1181/10186 [47:34<6:02:46,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1181/10186 [47:34<6:02:46,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1182/10186 [47:35<6:02:33,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1182/10186 [47:35<6:02:33,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1183/10186 [47:36<6:02:21,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1183/10186 [47:36<6:02:21,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1184/10186 [47:43<6:02:49,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1184/10186 [47:43<6:02:49,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1185/10186 [47:44<6:02:36,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1185/10186 [47:44<6:02:36,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1186/10186 [47:45<6:02:23,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1186/10186 [47:45<6:02:23,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1187/10186 [47:46<6:02:10,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1187/10186 [47:46<6:02:11,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1188/10186 [47:52<6:02:39,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1188/10186 [47:52<6:02:39,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1189/10186 [47:53<6:02:26,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1189/10186 [47:53<6:02:26,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1190/10186 [47:54<6:02:13,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1190/10186 [47:54<6:02:13,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1191/10186 [47:55<6:02:00,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1191/10186 [47:55<6:02:00,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1192/10186 [48:02<6:02:28,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1192/10186 [48:02<6:02:28,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1193/10186 [48:03<6:02:15,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1193/10186 [48:03<6:02:15,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1194/10186 [48:04<6:02:03,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1194/10186 [48:04<6:02:03,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1195/10186 [48:05<6:01:50,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1195/10186 [48:05<6:01:50,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1196/10186 [48:12<6:02:18,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1196/10186 [48:12<6:02:18,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1197/10186 [48:13<6:02:05,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1197/10186 [48:13<6:02:05,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1198/10186 [48:14<6:01:53,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  12%| | 1198/10186 [48:14<6:01:53,  2.42s/it, v_num=uqm9, train/loss=6."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1199/10186 [48:15<6:01:40,  2.41s/it, v_num=uqm9, train/loss=6.\r",
+      "Epoch 0:  12%| | 1199/10186 [48:15<6:01:40,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1200/10186 [48:21<6:02:08,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1200/10186 [48:21<6:02:08,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1201/10186 [48:22<6:01:55,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1201/10186 [48:22<6:01:55,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1202/10186 [48:23<6:01:42,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1202/10186 [48:23<6:01:42,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1203/10186 [48:24<6:01:30,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1203/10186 [48:24<6:01:30,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1204/10186 [48:31<6:01:58,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1204/10186 [48:31<6:01:58,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1205/10186 [48:32<6:01:45,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1205/10186 [48:32<6:01:45,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1206/10186 [48:33<6:01:32,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1206/10186 [48:33<6:01:32,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1207/10186 [48:34<6:01:20,  2.41s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  12%| | 1207/10186 [48:34<6:01:20,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1208/10186 [48:40<6:01:47,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1208/10186 [48:40<6:01:47,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1209/10186 [48:41<6:01:35,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1209/10186 [48:41<6:01:35,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1210/10186 [48:42<6:01:22,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1210/10186 [48:42<6:01:22,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1211/10186 [48:43<6:01:09,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1211/10186 [48:43<6:01:09,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1212/10186 [48:50<6:01:37,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1212/10186 [48:50<6:01:37,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1213/10186 [48:51<6:01:24,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1213/10186 [48:51<6:01:24,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1214/10186 [48:52<6:01:12,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1214/10186 [48:52<6:01:12,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1215/10186 [48:53<6:00:59,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1215/10186 [48:53<6:00:59,  2.41s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1216/10186 [48:59<6:01:27,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  12%| | 1216/10186 [48:59<6:01:27,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1217/10186 [49:01<6:01:14,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1217/10186 [49:01<6:01:14,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1218/10186 [49:02<6:01:02,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1218/10186 [49:02<6:01:02,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1219/10186 [49:03<6:00:49,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1219/10186 [49:03<6:00:49,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1220/10186 [49:09<6:01:16,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1220/10186 [49:09<6:01:16,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1221/10186 [49:10<6:01:04,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1221/10186 [49:10<6:01:04,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1222/10186 [49:11<6:00:51,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1222/10186 [49:11<6:00:51,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1223/10186 [49:12<6:00:39,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1223/10186 [49:12<6:00:39,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1224/10186 [49:19<6:01:06,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1224/10186 [49:19<6:01:06,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1225/10186 [49:20<6:00:53,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1225/10186 [49:20<6:00:53,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1226/10186 [49:21<6:00:41,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1226/10186 [49:21<6:00:41,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1227/10186 [49:22<6:00:29,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1227/10186 [49:22<6:00:29,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1228/10186 [49:28<6:00:56,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1228/10186 [49:28<6:00:56,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1229/10186 [49:29<6:00:43,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1229/10186 [49:29<6:00:43,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1230/10186 [49:30<6:00:31,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1230/10186 [49:30<6:00:31,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1231/10186 [49:31<6:00:18,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1231/10186 [49:31<6:00:18,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1232/10186 [49:38<6:00:45,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1232/10186 [49:38<6:00:45,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1233/10186 [49:39<6:00:33,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1233/10186 [49:39<6:00:33,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1234/10186 [49:40<6:00:21,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1234/10186 [49:40<6:00:21,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1235/10186 [49:41<6:00:08,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1235/10186 [49:41<6:00:08,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1236/10186 [49:47<6:00:35,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1236/10186 [49:47<6:00:35,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1237/10186 [49:48<6:00:23,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1237/10186 [49:48<6:00:23,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1238/10186 [49:49<6:00:10,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1238/10186 [49:49<6:00:10,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1239/10186 [49:51<5:59:58,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1239/10186 [49:51<5:59:58,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1240/10186 [49:57<6:00:25,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1240/10186 [49:57<6:00:25,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1241/10186 [49:58<6:00:13,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1241/10186 [49:58<6:00:13,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1242/10186 [49:59<6:00:00,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1242/10186 [49:59<6:00:00,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1243/10186 [50:00<5:59:48,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1243/10186 [50:00<5:59:48,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1244/10186 [50:07<6:00:15,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1244/10186 [50:07<6:00:15,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1245/10186 [50:08<6:00:02,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1245/10186 [50:08<6:00:02,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1246/10186 [50:09<5:59:50,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1246/10186 [50:09<5:59:50,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1247/10186 [50:10<5:59:38,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1247/10186 [50:10<5:59:38,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1248/10186 [50:16<6:00:04,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1248/10186 [50:16<6:00:04,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1249/10186 [50:17<5:59:52,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1249/10186 [50:17<5:59:52,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1250/10186 [50:18<5:59:40,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1250/10186 [50:18<5:59:40,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1251/10186 [50:19<5:59:28,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1251/10186 [50:19<5:59:28,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1252/10186 [50:26<5:59:54,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1252/10186 [50:26<5:59:54,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1253/10186 [50:27<5:59:42,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  12%| | 1253/10186 [50:27<5:59:42,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1254/10186 [50:28<5:59:30,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1254/10186 [50:28<5:59:30,  2.41s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1255/10186 [50:29<5:59:17,  2.41s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  12%| | 1255/10186 [50:29<5:59:17,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1256/10186 [50:35<5:59:44,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1256/10186 [50:35<5:59:44,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1257/10186 [50:36<5:59:32,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1257/10186 [50:36<5:59:32,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1258/10186 [50:37<5:59:19,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1258/10186 [50:37<5:59:19,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1259/10186 [50:38<5:59:07,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1259/10186 [50:38<5:59:07,  2.41s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1260/10186 [50:45<5:59:34,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  12%| | 1260/10186 [50:45<5:59:34,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1261/10186 [50:46<5:59:21,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1261/10186 [50:46<5:59:21,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1262/10186 [50:47<5:59:09,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1262/10186 [50:47<5:59:09,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1263/10186 [50:48<5:58:57,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1263/10186 [50:48<5:58:57,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1264/10186 [50:54<5:59:23,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1264/10186 [50:54<5:59:23,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1265/10186 [50:56<5:59:11,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1265/10186 [50:56<5:59:11,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1266/10186 [50:57<5:58:59,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1266/10186 [50:57<5:58:59,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1267/10186 [50:58<5:58:47,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1267/10186 [50:58<5:58:47,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1268/10186 [51:04<5:59:13,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1268/10186 [51:04<5:59:13,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1269/10186 [51:05<5:59:01,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1269/10186 [51:05<5:59:01,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1270/10186 [51:06<5:58:49,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1270/10186 [51:06<5:58:49,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1271/10186 [51:07<5:58:37,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1271/10186 [51:07<5:58:37,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1272/10186 [51:14<5:59:03,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1272/10186 [51:14<5:59:03,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 1273/10186 [51:15<5:58:51,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  12%| | 1273/10186 [51:15<5:58:51,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1274/10186 [51:16<5:58:39,  2.41s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  13%|▏| 1274/10186 [51:16<5:58:39,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1275/10186 [51:17<5:58:27,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1275/10186 [51:17<5:58:27,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1276/10186 [51:23<5:58:52,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1276/10186 [51:23<5:58:52,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1277/10186 [51:24<5:58:40,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1277/10186 [51:24<5:58:40,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1278/10186 [51:25<5:58:28,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1278/10186 [51:25<5:58:28,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1279/10186 [51:26<5:58:17,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1279/10186 [51:26<5:58:17,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1280/10186 [51:33<5:58:42,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1280/10186 [51:33<5:58:42,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1281/10186 [51:34<5:58:30,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1281/10186 [51:34<5:58:30,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1282/10186 [51:35<5:58:18,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1282/10186 [51:35<5:58:18,  2.41s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1283/10186 [51:36<5:58:06,  2.41s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  13%|▏| 1283/10186 [51:36<5:58:06,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1284/10186 [51:42<5:58:32,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1284/10186 [51:42<5:58:32,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1285/10186 [51:43<5:58:20,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1285/10186 [51:43<5:58:20,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1286/10186 [51:44<5:58:08,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1286/10186 [51:44<5:58:08,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1287/10186 [51:46<5:57:56,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1287/10186 [51:46<5:57:56,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1288/10186 [51:52<5:58:22,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1288/10186 [51:52<5:58:22,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1289/10186 [51:53<5:58:10,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1289/10186 [51:53<5:58:10,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1290/10186 [51:54<5:57:58,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1290/10186 [51:54<5:57:58,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1291/10186 [51:55<5:57:46,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1291/10186 [51:55<5:57:46,  2.41s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1292/10186 [52:02<5:58:11,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  13%|▏| 1292/10186 [52:02<5:58:11,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1293/10186 [52:03<5:58:00,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1293/10186 [52:03<5:58:00,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1294/10186 [52:04<5:57:48,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1294/10186 [52:04<5:57:48,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1295/10186 [52:05<5:57:36,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1295/10186 [52:05<5:57:36,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1296/10186 [52:11<5:58:01,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1296/10186 [52:11<5:58:01,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1297/10186 [52:12<5:57:49,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1297/10186 [52:12<5:57:49,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1298/10186 [52:13<5:57:38,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1298/10186 [52:13<5:57:38,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1299/10186 [52:14<5:57:26,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1299/10186 [52:14<5:57:26,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1300/10186 [52:21<5:57:51,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1300/10186 [52:21<5:57:51,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1301/10186 [52:22<5:57:39,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1301/10186 [52:22<5:57:39,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1302/10186 [52:23<5:57:27,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1302/10186 [52:23<5:57:27,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1303/10186 [52:24<5:57:16,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1303/10186 [52:24<5:57:16,  2.41s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1304/10186 [52:30<5:57:41,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  13%|▏| 1304/10186 [52:30<5:57:41,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1305/10186 [52:31<5:57:29,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1305/10186 [52:31<5:57:29,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1306/10186 [52:32<5:57:17,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1306/10186 [52:32<5:57:17,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1307/10186 [52:33<5:57:06,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1307/10186 [52:33<5:57:06,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1308/10186 [52:40<5:57:30,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1308/10186 [52:40<5:57:30,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1309/10186 [52:41<5:57:19,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1309/10186 [52:41<5:57:19,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1310/10186 [52:42<5:57:07,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1310/10186 [52:42<5:57:07,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1311/10186 [52:43<5:56:55,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1311/10186 [52:43<5:56:55,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1312/10186 [52:49<5:57:20,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1312/10186 [52:49<5:57:20,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1313/10186 [52:50<5:57:08,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  13%|▏| 1313/10186 [52:50<5:57:08,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1314/10186 [52:52<5:56:57,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1314/10186 [52:52<5:56:57,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1315/10186 [52:53<5:56:45,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1315/10186 [52:53<5:56:45,  2.41s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1316/10186 [52:59<5:57:10,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  13%|▏| 1316/10186 [52:59<5:57:10,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1317/10186 [53:00<5:56:58,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1317/10186 [53:00<5:56:58,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1318/10186 [53:01<5:56:47,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1318/10186 [53:01<5:56:47,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1319/10186 [53:02<5:56:35,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1319/10186 [53:02<5:56:35,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1320/10186 [53:09<5:57:00,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1320/10186 [53:09<5:57:00,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1321/10186 [53:10<5:56:48,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1321/10186 [53:10<5:56:48,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1322/10186 [53:11<5:56:37,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1322/10186 [53:11<5:56:37,  2.41s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1323/10186 [53:12<5:56:25,  2.41s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  13%|▏| 1323/10186 [53:12<5:56:25,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1324/10186 [53:18<5:56:50,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1324/10186 [53:18<5:56:50,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1325/10186 [53:19<5:56:38,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1325/10186 [53:19<5:56:38,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1326/10186 [53:20<5:56:26,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1326/10186 [53:20<5:56:26,  2.41s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1327/10186 [53:21<5:56:15,  2.41s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  13%|▏| 1327/10186 [53:21<5:56:15,  2.41s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1328/10186 [53:28<5:56:39,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  13%|▏| 1328/10186 [53:28<5:56:39,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1329/10186 [53:29<5:56:28,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1329/10186 [53:29<5:56:28,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1330/10186 [53:30<5:56:16,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1330/10186 [53:30<5:56:16,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1331/10186 [53:31<5:56:05,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1331/10186 [53:31<5:56:05,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1332/10186 [53:37<5:56:29,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1332/10186 [53:37<5:56:29,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1333/10186 [53:38<5:56:18,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1333/10186 [53:38<5:56:18,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1334/10186 [53:39<5:56:06,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1334/10186 [53:39<5:56:06,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1335/10186 [53:40<5:55:55,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1335/10186 [53:40<5:55:55,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1336/10186 [53:47<5:56:19,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1336/10186 [53:47<5:56:19,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1337/10186 [53:48<5:56:07,  2.41s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  13%|▏| 1337/10186 [53:48<5:56:07,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1338/10186 [53:49<5:55:56,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1338/10186 [53:49<5:55:56,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1339/10186 [53:50<5:55:45,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1339/10186 [53:50<5:55:45,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1340/10186 [53:57<5:56:09,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1340/10186 [53:57<5:56:09,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1341/10186 [53:58<5:55:57,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1341/10186 [53:58<5:55:57,  2.41s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1342/10186 [53:59<5:55:46,  2.41s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  13%|▏| 1342/10186 [53:59<5:55:46,  2.41s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1343/10186 [54:00<5:55:34,  2.41s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  13%|▏| 1343/10186 [54:00<5:55:34,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1344/10186 [54:06<5:55:59,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1344/10186 [54:06<5:55:59,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1345/10186 [54:07<5:55:47,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1345/10186 [54:07<5:55:47,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1346/10186 [54:08<5:55:36,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1346/10186 [54:08<5:55:36,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1347/10186 [54:09<5:55:24,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1347/10186 [54:09<5:55:24,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1348/10186 [54:16<5:55:48,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1348/10186 [54:16<5:55:48,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1349/10186 [54:17<5:55:37,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1349/10186 [54:17<5:55:37,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1350/10186 [54:18<5:55:26,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1350/10186 [54:18<5:55:26,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1351/10186 [54:19<5:55:14,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1351/10186 [54:19<5:55:14,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1352/10186 [54:25<5:55:38,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1352/10186 [54:25<5:55:38,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1353/10186 [54:26<5:55:27,  2.41s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  13%|▏| 1353/10186 [54:26<5:55:27,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1354/10186 [54:27<5:55:16,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1354/10186 [54:27<5:55:16,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1355/10186 [54:28<5:55:04,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1355/10186 [54:28<5:55:04,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1356/10186 [54:35<5:55:28,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1356/10186 [54:35<5:55:28,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1357/10186 [54:36<5:55:17,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1357/10186 [54:36<5:55:17,  2.41s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1358/10186 [54:37<5:55:05,  2.41s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  13%|▏| 1358/10186 [54:37<5:55:05,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1359/10186 [54:38<5:54:54,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1359/10186 [54:38<5:54:54,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1360/10186 [54:44<5:55:18,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1360/10186 [54:44<5:55:18,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1361/10186 [54:46<5:55:07,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1361/10186 [54:46<5:55:07,  2.41s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1362/10186 [54:47<5:54:55,  2.41s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  13%|▏| 1362/10186 [54:47<5:54:55,  2.41s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1363/10186 [54:48<5:54:44,  2.41s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  13%|▏| 1363/10186 [54:48<5:54:44,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1364/10186 [54:54<5:55:08,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1364/10186 [54:54<5:55:08,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1365/10186 [54:55<5:54:57,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1365/10186 [54:55<5:54:57,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1366/10186 [54:56<5:54:45,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1366/10186 [54:56<5:54:45,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1367/10186 [54:57<5:54:34,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1367/10186 [54:57<5:54:34,  2.41s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1368/10186 [55:04<5:54:58,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  13%|▏| 1368/10186 [55:04<5:54:58,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1369/10186 [55:05<5:54:46,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1369/10186 [55:05<5:54:46,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1370/10186 [55:06<5:54:35,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1370/10186 [55:06<5:54:35,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1371/10186 [55:07<5:54:24,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1371/10186 [55:07<5:54:24,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1372/10186 [55:13<5:54:48,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1372/10186 [55:13<5:54:48,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1373/10186 [55:14<5:54:36,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  13%|▏| 1373/10186 [55:14<5:54:36,  2.41s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1374/10186 [55:15<5:54:25,  2.41s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  13%|▏| 1374/10186 [55:15<5:54:25,  2.41s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 1375/10186 [55:16<5:54:14,  2.41s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  13%|▏| 1375/10186 [55:16<5:54:14,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1376/10186 [55:23<5:54:37,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  14%|▏| 1376/10186 [55:23<5:54:37,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1377/10186 [55:24<5:54:26,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  14%|▏| 1377/10186 [55:24<5:54:26,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1378/10186 [55:25<5:54:15,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  14%|▏| 1378/10186 [55:25<5:54:15,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1379/10186 [55:26<5:54:04,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  14%|▏| 1379/10186 [55:26<5:54:04,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1380/10186 [55:32<5:54:27,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  14%|▏| 1380/10186 [55:32<5:54:27,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1381/10186 [55:33<5:54:16,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  14%|▏| 1381/10186 [55:33<5:54:16,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1382/10186 [55:34<5:54:05,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  14%|▏| 1382/10186 [55:34<5:54:05,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1383/10186 [55:36<5:53:54,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  14%|▏| 1383/10186 [55:36<5:53:54,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1384/10186 [55:42<5:54:17,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  14%|▏| 1384/10186 [55:42<5:54:17,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1385/10186 [55:43<5:54:06,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  14%|▏| 1385/10186 [55:43<5:54:06,  2.41s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1386/10186 [55:44<5:53:55,  2.41s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  14%|▏| 1386/10186 [55:44<5:53:55,  2.41s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1387/10186 [55:45<5:53:44,  2.41s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  14%|▏| 1387/10186 [55:45<5:53:44,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1388/10186 [55:52<5:54:07,  2.42s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  14%|▏| 1388/10186 [55:52<5:54:07,  2.42s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1389/10186 [55:53<5:53:56,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  14%|▏| 1389/10186 [55:53<5:53:56,  2.41s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1390/10186 [55:54<5:53:45,  2.41s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  14%|▏| 1390/10186 [55:54<5:53:45,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1391/10186 [55:55<5:53:34,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  14%|▏| 1391/10186 [55:55<5:53:34,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1392/10186 [56:01<5:53:57,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  14%|▏| 1392/10186 [56:01<5:53:57,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1393/10186 [56:02<5:53:46,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  14%|▏| 1393/10186 [56:02<5:53:46,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1394/10186 [56:03<5:53:35,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  14%|▏| 1394/10186 [56:03<5:53:35,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1395/10186 [56:04<5:53:24,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  14%|▏| 1395/10186 [56:04<5:53:24,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1396/10186 [56:11<5:53:47,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  14%|▏| 1396/10186 [56:11<5:53:47,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1397/10186 [56:12<5:53:35,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  14%|▏| 1397/10186 [56:12<5:53:35,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1398/10186 [56:13<5:53:24,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  14%|▏| 1398/10186 [56:13<5:53:24,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1399/10186 [56:14<5:53:13,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  14%|▏| 1399/10186 [56:14<5:53:13,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1400/10186 [56:20<5:53:36,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  14%|▏| 1400/10186 [56:20<5:53:36,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1401/10186 [56:21<5:53:25,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  14%|▏| 1401/10186 [56:21<5:53:25,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1402/10186 [56:22<5:53:14,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  14%|▏| 1402/10186 [56:22<5:53:14,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1403/10186 [56:23<5:53:03,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  14%|▏| 1403/10186 [56:23<5:53:03,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1404/10186 [56:30<5:53:26,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  14%|▏| 1404/10186 [56:30<5:53:26,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1405/10186 [56:31<5:53:15,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  14%|▏| 1405/10186 [56:31<5:53:15,  2.41s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1406/10186 [56:32<5:53:04,  2.41s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  14%|▏| 1406/10186 [56:32<5:53:04,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1407/10186 [56:33<5:52:53,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  14%|▏| 1407/10186 [56:33<5:52:53,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1408/10186 [56:39<5:53:16,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  14%|▏| 1408/10186 [56:39<5:53:16,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1409/10186 [56:40<5:53:05,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  14%|▏| 1409/10186 [56:40<5:53:05,  2.41s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1410/10186 [56:42<5:52:54,  2.41s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  14%|▏| 1410/10186 [56:42<5:52:54,  2.41s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1411/10186 [56:43<5:52:43,  2.41s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  14%|▏| 1411/10186 [56:43<5:52:43,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1412/10186 [56:49<5:53:06,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  14%|▏| 1412/10186 [56:49<5:53:06,  2.41s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1413/10186 [56:50<5:52:55,  2.41s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  14%|▏| 1413/10186 [56:50<5:52:55,  2.41s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1414/10186 [56:51<5:52:44,  2.41s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  14%|▏| 1414/10186 [56:51<5:52:44,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1415/10186 [56:52<5:52:33,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  14%|▏| 1415/10186 [56:52<5:52:33,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1416/10186 [56:59<5:52:56,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  14%|▏| 1416/10186 [56:59<5:52:56,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1417/10186 [57:00<5:52:45,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  14%|▏| 1417/10186 [57:00<5:52:45,  2.41s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1418/10186 [57:01<5:52:34,  2.41s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  14%|▏| 1418/10186 [57:01<5:52:34,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1419/10186 [57:02<5:52:23,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  14%|▏| 1419/10186 [57:02<5:52:23,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1420/10186 [57:08<5:52:46,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  14%|▏| 1420/10186 [57:08<5:52:46,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1421/10186 [57:09<5:52:35,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  14%|▏| 1421/10186 [57:09<5:52:35,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1422/10186 [57:10<5:52:24,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  14%|▏| 1422/10186 [57:10<5:52:24,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1423/10186 [57:11<5:52:13,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  14%|▏| 1423/10186 [57:11<5:52:13,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1424/10186 [57:18<5:52:36,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  14%|▏| 1424/10186 [57:18<5:52:36,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1425/10186 [57:19<5:52:25,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  14%|▏| 1425/10186 [57:19<5:52:25,  2.41s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1426/10186 [57:20<5:52:14,  2.41s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  14%|▏| 1426/10186 [57:20<5:52:14,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1427/10186 [57:21<5:52:03,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  14%|▏| 1427/10186 [57:21<5:52:03,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1428/10186 [57:27<5:52:26,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  14%|▏| 1428/10186 [57:27<5:52:26,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1429/10186 [57:28<5:52:15,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  14%|▏| 1429/10186 [57:28<5:52:15,  2.41s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1430/10186 [57:29<5:52:04,  2.41s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  14%|▏| 1430/10186 [57:29<5:52:04,  2.41s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1431/10186 [57:31<5:51:53,  2.41s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  14%|▏| 1431/10186 [57:31<5:51:53,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1432/10186 [57:37<5:52:16,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  14%|▏| 1432/10186 [57:37<5:52:16,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1433/10186 [57:38<5:52:05,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  14%|▏| 1433/10186 [57:38<5:52:05,  2.41s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1434/10186 [57:39<5:51:54,  2.41s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  14%|▏| 1434/10186 [57:39<5:51:54,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1435/10186 [57:40<5:51:43,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  14%|▏| 1435/10186 [57:40<5:51:43,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1436/10186 [57:47<5:52:05,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  14%|▏| 1436/10186 [57:47<5:52:05,  2.41s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1437/10186 [57:48<5:51:55,  2.41s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  14%|▏| 1437/10186 [57:48<5:51:55,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1438/10186 [57:49<5:51:44,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  14%|▏| 1438/10186 [57:49<5:51:44,  2.41s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1439/10186 [57:50<5:51:33,  2.41s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  14%|▏| 1439/10186 [57:50<5:51:33,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1440/10186 [57:56<5:51:55,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  14%|▏| 1440/10186 [57:56<5:51:55,  2.41s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1441/10186 [57:57<5:51:44,  2.41s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  14%|▏| 1441/10186 [57:57<5:51:44,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1442/10186 [57:58<5:51:34,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  14%|▏| 1442/10186 [57:58<5:51:34,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1443/10186 [57:59<5:51:23,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  14%|▏| 1443/10186 [57:59<5:51:23,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1444/10186 [58:06<5:51:45,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  14%|▏| 1444/10186 [58:06<5:51:45,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1445/10186 [58:07<5:51:34,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  14%|▏| 1445/10186 [58:07<5:51:34,  2.41s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1446/10186 [58:08<5:51:24,  2.41s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  14%|▏| 1446/10186 [58:08<5:51:24,  2.41s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1447/10186 [58:09<5:51:13,  2.41s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  14%|▏| 1447/10186 [58:09<5:51:13,  2.41s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1448/10186 [58:15<5:51:35,  2.41s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  14%|▏| 1448/10186 [58:15<5:51:35,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1449/10186 [58:16<5:51:24,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  14%|▏| 1449/10186 [58:16<5:51:24,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1450/10186 [58:17<5:51:14,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  14%|▏| 1450/10186 [58:17<5:51:14,  2.41s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1451/10186 [58:18<5:51:03,  2.41s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  14%|▏| 1451/10186 [58:18<5:51:03,  2.41s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1452/10186 [58:25<5:51:25,  2.41s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  14%|▏| 1452/10186 [58:25<5:51:25,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1453/10186 [58:26<5:51:14,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  14%|▏| 1453/10186 [58:26<5:51:14,  2.41s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1454/10186 [58:27<5:51:04,  2.41s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  14%|▏| 1454/10186 [58:27<5:51:04,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1455/10186 [58:28<5:50:53,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  14%|▏| 1455/10186 [58:28<5:50:53,  2.41s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1456/10186 [58:34<5:51:15,  2.41s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  14%|▏| 1456/10186 [58:34<5:51:15,  2.41s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1457/10186 [58:36<5:51:04,  2.41s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  14%|▏| 1457/10186 [58:36<5:51:04,  2.41s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1458/10186 [58:37<5:50:54,  2.41s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  14%|▏| 1458/10186 [58:37<5:50:54,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1459/10186 [58:38<5:50:43,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  14%|▏| 1459/10186 [58:38<5:50:43,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1460/10186 [58:44<5:51:05,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  14%|▏| 1460/10186 [58:44<5:51:05,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1461/10186 [58:45<5:50:54,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  14%|▏| 1461/10186 [58:45<5:50:54,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1462/10186 [58:46<5:50:43,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  14%|▏| 1462/10186 [58:46<5:50:43,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1463/10186 [58:47<5:50:33,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  14%|▏| 1463/10186 [58:47<5:50:33,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1464/10186 [58:54<5:50:55,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  14%|▏| 1464/10186 [58:54<5:50:55,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1465/10186 [58:55<5:50:44,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  14%|▏| 1465/10186 [58:55<5:50:44,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1466/10186 [58:56<5:50:34,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  14%|▏| 1466/10186 [58:56<5:50:34,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1467/10186 [58:57<5:50:23,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  14%|▏| 1467/10186 [58:57<5:50:23,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1468/10186 [59:03<5:50:45,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  14%|▏| 1468/10186 [59:03<5:50:45,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1469/10186 [59:04<5:50:34,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  14%|▏| 1469/10186 [59:04<5:50:34,  2.41s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1470/10186 [59:05<5:50:23,  2.41s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  14%|▏| 1470/10186 [59:05<5:50:23,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1471/10186 [59:06<5:50:13,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  14%|▏| 1471/10186 [59:06<5:50:13,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1472/10186 [59:13<5:50:34,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  14%|▏| 1472/10186 [59:13<5:50:34,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1473/10186 [59:14<5:50:24,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  14%|▏| 1473/10186 [59:14<5:50:24,  2.41s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1474/10186 [59:15<5:50:13,  2.41s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  14%|▏| 1474/10186 [59:15<5:50:13,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1475/10186 [59:16<5:50:03,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  14%|▏| 1475/10186 [59:16<5:50:03,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 1476/10186 [59:22<5:50:24,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  14%|▏| 1476/10186 [59:22<5:50:24,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1477/10186 [59:23<5:50:14,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  15%|▏| 1477/10186 [59:23<5:50:14,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1478/10186 [59:24<5:50:03,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  15%|▏| 1478/10186 [59:24<5:50:03,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1479/10186 [59:25<5:49:53,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  15%|▏| 1479/10186 [59:25<5:49:53,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1480/10186 [59:32<5:50:14,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  15%|▏| 1480/10186 [59:32<5:50:14,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1481/10186 [59:33<5:50:04,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1481/10186 [59:33<5:50:04,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1482/10186 [59:34<5:49:53,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  15%|▏| 1482/10186 [59:34<5:49:53,  2.41s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1483/10186 [59:35<5:49:43,  2.41s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  15%|▏| 1483/10186 [59:35<5:49:43,  2.41s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1484/10186 [59:42<5:50:04,  2.41s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  15%|▏| 1484/10186 [59:42<5:50:04,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1485/10186 [59:43<5:49:54,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  15%|▏| 1485/10186 [59:43<5:49:54,  2.41s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1486/10186 [59:44<5:49:43,  2.41s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  15%|▏| 1486/10186 [59:44<5:49:43,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1487/10186 [59:45<5:49:33,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  15%|▏| 1487/10186 [59:45<5:49:33,  2.41s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1488/10186 [59:51<5:49:54,  2.41s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  15%|▏| 1488/10186 [59:51<5:49:54,  2.41s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1489/10186 [59:52<5:49:44,  2.41s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  15%|▏| 1489/10186 [59:52<5:49:44,  2.41s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1490/10186 [59:53<5:49:33,  2.41s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  15%|▏| 1490/10186 [59:53<5:49:33,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1491/10186 [59:54<5:49:23,  2.41s/it, v_num=uqm9, train/loss=5.\r",
+      "Epoch 0:  15%|▏| 1491/10186 [59:54<5:49:23,  2.41s/it, v_num=uqm9, train/loss=5."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1492/10186 [1:00:01<5:49:44,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1492/10186 [1:00:01<5:49:44,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1493/10186 [1:00:02<5:49:34,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1493/10186 [1:00:02<5:49:34,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1494/10186 [1:00:03<5:49:23,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1494/10186 [1:00:03<5:49:23,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1495/10186 [1:00:04<5:49:13,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1495/10186 [1:00:04<5:49:13,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1496/10186 [1:00:10<5:49:34,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1496/10186 [1:00:10<5:49:34,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1497/10186 [1:00:11<5:49:24,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1497/10186 [1:00:11<5:49:24,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1498/10186 [1:00:12<5:49:13,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1498/10186 [1:00:12<5:49:13,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1499/10186 [1:00:13<5:49:03,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1499/10186 [1:00:13<5:49:03,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1500/10186 [1:00:20<5:49:24,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1500/10186 [1:00:20<5:49:24,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1501/10186 [1:00:21<5:49:14,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1501/10186 [1:00:21<5:49:14,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1502/10186 [1:00:22<5:49:03,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1502/10186 [1:00:22<5:49:03,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1503/10186 [1:00:23<5:48:53,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1503/10186 [1:00:23<5:48:53,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1504/10186 [1:00:30<5:49:14,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1504/10186 [1:00:30<5:49:14,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1505/10186 [1:00:31<5:49:04,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1505/10186 [1:00:31<5:49:04,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1506/10186 [1:00:32<5:48:53,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1506/10186 [1:00:32<5:48:53,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1507/10186 [1:00:33<5:48:43,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1507/10186 [1:00:33<5:48:43,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1508/10186 [1:00:39<5:49:04,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1508/10186 [1:00:39<5:49:04,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1509/10186 [1:00:40<5:48:54,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1509/10186 [1:00:40<5:48:54,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1510/10186 [1:00:41<5:48:44,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1510/10186 [1:00:41<5:48:44,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1511/10186 [1:00:42<5:48:33,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1511/10186 [1:00:42<5:48:33,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1512/10186 [1:00:49<5:48:54,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1512/10186 [1:00:49<5:48:54,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1513/10186 [1:00:50<5:48:44,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1513/10186 [1:00:50<5:48:44,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1514/10186 [1:00:51<5:48:33,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1514/10186 [1:00:51<5:48:33,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1515/10186 [1:00:52<5:48:23,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1515/10186 [1:00:52<5:48:23,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1516/10186 [1:00:58<5:48:44,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1516/10186 [1:00:58<5:48:44,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1517/10186 [1:00:59<5:48:34,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1517/10186 [1:00:59<5:48:34,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1518/10186 [1:01:00<5:48:24,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1518/10186 [1:01:00<5:48:24,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1519/10186 [1:01:01<5:48:13,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1519/10186 [1:01:01<5:48:13,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1520/10186 [1:01:08<5:48:34,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1520/10186 [1:01:08<5:48:34,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1521/10186 [1:01:09<5:48:24,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1521/10186 [1:01:09<5:48:24,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1522/10186 [1:01:10<5:48:14,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1522/10186 [1:01:10<5:48:14,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1523/10186 [1:01:11<5:48:03,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1523/10186 [1:01:11<5:48:03,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1524/10186 [1:01:17<5:48:24,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1524/10186 [1:01:17<5:48:24,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1525/10186 [1:01:18<5:48:14,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1525/10186 [1:01:18<5:48:14,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1526/10186 [1:01:20<5:48:04,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1526/10186 [1:01:20<5:48:04,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1527/10186 [1:01:21<5:47:53,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1527/10186 [1:01:21<5:47:53,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1528/10186 [1:01:27<5:48:14,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1528/10186 [1:01:27<5:48:14,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1529/10186 [1:01:28<5:48:04,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1529/10186 [1:01:28<5:48:04,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1530/10186 [1:01:29<5:47:54,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1530/10186 [1:01:29<5:47:54,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1531/10186 [1:01:30<5:47:43,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1531/10186 [1:01:30<5:47:43,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1532/10186 [1:01:37<5:48:04,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1532/10186 [1:01:37<5:48:04,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1533/10186 [1:01:38<5:47:54,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1533/10186 [1:01:38<5:47:54,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1534/10186 [1:01:39<5:47:44,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1534/10186 [1:01:39<5:47:44,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1535/10186 [1:01:40<5:47:33,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1535/10186 [1:01:40<5:47:33,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1536/10186 [1:01:46<5:47:54,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1536/10186 [1:01:46<5:47:54,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1537/10186 [1:01:47<5:47:44,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1537/10186 [1:01:47<5:47:44,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1538/10186 [1:01:48<5:47:34,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1538/10186 [1:01:48<5:47:34,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1539/10186 [1:01:49<5:47:24,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1539/10186 [1:01:49<5:47:24,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1540/10186 [1:01:56<5:47:44,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1540/10186 [1:01:56<5:47:44,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1541/10186 [1:01:57<5:47:34,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1541/10186 [1:01:57<5:47:34,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1542/10186 [1:01:58<5:47:24,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1542/10186 [1:01:58<5:47:24,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1543/10186 [1:01:59<5:47:14,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1543/10186 [1:01:59<5:47:14,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1544/10186 [1:02:05<5:47:34,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1544/10186 [1:02:05<5:47:34,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1545/10186 [1:02:06<5:47:24,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1545/10186 [1:02:06<5:47:24,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1546/10186 [1:02:07<5:47:14,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1546/10186 [1:02:07<5:47:14,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1547/10186 [1:02:09<5:47:04,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1547/10186 [1:02:09<5:47:04,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1548/10186 [1:02:15<5:47:24,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1548/10186 [1:02:15<5:47:24,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1549/10186 [1:02:16<5:47:14,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1549/10186 [1:02:16<5:47:14,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1550/10186 [1:02:17<5:47:04,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1550/10186 [1:02:17<5:47:04,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1551/10186 [1:02:18<5:46:54,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1551/10186 [1:02:18<5:46:54,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1552/10186 [1:02:25<5:47:14,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1552/10186 [1:02:25<5:47:14,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1553/10186 [1:02:26<5:47:04,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1553/10186 [1:02:26<5:47:04,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1554/10186 [1:02:27<5:46:54,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1554/10186 [1:02:27<5:46:54,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1555/10186 [1:02:28<5:46:44,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1555/10186 [1:02:28<5:46:44,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1556/10186 [1:02:34<5:47:04,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1556/10186 [1:02:34<5:47:04,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1557/10186 [1:02:35<5:46:54,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1557/10186 [1:02:35<5:46:54,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1558/10186 [1:02:36<5:46:44,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1558/10186 [1:02:36<5:46:44,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1559/10186 [1:02:37<5:46:34,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1559/10186 [1:02:37<5:46:34,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1560/10186 [1:02:44<5:46:54,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1560/10186 [1:02:44<5:46:54,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1561/10186 [1:02:45<5:46:44,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1561/10186 [1:02:45<5:46:44,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1562/10186 [1:02:46<5:46:34,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1562/10186 [1:02:46<5:46:34,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1563/10186 [1:02:47<5:46:24,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1563/10186 [1:02:47<5:46:24,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1564/10186 [1:02:53<5:46:44,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1564/10186 [1:02:53<5:46:44,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1565/10186 [1:02:54<5:46:34,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1565/10186 [1:02:54<5:46:34,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1566/10186 [1:02:55<5:46:24,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1566/10186 [1:02:55<5:46:24,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1567/10186 [1:02:56<5:46:14,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1567/10186 [1:02:56<5:46:14,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1568/10186 [1:03:03<5:46:34,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1568/10186 [1:03:03<5:46:34,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1569/10186 [1:03:04<5:46:24,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1569/10186 [1:03:04<5:46:24,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1570/10186 [1:03:05<5:46:14,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1570/10186 [1:03:05<5:46:14,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1571/10186 [1:03:06<5:46:04,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1571/10186 [1:03:06<5:46:04,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1572/10186 [1:03:13<5:46:24,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1572/10186 [1:03:13<5:46:24,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1573/10186 [1:03:14<5:46:14,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1573/10186 [1:03:14<5:46:14,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1574/10186 [1:03:15<5:46:04,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1574/10186 [1:03:15<5:46:04,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1575/10186 [1:03:16<5:45:54,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1575/10186 [1:03:16<5:45:54,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1576/10186 [1:03:22<5:46:14,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1576/10186 [1:03:22<5:46:14,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1577/10186 [1:03:23<5:46:04,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1577/10186 [1:03:23<5:46:04,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 1578/10186 [1:03:24<5:45:54,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  15%|▏| 1578/10186 [1:03:24<5:45:54,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1579/10186 [1:03:25<5:45:44,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1579/10186 [1:03:25<5:45:44,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1580/10186 [1:03:32<5:46:04,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1580/10186 [1:03:32<5:46:04,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1581/10186 [1:03:33<5:45:54,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1581/10186 [1:03:33<5:45:54,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1582/10186 [1:03:34<5:45:44,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1582/10186 [1:03:34<5:45:44,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1583/10186 [1:03:35<5:45:34,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1583/10186 [1:03:35<5:45:34,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1584/10186 [1:03:41<5:45:54,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1584/10186 [1:03:41<5:45:54,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1585/10186 [1:03:42<5:45:44,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1585/10186 [1:03:42<5:45:44,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1586/10186 [1:03:43<5:45:34,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1586/10186 [1:03:43<5:45:34,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1587/10186 [1:03:44<5:45:24,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1587/10186 [1:03:44<5:45:24,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1588/10186 [1:03:51<5:45:44,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1588/10186 [1:03:51<5:45:44,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1589/10186 [1:03:52<5:45:34,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1589/10186 [1:03:52<5:45:34,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1590/10186 [1:03:53<5:45:24,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1590/10186 [1:03:53<5:45:24,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1591/10186 [1:03:54<5:45:14,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1591/10186 [1:03:54<5:45:14,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1592/10186 [1:04:00<5:45:34,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1592/10186 [1:04:00<5:45:34,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1593/10186 [1:04:01<5:45:24,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1593/10186 [1:04:01<5:45:24,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1594/10186 [1:04:03<5:45:14,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1594/10186 [1:04:03<5:45:14,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1595/10186 [1:04:04<5:45:05,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1595/10186 [1:04:04<5:45:05,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1596/10186 [1:04:10<5:45:24,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1596/10186 [1:04:10<5:45:24,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1597/10186 [1:04:11<5:45:14,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1597/10186 [1:04:11<5:45:14,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1598/10186 [1:04:12<5:45:04,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1598/10186 [1:04:12<5:45:04,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1599/10186 [1:04:13<5:44:55,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1599/10186 [1:04:13<5:44:55,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1600/10186 [1:04:20<5:45:14,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1600/10186 [1:04:20<5:45:14,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1601/10186 [1:04:21<5:45:04,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1601/10186 [1:04:21<5:45:04,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1602/10186 [1:04:22<5:44:54,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1602/10186 [1:04:22<5:44:54,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1603/10186 [1:04:23<5:44:45,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1603/10186 [1:04:23<5:44:45,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1604/10186 [1:04:29<5:45:04,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1604/10186 [1:04:29<5:45:04,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1605/10186 [1:04:30<5:44:54,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1605/10186 [1:04:30<5:44:54,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1606/10186 [1:04:31<5:44:44,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1606/10186 [1:04:31<5:44:44,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1607/10186 [1:04:32<5:44:35,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1607/10186 [1:04:32<5:44:35,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1608/10186 [1:04:39<5:44:54,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1608/10186 [1:04:39<5:44:54,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1609/10186 [1:04:40<5:44:44,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1609/10186 [1:04:40<5:44:44,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1610/10186 [1:04:41<5:44:34,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1610/10186 [1:04:41<5:44:34,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1611/10186 [1:04:42<5:44:25,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1611/10186 [1:04:42<5:44:25,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1612/10186 [1:04:48<5:44:44,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1612/10186 [1:04:48<5:44:44,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1613/10186 [1:04:49<5:44:34,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1613/10186 [1:04:49<5:44:34,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1614/10186 [1:04:50<5:44:24,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1614/10186 [1:04:50<5:44:24,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1615/10186 [1:04:52<5:44:15,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1615/10186 [1:04:52<5:44:15,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1616/10186 [1:04:58<5:44:34,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1616/10186 [1:04:58<5:44:34,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1617/10186 [1:04:59<5:44:24,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1617/10186 [1:04:59<5:44:24,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1618/10186 [1:05:00<5:44:15,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1618/10186 [1:05:00<5:44:15,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1619/10186 [1:05:01<5:44:05,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1619/10186 [1:05:01<5:44:05,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1620/10186 [1:05:08<5:44:24,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1620/10186 [1:05:08<5:44:24,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1621/10186 [1:05:09<5:44:14,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1621/10186 [1:05:09<5:44:14,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1622/10186 [1:05:10<5:44:05,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1622/10186 [1:05:10<5:44:05,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1623/10186 [1:05:11<5:43:55,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1623/10186 [1:05:11<5:43:55,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1624/10186 [1:05:17<5:44:14,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1624/10186 [1:05:17<5:44:14,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1625/10186 [1:05:18<5:44:04,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1625/10186 [1:05:18<5:44:04,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1626/10186 [1:05:19<5:43:55,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1626/10186 [1:05:19<5:43:55,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1627/10186 [1:05:20<5:43:45,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1627/10186 [1:05:20<5:43:45,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1628/10186 [1:05:27<5:44:04,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1628/10186 [1:05:27<5:44:04,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1629/10186 [1:05:28<5:43:54,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1629/10186 [1:05:28<5:43:54,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1630/10186 [1:05:29<5:43:45,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1630/10186 [1:05:29<5:43:45,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1631/10186 [1:05:30<5:43:35,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1631/10186 [1:05:30<5:43:35,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1632/10186 [1:05:36<5:43:54,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1632/10186 [1:05:36<5:43:54,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1633/10186 [1:05:37<5:43:44,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1633/10186 [1:05:37<5:43:44,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1634/10186 [1:05:38<5:43:35,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1634/10186 [1:05:38<5:43:35,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1635/10186 [1:05:39<5:43:25,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1635/10186 [1:05:39<5:43:25,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1636/10186 [1:05:46<5:43:44,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1636/10186 [1:05:46<5:43:44,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1637/10186 [1:05:47<5:43:34,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1637/10186 [1:05:47<5:43:34,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1638/10186 [1:05:48<5:43:25,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1638/10186 [1:05:48<5:43:25,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1639/10186 [1:05:49<5:43:15,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1639/10186 [1:05:49<5:43:15,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1640/10186 [1:05:55<5:43:34,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1640/10186 [1:05:55<5:43:34,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1641/10186 [1:05:57<5:43:24,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1641/10186 [1:05:57<5:43:24,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1642/10186 [1:05:58<5:43:15,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1642/10186 [1:05:58<5:43:15,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1643/10186 [1:05:59<5:43:05,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1643/10186 [1:05:59<5:43:05,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1644/10186 [1:06:05<5:43:24,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1644/10186 [1:06:05<5:43:24,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1645/10186 [1:06:06<5:43:15,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1645/10186 [1:06:06<5:43:15,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1646/10186 [1:06:07<5:43:05,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1646/10186 [1:06:07<5:43:05,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1647/10186 [1:06:08<5:42:56,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1647/10186 [1:06:08<5:42:56,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1648/10186 [1:06:15<5:43:14,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1648/10186 [1:06:15<5:43:14,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1649/10186 [1:06:16<5:43:05,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1649/10186 [1:06:16<5:43:05,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1650/10186 [1:06:17<5:42:55,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1650/10186 [1:06:17<5:42:55,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1651/10186 [1:06:18<5:42:46,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1651/10186 [1:06:18<5:42:46,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1652/10186 [1:06:24<5:43:04,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1652/10186 [1:06:24<5:43:04,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1653/10186 [1:06:25<5:42:55,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1653/10186 [1:06:25<5:42:55,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1654/10186 [1:06:26<5:42:45,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1654/10186 [1:06:26<5:42:45,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1655/10186 [1:06:27<5:42:36,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1655/10186 [1:06:27<5:42:36,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1656/10186 [1:06:34<5:42:54,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1656/10186 [1:06:34<5:42:54,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1657/10186 [1:06:35<5:42:45,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1657/10186 [1:06:35<5:42:45,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1658/10186 [1:06:36<5:42:35,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1658/10186 [1:06:36<5:42:35,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1659/10186 [1:06:37<5:42:26,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1659/10186 [1:06:37<5:42:26,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1660/10186 [1:06:43<5:42:44,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1660/10186 [1:06:43<5:42:44,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1661/10186 [1:06:44<5:42:35,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1661/10186 [1:06:44<5:42:35,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1662/10186 [1:06:46<5:42:25,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1662/10186 [1:06:46<5:42:25,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1663/10186 [1:06:47<5:42:16,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1663/10186 [1:06:47<5:42:16,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1664/10186 [1:06:53<5:42:34,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1664/10186 [1:06:53<5:42:34,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1665/10186 [1:06:54<5:42:25,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1665/10186 [1:06:54<5:42:25,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1666/10186 [1:06:55<5:42:16,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1666/10186 [1:06:55<5:42:16,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1667/10186 [1:06:56<5:42:06,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1667/10186 [1:06:56<5:42:06,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1668/10186 [1:07:03<5:42:24,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1668/10186 [1:07:03<5:42:24,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1669/10186 [1:07:04<5:42:15,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1669/10186 [1:07:04<5:42:15,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1670/10186 [1:07:05<5:42:06,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1670/10186 [1:07:05<5:42:06,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1671/10186 [1:07:06<5:41:56,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1671/10186 [1:07:06<5:41:56,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1672/10186 [1:07:12<5:42:15,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1672/10186 [1:07:12<5:42:15,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1673/10186 [1:07:13<5:42:05,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1673/10186 [1:07:13<5:42:05,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1674/10186 [1:07:14<5:41:56,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1674/10186 [1:07:14<5:41:56,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1675/10186 [1:07:15<5:41:46,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1675/10186 [1:07:15<5:41:46,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1676/10186 [1:07:22<5:42:05,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1676/10186 [1:07:22<5:42:05,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1677/10186 [1:07:23<5:41:55,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1677/10186 [1:07:23<5:41:55,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1678/10186 [1:07:24<5:41:46,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1678/10186 [1:07:24<5:41:46,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1679/10186 [1:07:25<5:41:37,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1679/10186 [1:07:25<5:41:37,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 1680/10186 [1:07:31<5:41:55,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  16%|▏| 1680/10186 [1:07:31<5:41:55,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1681/10186 [1:07:32<5:41:45,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1681/10186 [1:07:32<5:41:45,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1682/10186 [1:07:33<5:41:36,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1682/10186 [1:07:33<5:41:36,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1683/10186 [1:07:35<5:41:27,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1683/10186 [1:07:35<5:41:27,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1684/10186 [1:07:41<5:41:45,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1684/10186 [1:07:41<5:41:45,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1685/10186 [1:07:42<5:41:35,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1685/10186 [1:07:42<5:41:35,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1686/10186 [1:07:43<5:41:26,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1686/10186 [1:07:43<5:41:26,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1687/10186 [1:07:44<5:41:17,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1687/10186 [1:07:44<5:41:17,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1688/10186 [1:07:51<5:41:35,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1688/10186 [1:07:51<5:41:35,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1689/10186 [1:07:52<5:41:25,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1689/10186 [1:07:52<5:41:25,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1690/10186 [1:07:53<5:41:16,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1690/10186 [1:07:53<5:41:16,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1691/10186 [1:07:54<5:41:07,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1691/10186 [1:07:54<5:41:07,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1692/10186 [1:08:00<5:41:25,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1692/10186 [1:08:00<5:41:25,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1693/10186 [1:08:01<5:41:16,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1693/10186 [1:08:01<5:41:16,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1694/10186 [1:08:02<5:41:06,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1694/10186 [1:08:02<5:41:06,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1695/10186 [1:08:03<5:40:57,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1695/10186 [1:08:03<5:40:57,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1696/10186 [1:08:10<5:41:15,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1696/10186 [1:08:10<5:41:15,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1697/10186 [1:08:11<5:41:06,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1697/10186 [1:08:11<5:41:06,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1698/10186 [1:08:12<5:40:56,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1698/10186 [1:08:12<5:40:56,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1699/10186 [1:08:13<5:40:47,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1699/10186 [1:08:13<5:40:47,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1700/10186 [1:08:19<5:41:05,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1700/10186 [1:08:19<5:41:05,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1701/10186 [1:08:20<5:40:56,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1701/10186 [1:08:20<5:40:56,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1702/10186 [1:08:21<5:40:46,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1702/10186 [1:08:21<5:40:46,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1703/10186 [1:08:22<5:40:37,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1703/10186 [1:08:22<5:40:37,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1704/10186 [1:08:29<5:40:55,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1704/10186 [1:08:29<5:40:55,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1705/10186 [1:08:30<5:40:46,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1705/10186 [1:08:30<5:40:46,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1706/10186 [1:08:31<5:40:37,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1706/10186 [1:08:31<5:40:37,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1707/10186 [1:08:32<5:40:27,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1707/10186 [1:08:32<5:40:27,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1708/10186 [1:08:39<5:40:45,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1708/10186 [1:08:39<5:40:45,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1709/10186 [1:08:40<5:40:36,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1709/10186 [1:08:40<5:40:36,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1710/10186 [1:08:41<5:40:27,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1710/10186 [1:08:41<5:40:27,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1711/10186 [1:08:42<5:40:17,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1711/10186 [1:08:42<5:40:17,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1712/10186 [1:08:48<5:40:35,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1712/10186 [1:08:48<5:40:35,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1713/10186 [1:08:49<5:40:26,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1713/10186 [1:08:49<5:40:26,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1714/10186 [1:08:50<5:40:17,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1714/10186 [1:08:50<5:40:17,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1715/10186 [1:08:51<5:40:08,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1715/10186 [1:08:51<5:40:08,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1716/10186 [1:08:58<5:40:25,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1716/10186 [1:08:58<5:40:25,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1717/10186 [1:08:59<5:40:16,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1717/10186 [1:08:59<5:40:16,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1718/10186 [1:09:00<5:40:07,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1718/10186 [1:09:00<5:40:07,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1719/10186 [1:09:01<5:39:58,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1719/10186 [1:09:01<5:39:58,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1720/10186 [1:09:07<5:40:15,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1720/10186 [1:09:07<5:40:15,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1721/10186 [1:09:08<5:40:06,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1721/10186 [1:09:08<5:40:06,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1722/10186 [1:09:09<5:39:57,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1722/10186 [1:09:09<5:39:57,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1723/10186 [1:09:10<5:39:48,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1723/10186 [1:09:10<5:39:48,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1724/10186 [1:09:17<5:40:05,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1724/10186 [1:09:17<5:40:05,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1725/10186 [1:09:18<5:39:56,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1725/10186 [1:09:18<5:39:56,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1726/10186 [1:09:19<5:39:47,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1726/10186 [1:09:19<5:39:47,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1727/10186 [1:09:20<5:39:38,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1727/10186 [1:09:20<5:39:38,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1728/10186 [1:09:26<5:39:55,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1728/10186 [1:09:26<5:39:55,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1729/10186 [1:09:27<5:39:46,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1729/10186 [1:09:27<5:39:46,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1730/10186 [1:09:29<5:39:37,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1730/10186 [1:09:29<5:39:37,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1731/10186 [1:09:30<5:39:28,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1731/10186 [1:09:30<5:39:28,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1732/10186 [1:09:36<5:39:45,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1732/10186 [1:09:36<5:39:45,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1733/10186 [1:09:37<5:39:36,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1733/10186 [1:09:37<5:39:36,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1734/10186 [1:09:38<5:39:27,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1734/10186 [1:09:38<5:39:27,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1735/10186 [1:09:39<5:39:18,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1735/10186 [1:09:39<5:39:18,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1736/10186 [1:09:46<5:39:35,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1736/10186 [1:09:46<5:39:35,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1737/10186 [1:09:47<5:39:26,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1737/10186 [1:09:47<5:39:26,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1738/10186 [1:09:48<5:39:17,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1738/10186 [1:09:48<5:39:17,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1739/10186 [1:09:49<5:39:08,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1739/10186 [1:09:49<5:39:08,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1740/10186 [1:09:55<5:39:25,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1740/10186 [1:09:55<5:39:25,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1741/10186 [1:09:56<5:39:16,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1741/10186 [1:09:56<5:39:16,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1742/10186 [1:09:57<5:39:07,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1742/10186 [1:09:57<5:39:07,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1743/10186 [1:09:58<5:38:58,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1743/10186 [1:09:58<5:38:58,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1744/10186 [1:10:05<5:39:15,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1744/10186 [1:10:05<5:39:15,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1745/10186 [1:10:06<5:39:06,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1745/10186 [1:10:06<5:39:06,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1746/10186 [1:10:07<5:38:57,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1746/10186 [1:10:07<5:38:57,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1747/10186 [1:10:08<5:38:48,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1747/10186 [1:10:08<5:38:48,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1748/10186 [1:10:14<5:39:06,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1748/10186 [1:10:14<5:39:06,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1749/10186 [1:10:15<5:38:56,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1749/10186 [1:10:15<5:38:56,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1750/10186 [1:10:16<5:38:47,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1750/10186 [1:10:16<5:38:47,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1751/10186 [1:10:17<5:38:38,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1751/10186 [1:10:17<5:38:38,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1752/10186 [1:10:24<5:38:56,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1752/10186 [1:10:24<5:38:56,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1753/10186 [1:10:25<5:38:47,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1753/10186 [1:10:25<5:38:47,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1754/10186 [1:10:26<5:38:38,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1754/10186 [1:10:26<5:38:38,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1755/10186 [1:10:27<5:38:29,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1755/10186 [1:10:27<5:38:29,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1756/10186 [1:10:34<5:38:46,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1756/10186 [1:10:34<5:38:46,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1757/10186 [1:10:35<5:38:37,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1757/10186 [1:10:35<5:38:37,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1758/10186 [1:10:36<5:38:28,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1758/10186 [1:10:36<5:38:28,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1759/10186 [1:10:37<5:38:19,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1759/10186 [1:10:37<5:38:19,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1760/10186 [1:10:43<5:38:36,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1760/10186 [1:10:43<5:38:36,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1761/10186 [1:10:44<5:38:27,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1761/10186 [1:10:44<5:38:27,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1762/10186 [1:10:45<5:38:18,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1762/10186 [1:10:45<5:38:18,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1763/10186 [1:10:46<5:38:09,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1763/10186 [1:10:46<5:38:09,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1764/10186 [1:10:53<5:38:26,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1764/10186 [1:10:53<5:38:26,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1765/10186 [1:10:54<5:38:17,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1765/10186 [1:10:54<5:38:17,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1766/10186 [1:10:55<5:38:08,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1766/10186 [1:10:55<5:38:08,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1767/10186 [1:10:56<5:37:59,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1767/10186 [1:10:56<5:37:59,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1768/10186 [1:11:02<5:38:16,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1768/10186 [1:11:02<5:38:16,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1769/10186 [1:11:03<5:38:07,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1769/10186 [1:11:03<5:38:07,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1770/10186 [1:11:04<5:37:58,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1770/10186 [1:11:04<5:37:58,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1771/10186 [1:11:05<5:37:49,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1771/10186 [1:11:05<5:37:49,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1772/10186 [1:11:12<5:38:06,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1772/10186 [1:11:12<5:38:06,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1773/10186 [1:11:13<5:37:57,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1773/10186 [1:11:13<5:37:57,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1774/10186 [1:11:14<5:37:48,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1774/10186 [1:11:14<5:37:48,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1775/10186 [1:11:15<5:37:39,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1775/10186 [1:11:15<5:37:39,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1776/10186 [1:11:21<5:37:56,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1776/10186 [1:11:21<5:37:56,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1777/10186 [1:11:22<5:37:47,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1777/10186 [1:11:22<5:37:47,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1778/10186 [1:11:24<5:37:38,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1778/10186 [1:11:24<5:37:38,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1779/10186 [1:11:25<5:37:29,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1779/10186 [1:11:25<5:37:29,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1780/10186 [1:11:31<5:37:46,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1780/10186 [1:11:31<5:37:46,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1781/10186 [1:11:32<5:37:37,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1781/10186 [1:11:32<5:37:37,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 1782/10186 [1:11:33<5:37:28,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  17%|▏| 1782/10186 [1:11:33<5:37:28,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1783/10186 [1:11:34<5:37:19,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1783/10186 [1:11:34<5:37:19,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1784/10186 [1:11:41<5:37:36,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1784/10186 [1:11:41<5:37:36,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1785/10186 [1:11:42<5:37:27,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1785/10186 [1:11:42<5:37:27,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1786/10186 [1:11:43<5:37:18,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1786/10186 [1:11:43<5:37:18,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1787/10186 [1:11:44<5:37:10,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1787/10186 [1:11:44<5:37:10,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1788/10186 [1:11:50<5:37:26,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1788/10186 [1:11:50<5:37:26,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1789/10186 [1:11:51<5:37:17,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1789/10186 [1:11:51<5:37:17,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1790/10186 [1:11:52<5:37:09,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1790/10186 [1:11:52<5:37:09,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1791/10186 [1:11:53<5:37:00,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1791/10186 [1:11:53<5:37:00,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1792/10186 [1:12:00<5:37:16,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1792/10186 [1:12:00<5:37:16,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1793/10186 [1:12:01<5:37:07,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1793/10186 [1:12:01<5:37:07,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1794/10186 [1:12:02<5:36:59,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1794/10186 [1:12:02<5:36:59,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1795/10186 [1:12:03<5:36:50,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1795/10186 [1:12:03<5:36:50,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1796/10186 [1:12:09<5:37:06,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1796/10186 [1:12:09<5:37:06,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1797/10186 [1:12:10<5:36:57,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1797/10186 [1:12:10<5:36:57,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1798/10186 [1:12:11<5:36:49,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1798/10186 [1:12:11<5:36:49,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1799/10186 [1:12:12<5:36:40,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1799/10186 [1:12:12<5:36:40,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1800/10186 [1:12:19<5:36:56,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1800/10186 [1:12:19<5:36:56,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1801/10186 [1:12:20<5:36:48,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1801/10186 [1:12:20<5:36:48,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1802/10186 [1:12:21<5:36:39,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1802/10186 [1:12:21<5:36:39,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1803/10186 [1:12:22<5:36:30,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1803/10186 [1:12:22<5:36:30,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1804/10186 [1:12:29<5:36:46,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1804/10186 [1:12:29<5:36:46,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1805/10186 [1:12:30<5:36:38,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1805/10186 [1:12:30<5:36:38,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1806/10186 [1:12:31<5:36:29,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1806/10186 [1:12:31<5:36:29,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1807/10186 [1:12:32<5:36:20,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1807/10186 [1:12:32<5:36:20,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1808/10186 [1:12:38<5:36:37,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1808/10186 [1:12:38<5:36:37,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1809/10186 [1:12:39<5:36:28,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1809/10186 [1:12:39<5:36:28,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1810/10186 [1:12:40<5:36:19,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1810/10186 [1:12:40<5:36:19,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1811/10186 [1:12:41<5:36:10,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1811/10186 [1:12:41<5:36:10,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1812/10186 [1:12:48<5:36:27,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1812/10186 [1:12:48<5:36:27,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1813/10186 [1:12:49<5:36:18,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1813/10186 [1:12:49<5:36:18,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1814/10186 [1:12:50<5:36:09,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1814/10186 [1:12:50<5:36:09,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1815/10186 [1:12:51<5:36:00,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1815/10186 [1:12:51<5:36:00,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1816/10186 [1:12:57<5:36:17,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1816/10186 [1:12:57<5:36:17,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1817/10186 [1:12:58<5:36:08,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1817/10186 [1:12:58<5:36:08,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1818/10186 [1:12:59<5:35:59,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1818/10186 [1:12:59<5:35:59,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1819/10186 [1:13:00<5:35:51,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1819/10186 [1:13:00<5:35:51,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1820/10186 [1:13:07<5:36:07,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1820/10186 [1:13:07<5:36:07,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1821/10186 [1:13:08<5:35:58,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1821/10186 [1:13:08<5:35:58,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1822/10186 [1:13:09<5:35:49,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1822/10186 [1:13:09<5:35:49,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1823/10186 [1:13:10<5:35:41,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1823/10186 [1:13:10<5:35:41,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1824/10186 [1:13:16<5:35:57,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1824/10186 [1:13:16<5:35:57,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1825/10186 [1:13:17<5:35:48,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1825/10186 [1:13:17<5:35:48,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1826/10186 [1:13:18<5:35:39,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1826/10186 [1:13:18<5:35:39,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1827/10186 [1:13:20<5:35:31,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1827/10186 [1:13:20<5:35:31,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1828/10186 [1:13:26<5:35:47,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1828/10186 [1:13:26<5:35:47,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1829/10186 [1:13:27<5:35:38,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1829/10186 [1:13:27<5:35:38,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1830/10186 [1:13:28<5:35:30,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1830/10186 [1:13:28<5:35:30,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1831/10186 [1:13:29<5:35:21,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1831/10186 [1:13:29<5:35:21,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1832/10186 [1:13:36<5:35:37,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1832/10186 [1:13:36<5:35:37,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1833/10186 [1:13:37<5:35:28,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1833/10186 [1:13:37<5:35:28,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1834/10186 [1:13:38<5:35:20,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1834/10186 [1:13:38<5:35:20,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1835/10186 [1:13:39<5:35:11,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1835/10186 [1:13:39<5:35:11,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1836/10186 [1:13:45<5:35:27,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1836/10186 [1:13:45<5:35:27,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1837/10186 [1:13:46<5:35:18,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1837/10186 [1:13:46<5:35:18,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1838/10186 [1:13:47<5:35:10,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1838/10186 [1:13:47<5:35:10,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1839/10186 [1:13:48<5:35:01,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1839/10186 [1:13:48<5:35:01,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1840/10186 [1:13:55<5:35:17,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1840/10186 [1:13:55<5:35:17,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1841/10186 [1:13:56<5:35:09,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1841/10186 [1:13:56<5:35:09,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1842/10186 [1:13:57<5:35:00,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1842/10186 [1:13:57<5:35:00,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1843/10186 [1:13:58<5:34:51,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1843/10186 [1:13:58<5:34:51,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1844/10186 [1:14:04<5:35:07,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1844/10186 [1:14:04<5:35:07,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1845/10186 [1:14:05<5:34:59,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1845/10186 [1:14:05<5:34:59,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1846/10186 [1:14:06<5:34:50,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1846/10186 [1:14:06<5:34:50,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1847/10186 [1:14:07<5:34:41,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1847/10186 [1:14:07<5:34:41,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1848/10186 [1:14:14<5:34:57,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1848/10186 [1:14:14<5:34:57,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1849/10186 [1:14:15<5:34:49,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1849/10186 [1:14:15<5:34:49,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1850/10186 [1:14:16<5:34:40,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1850/10186 [1:14:16<5:34:40,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1851/10186 [1:14:17<5:34:32,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1851/10186 [1:14:17<5:34:32,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1852/10186 [1:14:23<5:34:47,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1852/10186 [1:14:23<5:34:47,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1853/10186 [1:14:25<5:34:39,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1853/10186 [1:14:25<5:34:39,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1854/10186 [1:14:26<5:34:30,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1854/10186 [1:14:26<5:34:30,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1855/10186 [1:14:27<5:34:22,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1855/10186 [1:14:27<5:34:22,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1856/10186 [1:14:33<5:34:38,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1856/10186 [1:14:33<5:34:38,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1857/10186 [1:14:34<5:34:29,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1857/10186 [1:14:34<5:34:29,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1858/10186 [1:14:35<5:34:20,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1858/10186 [1:14:35<5:34:20,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1859/10186 [1:14:36<5:34:12,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1859/10186 [1:14:36<5:34:12,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1860/10186 [1:14:43<5:34:28,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1860/10186 [1:14:43<5:34:28,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1861/10186 [1:14:44<5:34:19,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1861/10186 [1:14:44<5:34:19,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1862/10186 [1:14:45<5:34:11,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1862/10186 [1:14:45<5:34:11,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1863/10186 [1:14:46<5:34:02,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1863/10186 [1:14:46<5:34:02,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1864/10186 [1:14:52<5:34:18,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1864/10186 [1:14:52<5:34:18,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1865/10186 [1:14:53<5:34:09,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1865/10186 [1:14:53<5:34:09,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1866/10186 [1:14:54<5:34:01,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1866/10186 [1:14:54<5:34:01,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1867/10186 [1:14:55<5:33:52,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1867/10186 [1:14:55<5:33:52,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1868/10186 [1:15:02<5:34:08,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1868/10186 [1:15:02<5:34:08,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1869/10186 [1:15:03<5:33:59,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1869/10186 [1:15:03<5:33:59,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1870/10186 [1:15:04<5:33:51,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1870/10186 [1:15:04<5:33:51,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1871/10186 [1:15:05<5:33:42,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1871/10186 [1:15:05<5:33:42,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1872/10186 [1:15:11<5:33:58,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1872/10186 [1:15:11<5:33:58,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1873/10186 [1:15:12<5:33:49,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1873/10186 [1:15:12<5:33:49,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1874/10186 [1:15:13<5:33:41,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1874/10186 [1:15:13<5:33:41,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1875/10186 [1:15:14<5:33:32,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1875/10186 [1:15:15<5:33:32,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1876/10186 [1:15:21<5:33:48,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1876/10186 [1:15:21<5:33:48,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1877/10186 [1:15:22<5:33:39,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1877/10186 [1:15:22<5:33:39,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1878/10186 [1:15:23<5:33:31,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1878/10186 [1:15:23<5:33:31,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1879/10186 [1:15:24<5:33:22,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1879/10186 [1:15:24<5:33:22,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1880/10186 [1:15:31<5:33:38,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1880/10186 [1:15:31<5:33:38,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1881/10186 [1:15:32<5:33:29,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1881/10186 [1:15:32<5:33:29,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1882/10186 [1:15:33<5:33:21,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1882/10186 [1:15:33<5:33:21,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1883/10186 [1:15:34<5:33:13,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1883/10186 [1:15:34<5:33:13,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 1884/10186 [1:15:40<5:33:28,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  18%|▏| 1884/10186 [1:15:40<5:33:28,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1885/10186 [1:15:41<5:33:20,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1885/10186 [1:15:41<5:33:20,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1886/10186 [1:15:42<5:33:11,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1886/10186 [1:15:42<5:33:11,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1887/10186 [1:15:43<5:33:03,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1887/10186 [1:15:43<5:33:03,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1888/10186 [1:15:50<5:33:18,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1888/10186 [1:15:50<5:33:18,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1889/10186 [1:15:51<5:33:10,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1889/10186 [1:15:51<5:33:10,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1890/10186 [1:15:52<5:33:01,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1890/10186 [1:15:52<5:33:01,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1891/10186 [1:15:53<5:32:53,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1891/10186 [1:15:53<5:32:53,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1892/10186 [1:15:59<5:33:08,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1892/10186 [1:15:59<5:33:08,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1893/10186 [1:16:00<5:33:00,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1893/10186 [1:16:00<5:33:00,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1894/10186 [1:16:01<5:32:51,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1894/10186 [1:16:01<5:32:51,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1895/10186 [1:16:02<5:32:43,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1895/10186 [1:16:02<5:32:43,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1896/10186 [1:16:09<5:32:58,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1896/10186 [1:16:09<5:32:58,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1897/10186 [1:16:10<5:32:50,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1897/10186 [1:16:10<5:32:50,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1898/10186 [1:16:11<5:32:41,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1898/10186 [1:16:11<5:32:41,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1899/10186 [1:16:12<5:32:33,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1899/10186 [1:16:12<5:32:33,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1900/10186 [1:16:18<5:32:48,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1900/10186 [1:16:18<5:32:48,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1901/10186 [1:16:19<5:32:40,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1901/10186 [1:16:19<5:32:40,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1902/10186 [1:16:21<5:32:32,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1902/10186 [1:16:21<5:32:32,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1903/10186 [1:16:22<5:32:23,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1903/10186 [1:16:22<5:32:23,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1904/10186 [1:16:28<5:32:39,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1904/10186 [1:16:28<5:32:39,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1905/10186 [1:16:29<5:32:30,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1905/10186 [1:16:29<5:32:30,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1906/10186 [1:16:30<5:32:22,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1906/10186 [1:16:30<5:32:22,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1907/10186 [1:16:31<5:32:14,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1907/10186 [1:16:31<5:32:14,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1908/10186 [1:16:38<5:32:29,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1908/10186 [1:16:38<5:32:29,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1909/10186 [1:16:39<5:32:20,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1909/10186 [1:16:39<5:32:20,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1910/10186 [1:16:40<5:32:12,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1910/10186 [1:16:40<5:32:12,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1911/10186 [1:16:41<5:32:04,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1911/10186 [1:16:41<5:32:04,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1912/10186 [1:16:47<5:32:19,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1912/10186 [1:16:47<5:32:19,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1913/10186 [1:16:48<5:32:10,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1913/10186 [1:16:48<5:32:10,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1914/10186 [1:16:49<5:32:02,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1914/10186 [1:16:49<5:32:02,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1915/10186 [1:16:50<5:31:54,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1915/10186 [1:16:50<5:31:54,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1916/10186 [1:16:57<5:32:09,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1916/10186 [1:16:57<5:32:09,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1917/10186 [1:16:58<5:32:01,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1917/10186 [1:16:58<5:32:01,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1918/10186 [1:16:59<5:31:52,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1918/10186 [1:16:59<5:31:52,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1919/10186 [1:17:00<5:31:44,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1919/10186 [1:17:00<5:31:44,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1920/10186 [1:17:06<5:31:59,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1920/10186 [1:17:06<5:31:59,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1921/10186 [1:17:07<5:31:51,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1921/10186 [1:17:07<5:31:51,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1922/10186 [1:17:08<5:31:42,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1922/10186 [1:17:08<5:31:42,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1923/10186 [1:17:09<5:31:34,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1923/10186 [1:17:09<5:31:34,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1924/10186 [1:17:16<5:31:49,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1924/10186 [1:17:16<5:31:49,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1925/10186 [1:17:17<5:31:41,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1925/10186 [1:17:17<5:31:41,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1926/10186 [1:17:18<5:31:32,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1926/10186 [1:17:18<5:31:32,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1927/10186 [1:17:19<5:31:24,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1927/10186 [1:17:19<5:31:24,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1928/10186 [1:17:25<5:31:39,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1928/10186 [1:17:26<5:31:39,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1929/10186 [1:17:27<5:31:31,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1929/10186 [1:17:27<5:31:31,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1930/10186 [1:17:28<5:31:23,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1930/10186 [1:17:28<5:31:23,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1931/10186 [1:17:29<5:31:14,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1931/10186 [1:17:29<5:31:14,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1932/10186 [1:17:35<5:31:29,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1932/10186 [1:17:35<5:31:29,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1933/10186 [1:17:36<5:31:21,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1933/10186 [1:17:36<5:31:21,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1934/10186 [1:17:37<5:31:13,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1934/10186 [1:17:37<5:31:13,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1935/10186 [1:17:38<5:31:05,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1935/10186 [1:17:38<5:31:05,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1936/10186 [1:17:45<5:31:19,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1936/10186 [1:17:45<5:31:19,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1937/10186 [1:17:46<5:31:11,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1937/10186 [1:17:46<5:31:11,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1938/10186 [1:17:47<5:31:03,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1938/10186 [1:17:47<5:31:03,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1939/10186 [1:17:48<5:30:55,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1939/10186 [1:17:48<5:30:55,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1940/10186 [1:17:54<5:31:10,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1940/10186 [1:17:54<5:31:10,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1941/10186 [1:17:55<5:31:01,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1941/10186 [1:17:55<5:31:01,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1942/10186 [1:17:56<5:30:53,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1942/10186 [1:17:56<5:30:53,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1943/10186 [1:17:57<5:30:45,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1943/10186 [1:17:57<5:30:45,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1944/10186 [1:18:04<5:31:00,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1944/10186 [1:18:04<5:31:00,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1945/10186 [1:18:05<5:30:52,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1945/10186 [1:18:05<5:30:52,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1946/10186 [1:18:06<5:30:43,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1946/10186 [1:18:06<5:30:43,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1947/10186 [1:18:07<5:30:35,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1947/10186 [1:18:07<5:30:35,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1948/10186 [1:18:13<5:30:50,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1948/10186 [1:18:13<5:30:50,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1949/10186 [1:18:14<5:30:42,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1949/10186 [1:18:14<5:30:42,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1950/10186 [1:18:16<5:30:34,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1950/10186 [1:18:16<5:30:34,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1951/10186 [1:18:17<5:30:25,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1951/10186 [1:18:17<5:30:25,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1952/10186 [1:18:23<5:30:40,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1952/10186 [1:18:23<5:30:40,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1953/10186 [1:18:24<5:30:32,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1953/10186 [1:18:24<5:30:32,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1954/10186 [1:18:25<5:30:24,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1954/10186 [1:18:25<5:30:24,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1955/10186 [1:18:26<5:30:16,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1955/10186 [1:18:26<5:30:16,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1956/10186 [1:18:33<5:30:30,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1956/10186 [1:18:33<5:30:30,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1957/10186 [1:18:34<5:30:22,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1957/10186 [1:18:34<5:30:22,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1958/10186 [1:18:35<5:30:14,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1958/10186 [1:18:35<5:30:14,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1959/10186 [1:18:36<5:30:06,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1959/10186 [1:18:36<5:30:06,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1960/10186 [1:18:42<5:30:20,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1960/10186 [1:18:42<5:30:20,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1961/10186 [1:18:43<5:30:12,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1961/10186 [1:18:43<5:30:12,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1962/10186 [1:18:44<5:30:04,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1962/10186 [1:18:44<5:30:04,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1963/10186 [1:18:45<5:29:56,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1963/10186 [1:18:45<5:29:56,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1964/10186 [1:18:52<5:30:10,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1964/10186 [1:18:52<5:30:10,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1965/10186 [1:18:53<5:30:02,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1965/10186 [1:18:53<5:30:02,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1966/10186 [1:18:54<5:29:54,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1966/10186 [1:18:54<5:29:54,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1967/10186 [1:18:55<5:29:46,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1967/10186 [1:18:55<5:29:46,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1968/10186 [1:19:01<5:30:01,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1968/10186 [1:19:01<5:30:01,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1969/10186 [1:19:02<5:29:52,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1969/10186 [1:19:02<5:29:52,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1970/10186 [1:19:03<5:29:44,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1970/10186 [1:19:03<5:29:44,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1971/10186 [1:19:04<5:29:36,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1971/10186 [1:19:04<5:29:36,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1972/10186 [1:19:11<5:29:51,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1972/10186 [1:19:11<5:29:51,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1973/10186 [1:19:12<5:29:43,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1973/10186 [1:19:12<5:29:43,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1974/10186 [1:19:13<5:29:35,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1974/10186 [1:19:13<5:29:35,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1975/10186 [1:19:14<5:29:26,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1975/10186 [1:19:14<5:29:26,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1976/10186 [1:19:21<5:29:41,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1976/10186 [1:19:21<5:29:41,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1977/10186 [1:19:22<5:29:33,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1977/10186 [1:19:22<5:29:33,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1978/10186 [1:19:23<5:29:25,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1978/10186 [1:19:23<5:29:25,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1979/10186 [1:19:24<5:29:17,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1979/10186 [1:19:24<5:29:17,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1980/10186 [1:19:30<5:29:31,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1980/10186 [1:19:30<5:29:31,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1981/10186 [1:19:31<5:29:23,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1981/10186 [1:19:31<5:29:23,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1982/10186 [1:19:32<5:29:15,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1982/10186 [1:19:32<5:29:15,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1983/10186 [1:19:33<5:29:07,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1983/10186 [1:19:33<5:29:07,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1984/10186 [1:19:40<5:29:21,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1984/10186 [1:19:40<5:29:21,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1985/10186 [1:19:41<5:29:13,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1985/10186 [1:19:41<5:29:13,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 1986/10186 [1:19:42<5:29:05,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  19%|▏| 1986/10186 [1:19:42<5:29:05,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 1987/10186 [1:19:43<5:28:57,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 1987/10186 [1:19:43<5:28:57,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 1988/10186 [1:19:49<5:29:11,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 1988/10186 [1:19:49<5:29:11,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 1989/10186 [1:19:50<5:29:03,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 1989/10186 [1:19:50<5:29:03,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 1990/10186 [1:19:51<5:28:55,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 1990/10186 [1:19:51<5:28:55,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 1991/10186 [1:19:52<5:28:47,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 1991/10186 [1:19:52<5:28:47,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 1992/10186 [1:19:59<5:29:02,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 1992/10186 [1:19:59<5:29:02,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 1993/10186 [1:20:00<5:28:54,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 1993/10186 [1:20:00<5:28:54,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 1994/10186 [1:20:01<5:28:46,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 1994/10186 [1:20:01<5:28:46,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 1995/10186 [1:20:02<5:28:38,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 1995/10186 [1:20:02<5:28:38,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 1996/10186 [1:20:08<5:28:52,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 1996/10186 [1:20:08<5:28:52,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 1997/10186 [1:20:10<5:28:44,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 1997/10186 [1:20:10<5:28:44,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 1998/10186 [1:20:11<5:28:36,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 1998/10186 [1:20:11<5:28:36,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 1999/10186 [1:20:12<5:28:28,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 1999/10186 [1:20:12<5:28:28,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2000/10186 [1:20:18<5:28:42,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2000/10186 [1:20:18<5:28:42,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2001/10186 [1:20:44<5:30:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2001/10186 [1:20:44<5:30:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2002/10186 [1:20:45<5:30:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2002/10186 [1:20:45<5:30:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2003/10186 [1:20:46<5:30:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2003/10186 [1:20:46<5:30:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2004/10186 [1:20:53<5:30:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2004/10186 [1:20:53<5:30:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2005/10186 [1:20:54<5:30:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2005/10186 [1:20:54<5:30:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2006/10186 [1:20:55<5:29:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2006/10186 [1:20:55<5:29:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2007/10186 [1:20:56<5:29:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2007/10186 [1:20:56<5:29:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2008/10186 [1:21:02<5:30:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2008/10186 [1:21:02<5:30:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2009/10186 [1:21:03<5:29:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2009/10186 [1:21:03<5:29:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2010/10186 [1:21:04<5:29:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2010/10186 [1:21:04<5:29:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2011/10186 [1:21:05<5:29:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2011/10186 [1:21:05<5:29:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2012/10186 [1:21:12<5:29:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2012/10186 [1:21:12<5:29:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2013/10186 [1:21:13<5:29:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2013/10186 [1:21:13<5:29:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2014/10186 [1:21:14<5:29:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2014/10186 [1:21:14<5:29:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2015/10186 [1:21:15<5:29:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2015/10186 [1:21:15<5:29:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2016/10186 [1:21:21<5:29:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2016/10186 [1:21:21<5:29:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2017/10186 [1:21:22<5:29:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2017/10186 [1:21:22<5:29:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2018/10186 [1:21:24<5:29:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2018/10186 [1:21:24<5:29:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2019/10186 [1:21:25<5:29:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2019/10186 [1:21:25<5:29:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2020/10186 [1:21:31<5:29:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2020/10186 [1:21:31<5:29:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2021/10186 [1:21:32<5:29:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2021/10186 [1:21:32<5:29:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2022/10186 [1:21:33<5:29:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2022/10186 [1:21:33<5:29:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2023/10186 [1:21:34<5:29:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2023/10186 [1:21:34<5:29:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2024/10186 [1:21:41<5:29:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2024/10186 [1:21:41<5:29:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2025/10186 [1:21:42<5:29:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2025/10186 [1:21:42<5:29:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2026/10186 [1:21:43<5:29:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2026/10186 [1:21:43<5:29:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2027/10186 [1:21:44<5:29:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2027/10186 [1:21:44<5:29:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2028/10186 [1:21:50<5:29:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2028/10186 [1:21:50<5:29:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2029/10186 [1:21:51<5:29:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2029/10186 [1:21:51<5:29:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2030/10186 [1:21:52<5:28:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2030/10186 [1:21:52<5:28:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2031/10186 [1:21:53<5:28:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2031/10186 [1:21:53<5:28:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2032/10186 [1:22:00<5:29:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2032/10186 [1:22:00<5:29:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2033/10186 [1:22:01<5:28:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2033/10186 [1:22:01<5:28:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2034/10186 [1:22:02<5:28:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2034/10186 [1:22:02<5:28:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2035/10186 [1:22:03<5:28:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2035/10186 [1:22:03<5:28:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2036/10186 [1:22:09<5:28:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2036/10186 [1:22:09<5:28:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2037/10186 [1:22:10<5:28:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2037/10186 [1:22:10<5:28:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2038/10186 [1:22:11<5:28:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2038/10186 [1:22:11<5:28:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2039/10186 [1:22:12<5:28:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2039/10186 [1:22:12<5:28:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2040/10186 [1:22:19<5:28:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2040/10186 [1:22:19<5:28:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2041/10186 [1:22:20<5:28:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2041/10186 [1:22:20<5:28:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2042/10186 [1:22:21<5:28:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2042/10186 [1:22:21<5:28:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2043/10186 [1:22:22<5:28:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2043/10186 [1:22:22<5:28:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2044/10186 [1:22:29<5:28:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2044/10186 [1:22:29<5:28:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2045/10186 [1:22:30<5:28:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2045/10186 [1:22:30<5:28:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2046/10186 [1:22:31<5:28:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2046/10186 [1:22:31<5:28:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2047/10186 [1:22:32<5:28:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2047/10186 [1:22:32<5:28:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2048/10186 [1:22:38<5:28:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2048/10186 [1:22:38<5:28:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2049/10186 [1:22:39<5:28:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2049/10186 [1:22:39<5:28:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2050/10186 [1:22:40<5:28:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2050/10186 [1:22:40<5:28:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2051/10186 [1:22:41<5:28:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2051/10186 [1:22:41<5:28:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2052/10186 [1:22:48<5:28:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2052/10186 [1:22:48<5:28:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2053/10186 [1:22:49<5:28:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2053/10186 [1:22:49<5:28:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2054/10186 [1:22:50<5:27:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2054/10186 [1:22:50<5:27:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2055/10186 [1:22:51<5:27:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2055/10186 [1:22:51<5:27:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2056/10186 [1:22:57<5:28:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2056/10186 [1:22:57<5:28:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2057/10186 [1:22:58<5:27:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2057/10186 [1:22:58<5:27:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2058/10186 [1:22:59<5:27:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2058/10186 [1:22:59<5:27:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2059/10186 [1:23:00<5:27:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2059/10186 [1:23:00<5:27:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2060/10186 [1:23:07<5:27:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2060/10186 [1:23:07<5:27:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2061/10186 [1:23:08<5:27:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2061/10186 [1:23:08<5:27:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2062/10186 [1:23:09<5:27:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2062/10186 [1:23:09<5:27:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2063/10186 [1:23:10<5:27:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2063/10186 [1:23:10<5:27:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2064/10186 [1:23:16<5:27:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2064/10186 [1:23:16<5:27:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2065/10186 [1:23:18<5:27:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2065/10186 [1:23:18<5:27:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2066/10186 [1:23:19<5:27:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2066/10186 [1:23:19<5:27:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2067/10186 [1:23:20<5:27:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2067/10186 [1:23:20<5:27:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2068/10186 [1:23:26<5:27:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2068/10186 [1:23:26<5:27:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2069/10186 [1:23:27<5:27:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2069/10186 [1:23:27<5:27:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2070/10186 [1:23:28<5:27:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2070/10186 [1:23:28<5:27:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2071/10186 [1:23:29<5:27:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2071/10186 [1:23:29<5:27:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2072/10186 [1:23:36<5:27:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2072/10186 [1:23:36<5:27:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2073/10186 [1:23:37<5:27:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2073/10186 [1:23:37<5:27:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2074/10186 [1:23:38<5:27:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2074/10186 [1:23:38<5:27:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2075/10186 [1:23:39<5:26:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2075/10186 [1:23:39<5:26:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2076/10186 [1:23:45<5:27:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2076/10186 [1:23:45<5:27:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2077/10186 [1:23:46<5:27:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2077/10186 [1:23:46<5:27:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2078/10186 [1:23:47<5:26:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2078/10186 [1:23:47<5:26:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2079/10186 [1:23:48<5:26:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2079/10186 [1:23:48<5:26:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2080/10186 [1:23:55<5:27:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2080/10186 [1:23:55<5:27:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2081/10186 [1:23:56<5:26:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2081/10186 [1:23:56<5:26:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2082/10186 [1:23:57<5:26:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2082/10186 [1:23:57<5:26:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2083/10186 [1:23:58<5:26:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2083/10186 [1:23:58<5:26:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2084/10186 [1:24:04<5:26:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2084/10186 [1:24:04<5:26:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2085/10186 [1:24:05<5:26:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2085/10186 [1:24:05<5:26:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2086/10186 [1:24:06<5:26:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2086/10186 [1:24:06<5:26:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2087/10186 [1:24:08<5:26:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2087/10186 [1:24:08<5:26:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 2088/10186 [1:24:14<5:26:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  20%|▏| 2088/10186 [1:24:14<5:26:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2089/10186 [1:24:15<5:26:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2089/10186 [1:24:15<5:26:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2090/10186 [1:24:16<5:26:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2090/10186 [1:24:16<5:26:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2091/10186 [1:24:17<5:26:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2091/10186 [1:24:17<5:26:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2092/10186 [1:24:24<5:26:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2092/10186 [1:24:24<5:26:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2093/10186 [1:24:25<5:26:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2093/10186 [1:24:25<5:26:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2094/10186 [1:24:26<5:26:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2094/10186 [1:24:26<5:26:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2095/10186 [1:24:27<5:26:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2095/10186 [1:24:27<5:26:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2096/10186 [1:24:33<5:26:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2096/10186 [1:24:33<5:26:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2097/10186 [1:24:34<5:26:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2097/10186 [1:24:34<5:26:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2098/10186 [1:24:35<5:26:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2098/10186 [1:24:35<5:26:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2099/10186 [1:24:36<5:25:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2099/10186 [1:24:36<5:25:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2100/10186 [1:24:43<5:26:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2100/10186 [1:24:43<5:26:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2101/10186 [1:24:44<5:26:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2101/10186 [1:24:44<5:26:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2102/10186 [1:24:45<5:25:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2102/10186 [1:24:45<5:25:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2103/10186 [1:24:46<5:25:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2103/10186 [1:24:46<5:25:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2104/10186 [1:24:52<5:26:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2104/10186 [1:24:52<5:26:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2105/10186 [1:24:53<5:25:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2105/10186 [1:24:53<5:25:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2106/10186 [1:24:54<5:25:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2106/10186 [1:24:54<5:25:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2107/10186 [1:24:55<5:25:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2107/10186 [1:24:55<5:25:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2108/10186 [1:25:02<5:25:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2108/10186 [1:25:02<5:25:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2109/10186 [1:25:03<5:25:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2109/10186 [1:25:03<5:25:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2110/10186 [1:25:04<5:25:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2110/10186 [1:25:04<5:25:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2111/10186 [1:25:05<5:25:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2111/10186 [1:25:05<5:25:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2112/10186 [1:25:11<5:25:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2112/10186 [1:25:11<5:25:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2113/10186 [1:25:12<5:25:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2113/10186 [1:25:12<5:25:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2114/10186 [1:25:14<5:25:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2114/10186 [1:25:14<5:25:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2115/10186 [1:25:15<5:25:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2115/10186 [1:25:15<5:25:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2116/10186 [1:25:21<5:25:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2116/10186 [1:25:21<5:25:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2117/10186 [1:25:22<5:25:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2117/10186 [1:25:22<5:25:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2118/10186 [1:25:23<5:25:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2118/10186 [1:25:23<5:25:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2119/10186 [1:25:24<5:25:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2119/10186 [1:25:24<5:25:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2120/10186 [1:25:31<5:25:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2120/10186 [1:25:31<5:25:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2121/10186 [1:25:32<5:25:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2121/10186 [1:25:32<5:25:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2122/10186 [1:25:33<5:25:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2122/10186 [1:25:33<5:25:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2123/10186 [1:25:34<5:24:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2123/10186 [1:25:34<5:24:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2124/10186 [1:25:40<5:25:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2124/10186 [1:25:40<5:25:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2125/10186 [1:25:41<5:25:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2125/10186 [1:25:41<5:25:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2126/10186 [1:25:42<5:24:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2126/10186 [1:25:42<5:24:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2127/10186 [1:25:43<5:24:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2127/10186 [1:25:43<5:24:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2128/10186 [1:25:50<5:25:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2128/10186 [1:25:50<5:25:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2129/10186 [1:25:51<5:24:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2129/10186 [1:25:51<5:24:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2130/10186 [1:25:52<5:24:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2130/10186 [1:25:52<5:24:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2131/10186 [1:25:53<5:24:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2131/10186 [1:25:53<5:24:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2132/10186 [1:25:59<5:24:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2132/10186 [1:25:59<5:24:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2133/10186 [1:26:00<5:24:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2133/10186 [1:26:00<5:24:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2134/10186 [1:26:01<5:24:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2134/10186 [1:26:01<5:24:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2135/10186 [1:26:02<5:24:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2135/10186 [1:26:02<5:24:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2136/10186 [1:26:09<5:24:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2136/10186 [1:26:09<5:24:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2137/10186 [1:26:10<5:24:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2137/10186 [1:26:10<5:24:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2138/10186 [1:26:11<5:24:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2138/10186 [1:26:11<5:24:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2139/10186 [1:26:12<5:24:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2139/10186 [1:26:12<5:24:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2140/10186 [1:26:19<5:24:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2140/10186 [1:26:19<5:24:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2141/10186 [1:26:20<5:24:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2141/10186 [1:26:20<5:24:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2142/10186 [1:26:21<5:24:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2142/10186 [1:26:21<5:24:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2143/10186 [1:26:22<5:24:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2143/10186 [1:26:22<5:24:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2144/10186 [1:26:28<5:24:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2144/10186 [1:26:28<5:24:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2145/10186 [1:26:29<5:24:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2145/10186 [1:26:29<5:24:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2146/10186 [1:26:30<5:24:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2146/10186 [1:26:30<5:24:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2147/10186 [1:26:31<5:23:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2147/10186 [1:26:31<5:23:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2148/10186 [1:26:38<5:24:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2148/10186 [1:26:38<5:24:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2149/10186 [1:26:39<5:24:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2149/10186 [1:26:39<5:24:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2150/10186 [1:26:40<5:23:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2150/10186 [1:26:40<5:23:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2151/10186 [1:26:41<5:23:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2151/10186 [1:26:41<5:23:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2152/10186 [1:26:47<5:24:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2152/10186 [1:26:47<5:24:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2153/10186 [1:26:48<5:23:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2153/10186 [1:26:48<5:23:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2154/10186 [1:26:49<5:23:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2154/10186 [1:26:49<5:23:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2155/10186 [1:26:50<5:23:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2155/10186 [1:26:50<5:23:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2156/10186 [1:26:57<5:23:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2156/10186 [1:26:57<5:23:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2157/10186 [1:26:58<5:23:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2157/10186 [1:26:58<5:23:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2158/10186 [1:26:59<5:23:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2158/10186 [1:26:59<5:23:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2159/10186 [1:27:00<5:23:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2159/10186 [1:27:00<5:23:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2160/10186 [1:27:06<5:23:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2160/10186 [1:27:06<5:23:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2161/10186 [1:27:08<5:23:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2161/10186 [1:27:08<5:23:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2162/10186 [1:27:09<5:23:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2162/10186 [1:27:09<5:23:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2163/10186 [1:27:10<5:23:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2163/10186 [1:27:10<5:23:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2164/10186 [1:27:16<5:23:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2164/10186 [1:27:16<5:23:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2165/10186 [1:27:17<5:23:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2165/10186 [1:27:17<5:23:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2166/10186 [1:27:18<5:23:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2166/10186 [1:27:18<5:23:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2167/10186 [1:27:19<5:23:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2167/10186 [1:27:19<5:23:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2168/10186 [1:27:26<5:23:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2168/10186 [1:27:26<5:23:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2169/10186 [1:27:27<5:23:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2169/10186 [1:27:27<5:23:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2170/10186 [1:27:28<5:23:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2170/10186 [1:27:28<5:23:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2171/10186 [1:27:29<5:22:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2171/10186 [1:27:29<5:22:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2172/10186 [1:27:35<5:23:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2172/10186 [1:27:35<5:23:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2173/10186 [1:27:36<5:23:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2173/10186 [1:27:36<5:23:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2174/10186 [1:27:37<5:22:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2174/10186 [1:27:37<5:22:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2175/10186 [1:27:38<5:22:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2175/10186 [1:27:38<5:22:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2176/10186 [1:27:45<5:23:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2176/10186 [1:27:45<5:23:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2177/10186 [1:27:46<5:22:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2177/10186 [1:27:46<5:22:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2178/10186 [1:27:47<5:22:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2178/10186 [1:27:47<5:22:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2179/10186 [1:27:48<5:22:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2179/10186 [1:27:48<5:22:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2180/10186 [1:27:54<5:22:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2180/10186 [1:27:54<5:22:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2181/10186 [1:27:55<5:22:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2181/10186 [1:27:55<5:22:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2182/10186 [1:27:56<5:22:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2182/10186 [1:27:56<5:22:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2183/10186 [1:27:58<5:22:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2183/10186 [1:27:58<5:22:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2184/10186 [1:28:04<5:22:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2184/10186 [1:28:04<5:22:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2185/10186 [1:28:05<5:22:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2185/10186 [1:28:05<5:22:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2186/10186 [1:28:06<5:22:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2186/10186 [1:28:06<5:22:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2187/10186 [1:28:07<5:22:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2187/10186 [1:28:07<5:22:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2188/10186 [1:28:14<5:22:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2188/10186 [1:28:14<5:22:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 2189/10186 [1:28:15<5:22:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  21%|▏| 2189/10186 [1:28:15<5:22:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2190/10186 [1:28:16<5:22:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2190/10186 [1:28:16<5:22:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2191/10186 [1:28:17<5:22:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2191/10186 [1:28:17<5:22:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2192/10186 [1:28:23<5:22:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2192/10186 [1:28:23<5:22:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2193/10186 [1:28:24<5:22:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2193/10186 [1:28:24<5:22:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2194/10186 [1:28:25<5:22:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2194/10186 [1:28:25<5:22:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2195/10186 [1:28:26<5:21:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2195/10186 [1:28:26<5:21:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2196/10186 [1:28:33<5:22:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2196/10186 [1:28:33<5:22:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2197/10186 [1:28:34<5:22:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2197/10186 [1:28:34<5:22:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2198/10186 [1:28:35<5:21:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2198/10186 [1:28:35<5:21:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2199/10186 [1:28:36<5:21:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2199/10186 [1:28:36<5:21:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2200/10186 [1:28:42<5:22:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2200/10186 [1:28:42<5:22:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2201/10186 [1:28:43<5:21:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2201/10186 [1:28:43<5:21:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2202/10186 [1:28:44<5:21:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2202/10186 [1:28:44<5:21:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2203/10186 [1:28:45<5:21:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2203/10186 [1:28:45<5:21:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2204/10186 [1:28:52<5:21:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2204/10186 [1:28:52<5:21:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2205/10186 [1:28:53<5:21:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2205/10186 [1:28:53<5:21:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2206/10186 [1:28:54<5:21:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2206/10186 [1:28:54<5:21:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2207/10186 [1:28:55<5:21:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2207/10186 [1:28:55<5:21:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2208/10186 [1:29:01<5:21:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2208/10186 [1:29:01<5:21:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2209/10186 [1:29:03<5:21:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2209/10186 [1:29:03<5:21:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2210/10186 [1:29:04<5:21:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2210/10186 [1:29:04<5:21:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2211/10186 [1:29:05<5:21:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2211/10186 [1:29:05<5:21:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2212/10186 [1:29:11<5:21:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2212/10186 [1:29:11<5:21:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2213/10186 [1:29:12<5:21:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2213/10186 [1:29:12<5:21:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2214/10186 [1:29:13<5:21:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2214/10186 [1:29:13<5:21:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2215/10186 [1:29:14<5:21:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2215/10186 [1:29:14<5:21:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2216/10186 [1:29:21<5:21:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2216/10186 [1:29:21<5:21:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2217/10186 [1:29:22<5:21:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2217/10186 [1:29:22<5:21:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2218/10186 [1:29:23<5:21:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2218/10186 [1:29:23<5:21:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2219/10186 [1:29:24<5:20:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2219/10186 [1:29:24<5:20:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2220/10186 [1:29:30<5:21:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2220/10186 [1:29:30<5:21:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2221/10186 [1:29:31<5:21:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2221/10186 [1:29:31<5:21:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2222/10186 [1:29:32<5:20:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2222/10186 [1:29:32<5:20:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2223/10186 [1:29:33<5:20:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2223/10186 [1:29:33<5:20:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2224/10186 [1:29:40<5:21:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2224/10186 [1:29:40<5:21:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2225/10186 [1:29:41<5:20:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2225/10186 [1:29:41<5:20:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2226/10186 [1:29:42<5:20:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2226/10186 [1:29:42<5:20:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2227/10186 [1:29:43<5:20:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2227/10186 [1:29:43<5:20:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2228/10186 [1:29:49<5:20:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2228/10186 [1:29:49<5:20:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2229/10186 [1:29:50<5:20:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2229/10186 [1:29:50<5:20:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2230/10186 [1:29:51<5:20:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2230/10186 [1:29:51<5:20:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2231/10186 [1:29:53<5:20:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2231/10186 [1:29:53<5:20:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2232/10186 [1:29:59<5:20:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2232/10186 [1:29:59<5:20:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2233/10186 [1:30:00<5:20:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2233/10186 [1:30:00<5:20:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2234/10186 [1:30:01<5:20:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2234/10186 [1:30:01<5:20:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2235/10186 [1:30:02<5:20:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2235/10186 [1:30:02<5:20:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2236/10186 [1:30:09<5:20:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2236/10186 [1:30:09<5:20:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2237/10186 [1:30:10<5:20:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2237/10186 [1:30:10<5:20:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2238/10186 [1:30:11<5:20:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2238/10186 [1:30:11<5:20:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2239/10186 [1:30:12<5:20:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2239/10186 [1:30:12<5:20:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2240/10186 [1:30:18<5:20:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2240/10186 [1:30:18<5:20:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2241/10186 [1:30:19<5:20:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2241/10186 [1:30:19<5:20:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2242/10186 [1:30:20<5:20:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2242/10186 [1:30:20<5:20:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2243/10186 [1:30:21<5:19:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2243/10186 [1:30:21<5:19:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2244/10186 [1:30:28<5:20:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2244/10186 [1:30:28<5:20:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2245/10186 [1:30:29<5:20:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2245/10186 [1:30:29<5:20:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2246/10186 [1:30:30<5:19:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2246/10186 [1:30:30<5:19:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2247/10186 [1:30:31<5:19:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2247/10186 [1:30:31<5:19:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2248/10186 [1:30:37<5:20:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2248/10186 [1:30:37<5:20:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2249/10186 [1:30:38<5:19:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2249/10186 [1:30:38<5:19:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2250/10186 [1:30:39<5:19:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2250/10186 [1:30:39<5:19:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2251/10186 [1:30:40<5:19:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2251/10186 [1:30:40<5:19:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2252/10186 [1:30:47<5:19:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2252/10186 [1:30:47<5:19:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2253/10186 [1:30:48<5:19:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2253/10186 [1:30:48<5:19:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2254/10186 [1:30:49<5:19:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2254/10186 [1:30:49<5:19:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2255/10186 [1:30:50<5:19:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2255/10186 [1:30:50<5:19:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2256/10186 [1:30:56<5:19:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2256/10186 [1:30:56<5:19:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2257/10186 [1:30:58<5:19:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2257/10186 [1:30:58<5:19:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2258/10186 [1:30:59<5:19:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2258/10186 [1:30:59<5:19:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2259/10186 [1:31:00<5:19:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2259/10186 [1:31:00<5:19:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2260/10186 [1:31:06<5:19:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2260/10186 [1:31:06<5:19:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2261/10186 [1:31:07<5:19:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2261/10186 [1:31:07<5:19:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2262/10186 [1:31:08<5:19:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2262/10186 [1:31:08<5:19:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2263/10186 [1:31:09<5:19:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2263/10186 [1:31:09<5:19:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2264/10186 [1:31:16<5:19:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2264/10186 [1:31:16<5:19:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2265/10186 [1:31:17<5:19:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2265/10186 [1:31:17<5:19:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2266/10186 [1:31:18<5:19:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2266/10186 [1:31:18<5:19:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2267/10186 [1:31:19<5:18:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2267/10186 [1:31:19<5:18:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2268/10186 [1:31:25<5:19:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2268/10186 [1:31:25<5:19:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2269/10186 [1:31:26<5:19:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2269/10186 [1:31:26<5:19:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2270/10186 [1:31:27<5:18:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2270/10186 [1:31:27<5:18:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2271/10186 [1:31:28<5:18:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2271/10186 [1:31:28<5:18:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2272/10186 [1:31:35<5:19:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2272/10186 [1:31:35<5:19:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2273/10186 [1:31:36<5:18:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2273/10186 [1:31:36<5:18:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2274/10186 [1:31:37<5:18:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2274/10186 [1:31:37<5:18:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2275/10186 [1:31:38<5:18:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2275/10186 [1:31:38<5:18:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2276/10186 [1:31:44<5:18:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2276/10186 [1:31:44<5:18:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2277/10186 [1:31:45<5:18:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2277/10186 [1:31:45<5:18:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2278/10186 [1:31:46<5:18:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2278/10186 [1:31:46<5:18:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2279/10186 [1:31:48<5:18:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2279/10186 [1:31:48<5:18:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2280/10186 [1:31:54<5:18:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2280/10186 [1:31:54<5:18:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2281/10186 [1:31:55<5:18:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2281/10186 [1:31:55<5:18:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2282/10186 [1:31:56<5:18:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2282/10186 [1:31:56<5:18:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2283/10186 [1:31:57<5:18:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2283/10186 [1:31:57<5:18:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2284/10186 [1:32:04<5:18:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2284/10186 [1:32:04<5:18:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2285/10186 [1:32:05<5:18:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2285/10186 [1:32:05<5:18:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2286/10186 [1:32:06<5:18:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2286/10186 [1:32:06<5:18:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2287/10186 [1:32:07<5:18:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2287/10186 [1:32:07<5:18:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2288/10186 [1:32:13<5:18:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2288/10186 [1:32:13<5:18:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2289/10186 [1:32:14<5:18:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2289/10186 [1:32:14<5:18:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2290/10186 [1:32:15<5:18:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2290/10186 [1:32:15<5:18:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 2291/10186 [1:32:16<5:18:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  22%|▏| 2291/10186 [1:32:16<5:18:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2292/10186 [1:32:23<5:18:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2292/10186 [1:32:23<5:18:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2293/10186 [1:32:24<5:18:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2293/10186 [1:32:24<5:18:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2294/10186 [1:32:25<5:17:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2294/10186 [1:32:25<5:17:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2295/10186 [1:32:26<5:17:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2295/10186 [1:32:26<5:17:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2296/10186 [1:32:32<5:18:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2296/10186 [1:32:32<5:18:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2297/10186 [1:32:33<5:17:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2297/10186 [1:32:33<5:17:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2298/10186 [1:32:34<5:17:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2298/10186 [1:32:34<5:17:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2299/10186 [1:32:35<5:17:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2299/10186 [1:32:35<5:17:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2300/10186 [1:32:42<5:17:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2300/10186 [1:32:42<5:17:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2301/10186 [1:32:43<5:17:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2301/10186 [1:32:43<5:17:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2302/10186 [1:32:44<5:17:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2302/10186 [1:32:44<5:17:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2303/10186 [1:32:45<5:17:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2303/10186 [1:32:45<5:17:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2304/10186 [1:32:52<5:17:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2304/10186 [1:32:52<5:17:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2305/10186 [1:32:53<5:17:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2305/10186 [1:32:53<5:17:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2306/10186 [1:32:54<5:17:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2306/10186 [1:32:54<5:17:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2307/10186 [1:32:55<5:17:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2307/10186 [1:32:55<5:17:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2308/10186 [1:33:01<5:17:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2308/10186 [1:33:01<5:17:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2309/10186 [1:33:02<5:17:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2309/10186 [1:33:02<5:17:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2310/10186 [1:33:03<5:17:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2310/10186 [1:33:03<5:17:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2311/10186 [1:33:04<5:17:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2311/10186 [1:33:04<5:17:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2312/10186 [1:33:11<5:17:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2312/10186 [1:33:11<5:17:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2313/10186 [1:33:12<5:17:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2313/10186 [1:33:12<5:17:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2314/10186 [1:33:13<5:17:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2314/10186 [1:33:13<5:17:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2315/10186 [1:33:14<5:17:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2315/10186 [1:33:14<5:17:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2316/10186 [1:33:20<5:17:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2316/10186 [1:33:20<5:17:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2317/10186 [1:33:21<5:17:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2317/10186 [1:33:21<5:17:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2318/10186 [1:33:22<5:16:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2318/10186 [1:33:22<5:16:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2319/10186 [1:33:23<5:16:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2319/10186 [1:33:23<5:16:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2320/10186 [1:33:30<5:17:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2320/10186 [1:33:30<5:17:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2321/10186 [1:33:31<5:16:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2321/10186 [1:33:31<5:16:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2322/10186 [1:33:32<5:16:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2322/10186 [1:33:32<5:16:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2323/10186 [1:33:33<5:16:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2323/10186 [1:33:33<5:16:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2324/10186 [1:33:39<5:16:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2324/10186 [1:33:39<5:16:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2325/10186 [1:33:40<5:16:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2325/10186 [1:33:40<5:16:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2326/10186 [1:33:42<5:16:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2326/10186 [1:33:42<5:16:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2327/10186 [1:33:43<5:16:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2327/10186 [1:33:43<5:16:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2328/10186 [1:33:49<5:16:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2328/10186 [1:33:49<5:16:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2329/10186 [1:33:50<5:16:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2329/10186 [1:33:50<5:16:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2330/10186 [1:33:51<5:16:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2330/10186 [1:33:51<5:16:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2331/10186 [1:33:52<5:16:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2331/10186 [1:33:52<5:16:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2332/10186 [1:33:59<5:16:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2332/10186 [1:33:59<5:16:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2333/10186 [1:34:00<5:16:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2333/10186 [1:34:00<5:16:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2334/10186 [1:34:01<5:16:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2334/10186 [1:34:01<5:16:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2335/10186 [1:34:02<5:16:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2335/10186 [1:34:02<5:16:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2336/10186 [1:34:08<5:16:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2336/10186 [1:34:08<5:16:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2337/10186 [1:34:09<5:16:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2337/10186 [1:34:09<5:16:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2338/10186 [1:34:10<5:16:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2338/10186 [1:34:10<5:16:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2339/10186 [1:34:11<5:16:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2339/10186 [1:34:11<5:16:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2340/10186 [1:34:18<5:16:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2340/10186 [1:34:18<5:16:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2341/10186 [1:34:19<5:16:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2341/10186 [1:34:19<5:16:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2342/10186 [1:34:20<5:15:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2342/10186 [1:34:20<5:15:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2343/10186 [1:34:21<5:15:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2343/10186 [1:34:21<5:15:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2344/10186 [1:34:27<5:16:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2344/10186 [1:34:27<5:16:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2345/10186 [1:34:28<5:15:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2345/10186 [1:34:28<5:15:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2346/10186 [1:34:29<5:15:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2346/10186 [1:34:29<5:15:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2347/10186 [1:34:31<5:15:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2347/10186 [1:34:31<5:15:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2348/10186 [1:34:37<5:15:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2348/10186 [1:34:37<5:15:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2349/10186 [1:34:38<5:15:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2349/10186 [1:34:38<5:15:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2350/10186 [1:34:39<5:15:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2350/10186 [1:34:39<5:15:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2351/10186 [1:34:40<5:15:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2351/10186 [1:34:40<5:15:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2352/10186 [1:34:47<5:15:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2352/10186 [1:34:47<5:15:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2353/10186 [1:34:48<5:15:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2353/10186 [1:34:48<5:15:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2354/10186 [1:34:49<5:15:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2354/10186 [1:34:49<5:15:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2355/10186 [1:34:50<5:15:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2355/10186 [1:34:50<5:15:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2356/10186 [1:34:56<5:15:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2356/10186 [1:34:56<5:15:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2357/10186 [1:34:57<5:15:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2357/10186 [1:34:57<5:15:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2358/10186 [1:34:58<5:15:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2358/10186 [1:34:58<5:15:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2359/10186 [1:34:59<5:15:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2359/10186 [1:34:59<5:15:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2360/10186 [1:35:06<5:15:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2360/10186 [1:35:06<5:15:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2361/10186 [1:35:07<5:15:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2361/10186 [1:35:07<5:15:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2362/10186 [1:35:08<5:15:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2362/10186 [1:35:08<5:15:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2363/10186 [1:35:09<5:15:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2363/10186 [1:35:09<5:15:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2364/10186 [1:35:15<5:15:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2364/10186 [1:35:15<5:15:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2365/10186 [1:35:16<5:15:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2365/10186 [1:35:16<5:15:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2366/10186 [1:35:17<5:14:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2366/10186 [1:35:17<5:14:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2367/10186 [1:35:18<5:14:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2367/10186 [1:35:18<5:14:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2368/10186 [1:35:25<5:15:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2368/10186 [1:35:25<5:15:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2369/10186 [1:35:26<5:14:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2369/10186 [1:35:26<5:14:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2370/10186 [1:35:27<5:14:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2370/10186 [1:35:27<5:14:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2371/10186 [1:35:28<5:14:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2371/10186 [1:35:28<5:14:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2372/10186 [1:35:34<5:14:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2372/10186 [1:35:34<5:14:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2373/10186 [1:35:36<5:14:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2373/10186 [1:35:36<5:14:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2374/10186 [1:35:37<5:14:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2374/10186 [1:35:37<5:14:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2375/10186 [1:35:38<5:14:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2375/10186 [1:35:38<5:14:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2376/10186 [1:35:44<5:14:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2376/10186 [1:35:44<5:14:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2377/10186 [1:35:45<5:14:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2377/10186 [1:35:45<5:14:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2378/10186 [1:35:46<5:14:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2378/10186 [1:35:46<5:14:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2379/10186 [1:35:47<5:14:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2379/10186 [1:35:47<5:14:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2380/10186 [1:35:54<5:14:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2380/10186 [1:35:54<5:14:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2381/10186 [1:35:55<5:14:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2381/10186 [1:35:55<5:14:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2382/10186 [1:35:56<5:14:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2382/10186 [1:35:56<5:14:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2383/10186 [1:35:57<5:14:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2383/10186 [1:35:57<5:14:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2384/10186 [1:36:03<5:14:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2384/10186 [1:36:03<5:14:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2385/10186 [1:36:04<5:14:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2385/10186 [1:36:04<5:14:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2386/10186 [1:36:05<5:14:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2386/10186 [1:36:05<5:14:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2387/10186 [1:36:06<5:14:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2387/10186 [1:36:06<5:14:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2388/10186 [1:36:13<5:14:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2388/10186 [1:36:13<5:14:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2389/10186 [1:36:14<5:14:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2389/10186 [1:36:14<5:14:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2390/10186 [1:36:15<5:13:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2390/10186 [1:36:15<5:13:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2391/10186 [1:36:16<5:13:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2391/10186 [1:36:16<5:13:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2392/10186 [1:36:22<5:14:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2392/10186 [1:36:22<5:14:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 2393/10186 [1:36:23<5:13:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  23%|▏| 2393/10186 [1:36:23<5:13:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2394/10186 [1:36:25<5:13:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2394/10186 [1:36:25<5:13:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2395/10186 [1:36:26<5:13:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2395/10186 [1:36:26<5:13:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2396/10186 [1:36:32<5:13:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2396/10186 [1:36:32<5:13:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2397/10186 [1:36:33<5:13:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2397/10186 [1:36:33<5:13:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2398/10186 [1:36:34<5:13:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2398/10186 [1:36:34<5:13:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2399/10186 [1:36:35<5:13:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2399/10186 [1:36:35<5:13:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2400/10186 [1:36:42<5:13:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2400/10186 [1:36:42<5:13:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2401/10186 [1:36:43<5:13:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2401/10186 [1:36:43<5:13:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2402/10186 [1:36:44<5:13:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2402/10186 [1:36:44<5:13:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2403/10186 [1:36:45<5:13:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2403/10186 [1:36:45<5:13:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2404/10186 [1:36:51<5:13:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2404/10186 [1:36:51<5:13:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2405/10186 [1:36:52<5:13:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2405/10186 [1:36:52<5:13:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2406/10186 [1:36:53<5:13:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2406/10186 [1:36:53<5:13:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2407/10186 [1:36:54<5:13:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2407/10186 [1:36:54<5:13:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2408/10186 [1:37:01<5:13:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2408/10186 [1:37:01<5:13:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2409/10186 [1:37:02<5:13:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2409/10186 [1:37:02<5:13:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2410/10186 [1:37:03<5:13:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2410/10186 [1:37:03<5:13:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2411/10186 [1:37:04<5:13:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2411/10186 [1:37:04<5:13:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2412/10186 [1:37:10<5:13:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2412/10186 [1:37:10<5:13:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2413/10186 [1:37:11<5:13:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2413/10186 [1:37:11<5:13:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2414/10186 [1:37:12<5:12:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2414/10186 [1:37:12<5:12:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2415/10186 [1:37:14<5:12:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2415/10186 [1:37:14<5:12:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2416/10186 [1:37:20<5:13:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2416/10186 [1:37:20<5:13:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2417/10186 [1:37:21<5:12:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2417/10186 [1:37:21<5:12:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2418/10186 [1:37:22<5:12:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2418/10186 [1:37:22<5:12:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2419/10186 [1:37:23<5:12:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2419/10186 [1:37:23<5:12:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2420/10186 [1:37:30<5:12:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2420/10186 [1:37:30<5:12:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2421/10186 [1:37:31<5:12:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2421/10186 [1:37:31<5:12:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2422/10186 [1:37:32<5:12:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2422/10186 [1:37:32<5:12:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2423/10186 [1:37:33<5:12:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2423/10186 [1:37:33<5:12:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2424/10186 [1:37:39<5:12:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2424/10186 [1:37:39<5:12:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2425/10186 [1:37:40<5:12:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2425/10186 [1:37:40<5:12:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2426/10186 [1:37:41<5:12:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2426/10186 [1:37:41<5:12:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2427/10186 [1:37:42<5:12:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2427/10186 [1:37:42<5:12:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2428/10186 [1:37:49<5:12:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2428/10186 [1:37:49<5:12:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2429/10186 [1:37:50<5:12:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2429/10186 [1:37:50<5:12:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2430/10186 [1:37:51<5:12:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2430/10186 [1:37:51<5:12:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2431/10186 [1:37:52<5:12:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2431/10186 [1:37:52<5:12:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2432/10186 [1:37:58<5:12:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2432/10186 [1:37:58<5:12:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2433/10186 [1:37:59<5:12:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2433/10186 [1:37:59<5:12:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2434/10186 [1:38:00<5:12:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2434/10186 [1:38:00<5:12:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2435/10186 [1:38:01<5:12:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2435/10186 [1:38:01<5:12:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2436/10186 [1:38:08<5:12:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2436/10186 [1:38:08<5:12:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2437/10186 [1:38:09<5:12:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2437/10186 [1:38:09<5:12:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2438/10186 [1:38:10<5:12:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2438/10186 [1:38:10<5:12:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2439/10186 [1:38:11<5:11:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2439/10186 [1:38:11<5:11:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2440/10186 [1:38:17<5:12:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2440/10186 [1:38:17<5:12:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2441/10186 [1:38:19<5:11:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2441/10186 [1:38:19<5:11:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2442/10186 [1:38:20<5:11:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2442/10186 [1:38:20<5:11:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2443/10186 [1:38:21<5:11:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2443/10186 [1:38:21<5:11:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2444/10186 [1:38:27<5:11:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2444/10186 [1:38:27<5:11:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2445/10186 [1:38:28<5:11:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2445/10186 [1:38:28<5:11:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2446/10186 [1:38:29<5:11:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2446/10186 [1:38:29<5:11:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2447/10186 [1:38:30<5:11:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2447/10186 [1:38:30<5:11:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2448/10186 [1:38:37<5:11:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2448/10186 [1:38:37<5:11:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2449/10186 [1:38:38<5:11:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2449/10186 [1:38:38<5:11:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2450/10186 [1:38:39<5:11:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2450/10186 [1:38:39<5:11:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2451/10186 [1:38:40<5:11:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2451/10186 [1:38:40<5:11:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2452/10186 [1:38:46<5:11:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2452/10186 [1:38:46<5:11:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2453/10186 [1:38:47<5:11:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2453/10186 [1:38:47<5:11:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2454/10186 [1:38:48<5:11:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2454/10186 [1:38:48<5:11:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2455/10186 [1:38:49<5:11:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2455/10186 [1:38:49<5:11:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2456/10186 [1:38:56<5:11:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2456/10186 [1:38:56<5:11:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2457/10186 [1:38:57<5:11:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2457/10186 [1:38:57<5:11:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2458/10186 [1:38:58<5:11:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2458/10186 [1:38:58<5:11:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2459/10186 [1:38:59<5:11:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2459/10186 [1:38:59<5:11:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2460/10186 [1:39:05<5:11:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2460/10186 [1:39:05<5:11:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2461/10186 [1:39:06<5:11:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2461/10186 [1:39:06<5:11:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2462/10186 [1:39:08<5:11:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2462/10186 [1:39:08<5:11:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2463/10186 [1:39:09<5:10:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2463/10186 [1:39:09<5:10:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2464/10186 [1:39:15<5:11:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2464/10186 [1:39:15<5:11:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2465/10186 [1:39:16<5:10:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2465/10186 [1:39:16<5:10:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2466/10186 [1:39:17<5:10:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2466/10186 [1:39:17<5:10:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2467/10186 [1:39:18<5:10:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2467/10186 [1:39:18<5:10:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2468/10186 [1:39:25<5:10:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2468/10186 [1:39:25<5:10:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2469/10186 [1:39:26<5:10:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2469/10186 [1:39:26<5:10:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2470/10186 [1:39:27<5:10:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2470/10186 [1:39:27<5:10:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2471/10186 [1:39:28<5:10:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2471/10186 [1:39:28<5:10:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2472/10186 [1:39:34<5:10:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2472/10186 [1:39:34<5:10:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2473/10186 [1:39:35<5:10:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2473/10186 [1:39:35<5:10:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2474/10186 [1:39:36<5:10:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2474/10186 [1:39:36<5:10:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2475/10186 [1:39:37<5:10:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2475/10186 [1:39:37<5:10:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2476/10186 [1:39:44<5:10:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2476/10186 [1:39:44<5:10:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2477/10186 [1:39:45<5:10:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2477/10186 [1:39:45<5:10:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2478/10186 [1:39:46<5:10:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2478/10186 [1:39:46<5:10:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2479/10186 [1:39:47<5:10:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2479/10186 [1:39:47<5:10:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2480/10186 [1:39:53<5:10:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2480/10186 [1:39:53<5:10:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2481/10186 [1:39:54<5:10:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2481/10186 [1:39:54<5:10:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2482/10186 [1:39:55<5:10:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2482/10186 [1:39:55<5:10:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2483/10186 [1:39:56<5:10:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2483/10186 [1:39:56<5:10:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2484/10186 [1:40:03<5:10:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2484/10186 [1:40:03<5:10:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2485/10186 [1:40:04<5:10:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2485/10186 [1:40:04<5:10:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2486/10186 [1:40:05<5:10:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2486/10186 [1:40:05<5:10:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2487/10186 [1:40:06<5:09:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2487/10186 [1:40:06<5:09:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2488/10186 [1:40:13<5:10:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2488/10186 [1:40:13<5:10:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2489/10186 [1:40:14<5:09:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2489/10186 [1:40:14<5:09:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2490/10186 [1:40:15<5:09:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2490/10186 [1:40:15<5:09:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2491/10186 [1:40:16<5:09:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2491/10186 [1:40:16<5:09:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2492/10186 [1:40:22<5:09:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2492/10186 [1:40:22<5:09:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2493/10186 [1:40:23<5:09:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2493/10186 [1:40:23<5:09:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2494/10186 [1:40:24<5:09:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2494/10186 [1:40:24<5:09:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 2495/10186 [1:40:25<5:09:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  24%|▏| 2495/10186 [1:40:25<5:09:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▏| 2496/10186 [1:40:32<5:09:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▏| 2496/10186 [1:40:32<5:09:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▏| 2497/10186 [1:40:33<5:09:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▏| 2497/10186 [1:40:33<5:09:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▏| 2498/10186 [1:40:34<5:09:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▏| 2498/10186 [1:40:34<5:09:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▏| 2499/10186 [1:40:35<5:09:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▏| 2499/10186 [1:40:35<5:09:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▏| 2500/10186 [1:40:41<5:09:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▏| 2500/10186 [1:40:41<5:09:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▏| 2501/10186 [1:40:42<5:09:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▏| 2501/10186 [1:40:42<5:09:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▏| 2502/10186 [1:40:43<5:09:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▏| 2502/10186 [1:40:43<5:09:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▏| 2503/10186 [1:40:44<5:09:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▏| 2503/10186 [1:40:44<5:09:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▏| 2504/10186 [1:40:51<5:09:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▏| 2504/10186 [1:40:51<5:09:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▏| 2505/10186 [1:40:52<5:09:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▏| 2505/10186 [1:40:52<5:09:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▏| 2506/10186 [1:40:53<5:09:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▏| 2506/10186 [1:40:53<5:09:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▏| 2507/10186 [1:40:54<5:09:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▏| 2507/10186 [1:40:54<5:09:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▏| 2508/10186 [1:41:00<5:09:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▏| 2508/10186 [1:41:00<5:09:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▏| 2509/10186 [1:41:01<5:09:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▏| 2509/10186 [1:41:01<5:09:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▏| 2510/10186 [1:41:03<5:09:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▏| 2510/10186 [1:41:03<5:09:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▏| 2511/10186 [1:41:04<5:08:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▏| 2511/10186 [1:41:04<5:08:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▏| 2512/10186 [1:41:10<5:09:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▏| 2512/10186 [1:41:10<5:09:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▏| 2513/10186 [1:41:11<5:08:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▏| 2513/10186 [1:41:11<5:08:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▏| 2514/10186 [1:41:12<5:08:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▏| 2514/10186 [1:41:12<5:08:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▏| 2515/10186 [1:41:13<5:08:45,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▏| 2515/10186 [1:41:13<5:08:45,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▏| 2516/10186 [1:41:20<5:08:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▏| 2516/10186 [1:41:20<5:08:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▏| 2517/10186 [1:41:21<5:08:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▏| 2517/10186 [1:41:21<5:08:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▏| 2518/10186 [1:41:22<5:08:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▏| 2518/10186 [1:41:22<5:08:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▏| 2519/10186 [1:41:23<5:08:35,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▏| 2519/10186 [1:41:23<5:08:35,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▏| 2520/10186 [1:41:29<5:08:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▏| 2520/10186 [1:41:29<5:08:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▏| 2521/10186 [1:41:30<5:08:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▏| 2521/10186 [1:41:30<5:08:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▏| 2522/10186 [1:41:31<5:08:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▏| 2522/10186 [1:41:31<5:08:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▏| 2523/10186 [1:41:32<5:08:25,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▏| 2523/10186 [1:41:32<5:08:25,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▏| 2524/10186 [1:41:39<5:08:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▏| 2524/10186 [1:41:39<5:08:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▏| 2525/10186 [1:41:40<5:08:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▏| 2525/10186 [1:41:40<5:08:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▏| 2526/10186 [1:41:41<5:08:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▏| 2526/10186 [1:41:41<5:08:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▏| 2527/10186 [1:41:42<5:08:15,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▏| 2527/10186 [1:41:42<5:08:15,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▏| 2528/10186 [1:41:48<5:08:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▏| 2528/10186 [1:41:48<5:08:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▏| 2529/10186 [1:41:49<5:08:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▏| 2529/10186 [1:41:49<5:08:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▏| 2530/10186 [1:41:50<5:08:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▏| 2530/10186 [1:41:50<5:08:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▏| 2531/10186 [1:41:52<5:08:05,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▏| 2531/10186 [1:41:52<5:08:05,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▏| 2532/10186 [1:41:58<5:08:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▏| 2532/10186 [1:41:58<5:08:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▏| 2533/10186 [1:41:59<5:08:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▏| 2533/10186 [1:41:59<5:08:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▏| 2534/10186 [1:42:00<5:08:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▏| 2534/10186 [1:42:00<5:08:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▏| 2535/10186 [1:42:01<5:07:55,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▏| 2535/10186 [1:42:01<5:07:55,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▏| 2536/10186 [1:42:08<5:08:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▏| 2536/10186 [1:42:08<5:08:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▏| 2537/10186 [1:42:09<5:07:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▏| 2537/10186 [1:42:09<5:07:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▏| 2538/10186 [1:42:10<5:07:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▏| 2538/10186 [1:42:10<5:07:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▏| 2539/10186 [1:42:11<5:07:45,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▏| 2539/10186 [1:42:11<5:07:45,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▏| 2540/10186 [1:42:17<5:07:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▏| 2540/10186 [1:42:17<5:07:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▏| 2541/10186 [1:42:18<5:07:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▏| 2541/10186 [1:42:18<5:07:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▏| 2542/10186 [1:42:19<5:07:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▏| 2542/10186 [1:42:19<5:07:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▏| 2543/10186 [1:42:20<5:07:36,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▏| 2543/10186 [1:42:20<5:07:36,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▏| 2544/10186 [1:42:27<5:07:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▏| 2544/10186 [1:42:27<5:07:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▏| 2545/10186 [1:42:28<5:07:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▏| 2545/10186 [1:42:28<5:07:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▏| 2546/10186 [1:42:29<5:07:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▏| 2546/10186 [1:42:29<5:07:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▎| 2547/10186 [1:42:30<5:07:26,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▎| 2547/10186 [1:42:30<5:07:26,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▎| 2548/10186 [1:42:36<5:07:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▎| 2548/10186 [1:42:36<5:07:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▎| 2549/10186 [1:42:37<5:07:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▎| 2549/10186 [1:42:37<5:07:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▎| 2550/10186 [1:42:38<5:07:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▎| 2550/10186 [1:42:38<5:07:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▎| 2551/10186 [1:42:39<5:07:16,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▎| 2551/10186 [1:42:39<5:07:16,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▎| 2552/10186 [1:42:46<5:07:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▎| 2552/10186 [1:42:46<5:07:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▎| 2553/10186 [1:42:47<5:07:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▎| 2553/10186 [1:42:47<5:07:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▎| 2554/10186 [1:42:48<5:07:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▎| 2554/10186 [1:42:48<5:07:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▎| 2555/10186 [1:42:49<5:07:06,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▎| 2555/10186 [1:42:49<5:07:06,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▎| 2556/10186 [1:42:55<5:07:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▎| 2556/10186 [1:42:55<5:07:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▎| 2557/10186 [1:42:57<5:07:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▎| 2557/10186 [1:42:57<5:07:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▎| 2558/10186 [1:42:58<5:07:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▎| 2558/10186 [1:42:58<5:07:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▎| 2559/10186 [1:42:59<5:06:56,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▎| 2559/10186 [1:42:59<5:06:56,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▎| 2560/10186 [1:43:05<5:07:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▎| 2560/10186 [1:43:05<5:07:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▎| 2561/10186 [1:43:06<5:06:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▎| 2561/10186 [1:43:06<5:06:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▎| 2562/10186 [1:43:07<5:06:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▎| 2562/10186 [1:43:07<5:06:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▎| 2563/10186 [1:43:08<5:06:46,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▎| 2563/10186 [1:43:08<5:06:46,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▎| 2564/10186 [1:43:15<5:06:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▎| 2564/10186 [1:43:15<5:06:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▎| 2565/10186 [1:43:16<5:06:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▎| 2565/10186 [1:43:16<5:06:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▎| 2566/10186 [1:43:17<5:06:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▎| 2566/10186 [1:43:17<5:06:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▎| 2567/10186 [1:43:18<5:06:36,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▎| 2567/10186 [1:43:18<5:06:36,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▎| 2568/10186 [1:43:24<5:06:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▎| 2568/10186 [1:43:24<5:06:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▎| 2569/10186 [1:43:25<5:06:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▎| 2569/10186 [1:43:25<5:06:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▎| 2570/10186 [1:43:26<5:06:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▎| 2570/10186 [1:43:26<5:06:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▎| 2571/10186 [1:43:27<5:06:26,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▎| 2571/10186 [1:43:27<5:06:26,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▎| 2572/10186 [1:43:34<5:06:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▎| 2572/10186 [1:43:34<5:06:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▎| 2573/10186 [1:43:35<5:06:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▎| 2573/10186 [1:43:35<5:06:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▎| 2574/10186 [1:43:36<5:06:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▎| 2574/10186 [1:43:36<5:06:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▎| 2575/10186 [1:43:37<5:06:17,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▎| 2575/10186 [1:43:37<5:06:17,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▎| 2576/10186 [1:43:43<5:06:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▎| 2576/10186 [1:43:43<5:06:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▎| 2577/10186 [1:43:44<5:06:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▎| 2577/10186 [1:43:44<5:06:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▎| 2578/10186 [1:43:45<5:06:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▎| 2578/10186 [1:43:45<5:06:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▎| 2579/10186 [1:43:47<5:06:07,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▎| 2579/10186 [1:43:47<5:06:07,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▎| 2580/10186 [1:43:53<5:06:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▎| 2580/10186 [1:43:53<5:06:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▎| 2581/10186 [1:43:54<5:06:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▎| 2581/10186 [1:43:54<5:06:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▎| 2582/10186 [1:43:55<5:06:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▎| 2582/10186 [1:43:55<5:06:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▎| 2583/10186 [1:43:56<5:05:57,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▎| 2583/10186 [1:43:56<5:05:57,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▎| 2584/10186 [1:44:03<5:06:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▎| 2584/10186 [1:44:03<5:06:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▎| 2585/10186 [1:44:04<5:06:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▎| 2585/10186 [1:44:04<5:06:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▎| 2586/10186 [1:44:05<5:05:53,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▎| 2586/10186 [1:44:05<5:05:53,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▎| 2587/10186 [1:44:06<5:05:47,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▎| 2587/10186 [1:44:06<5:05:47,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▎| 2588/10186 [1:44:12<5:05:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▎| 2588/10186 [1:44:12<5:05:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▎| 2589/10186 [1:44:13<5:05:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▎| 2589/10186 [1:44:13<5:05:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▎| 2590/10186 [1:44:14<5:05:44,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▎| 2590/10186 [1:44:14<5:05:44,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▎| 2591/10186 [1:44:15<5:05:37,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▎| 2591/10186 [1:44:15<5:05:37,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▎| 2592/10186 [1:44:22<5:05:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▎| 2592/10186 [1:44:22<5:05:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▎| 2593/10186 [1:44:23<5:05:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▎| 2593/10186 [1:44:23<5:05:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▎| 2594/10186 [1:44:24<5:05:34,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▎| 2594/10186 [1:44:24<5:05:34,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▎| 2595/10186 [1:44:25<5:05:27,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▎| 2595/10186 [1:44:25<5:05:27,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▎| 2596/10186 [1:44:31<5:05:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▎| 2596/10186 [1:44:31<5:05:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▎| 2597/10186 [1:44:32<5:05:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  25%|▎| 2597/10186 [1:44:32<5:05:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2598/10186 [1:44:33<5:05:24,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2598/10186 [1:44:33<5:05:24,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2599/10186 [1:44:34<5:05:17,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2599/10186 [1:44:34<5:05:17,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2600/10186 [1:44:41<5:05:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2600/10186 [1:44:41<5:05:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2601/10186 [1:44:42<5:05:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2601/10186 [1:44:42<5:05:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2602/10186 [1:44:43<5:05:14,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2602/10186 [1:44:43<5:05:14,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2603/10186 [1:44:44<5:05:07,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2603/10186 [1:44:44<5:05:07,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2604/10186 [1:44:50<5:05:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2604/10186 [1:44:50<5:05:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2605/10186 [1:44:51<5:05:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2605/10186 [1:44:51<5:05:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2606/10186 [1:44:53<5:05:04,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2606/10186 [1:44:53<5:05:04,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2607/10186 [1:44:54<5:04:57,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2607/10186 [1:44:54<5:04:57,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2608/10186 [1:45:00<5:05:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2608/10186 [1:45:00<5:05:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2609/10186 [1:45:01<5:05:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2609/10186 [1:45:01<5:05:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2610/10186 [1:45:02<5:04:54,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2610/10186 [1:45:02<5:04:54,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2611/10186 [1:45:03<5:04:48,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2611/10186 [1:45:03<5:04:48,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2612/10186 [1:45:10<5:04:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2612/10186 [1:45:10<5:04:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2613/10186 [1:45:11<5:04:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2613/10186 [1:45:11<5:04:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2614/10186 [1:45:12<5:04:44,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2614/10186 [1:45:12<5:04:44,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2615/10186 [1:45:13<5:04:38,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2615/10186 [1:45:13<5:04:38,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2616/10186 [1:45:19<5:04:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2616/10186 [1:45:19<5:04:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2617/10186 [1:45:20<5:04:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2617/10186 [1:45:20<5:04:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2618/10186 [1:45:21<5:04:34,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2618/10186 [1:45:21<5:04:34,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2619/10186 [1:45:22<5:04:28,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2619/10186 [1:45:22<5:04:28,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2620/10186 [1:45:29<5:04:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2620/10186 [1:45:29<5:04:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2621/10186 [1:45:30<5:04:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2621/10186 [1:45:30<5:04:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2622/10186 [1:45:31<5:04:24,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2622/10186 [1:45:31<5:04:24,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2623/10186 [1:45:32<5:04:18,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2623/10186 [1:45:32<5:04:18,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2624/10186 [1:45:38<5:04:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2624/10186 [1:45:38<5:04:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2625/10186 [1:45:39<5:04:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2625/10186 [1:45:39<5:04:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2626/10186 [1:45:40<5:04:14,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2626/10186 [1:45:40<5:04:14,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2627/10186 [1:45:41<5:04:08,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2627/10186 [1:45:41<5:04:08,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2628/10186 [1:45:48<5:04:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2628/10186 [1:45:48<5:04:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2629/10186 [1:45:49<5:04:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2629/10186 [1:45:49<5:04:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2630/10186 [1:45:50<5:04:05,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2630/10186 [1:45:50<5:04:05,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2631/10186 [1:45:51<5:03:58,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2631/10186 [1:45:51<5:03:58,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2632/10186 [1:45:58<5:04:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2632/10186 [1:45:58<5:04:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2633/10186 [1:45:59<5:04:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2633/10186 [1:45:59<5:04:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2634/10186 [1:46:00<5:03:55,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2634/10186 [1:46:00<5:03:55,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2635/10186 [1:46:01<5:03:48,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2635/10186 [1:46:01<5:03:48,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2636/10186 [1:46:07<5:03:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2636/10186 [1:46:07<5:03:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2637/10186 [1:46:08<5:03:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2637/10186 [1:46:08<5:03:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2638/10186 [1:46:09<5:03:45,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2638/10186 [1:46:09<5:03:45,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2639/10186 [1:46:10<5:03:38,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2639/10186 [1:46:10<5:03:38,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2640/10186 [1:46:17<5:03:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2640/10186 [1:46:17<5:03:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2641/10186 [1:46:18<5:03:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2641/10186 [1:46:18<5:03:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2642/10186 [1:46:19<5:03:35,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2642/10186 [1:46:19<5:03:35,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2643/10186 [1:46:20<5:03:29,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2643/10186 [1:46:20<5:03:29,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2644/10186 [1:46:26<5:03:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2644/10186 [1:46:26<5:03:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2645/10186 [1:46:27<5:03:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2645/10186 [1:46:27<5:03:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2646/10186 [1:46:28<5:03:25,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2646/10186 [1:46:28<5:03:25,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2647/10186 [1:46:29<5:03:19,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2647/10186 [1:46:29<5:03:19,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2648/10186 [1:46:36<5:03:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2648/10186 [1:46:36<5:03:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2649/10186 [1:46:37<5:03:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2649/10186 [1:46:37<5:03:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2650/10186 [1:46:38<5:03:15,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2650/10186 [1:46:38<5:03:15,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2651/10186 [1:46:39<5:03:09,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2651/10186 [1:46:39<5:03:09,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2652/10186 [1:46:45<5:03:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2652/10186 [1:46:45<5:03:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2653/10186 [1:46:46<5:03:12,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2653/10186 [1:46:46<5:03:12,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2654/10186 [1:46:48<5:03:05,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2654/10186 [1:46:48<5:03:05,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2655/10186 [1:46:49<5:02:59,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2655/10186 [1:46:49<5:02:59,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2656/10186 [1:46:55<5:03:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2656/10186 [1:46:55<5:03:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2657/10186 [1:46:56<5:03:02,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2657/10186 [1:46:56<5:03:02,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2658/10186 [1:46:57<5:02:55,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2658/10186 [1:46:57<5:02:55,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2659/10186 [1:46:58<5:02:49,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2659/10186 [1:46:58<5:02:49,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2660/10186 [1:47:05<5:02:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2660/10186 [1:47:05<5:02:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2661/10186 [1:47:06<5:02:52,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2661/10186 [1:47:06<5:02:52,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2662/10186 [1:47:07<5:02:46,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2662/10186 [1:47:07<5:02:46,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2663/10186 [1:47:08<5:02:39,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2663/10186 [1:47:08<5:02:39,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2664/10186 [1:47:14<5:02:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2664/10186 [1:47:14<5:02:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2665/10186 [1:47:15<5:02:42,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2665/10186 [1:47:15<5:02:42,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2666/10186 [1:47:16<5:02:36,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2666/10186 [1:47:16<5:02:36,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2667/10186 [1:47:17<5:02:29,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2667/10186 [1:47:17<5:02:29,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2668/10186 [1:47:24<5:02:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2668/10186 [1:47:24<5:02:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2669/10186 [1:47:25<5:02:32,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2669/10186 [1:47:25<5:02:32,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2670/10186 [1:47:26<5:02:26,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2670/10186 [1:47:26<5:02:26,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2671/10186 [1:47:27<5:02:20,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2671/10186 [1:47:27<5:02:20,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2672/10186 [1:47:33<5:02:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2672/10186 [1:47:33<5:02:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2673/10186 [1:47:34<5:02:22,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2673/10186 [1:47:34<5:02:22,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2674/10186 [1:47:35<5:02:16,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2674/10186 [1:47:35<5:02:16,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2675/10186 [1:47:36<5:02:10,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2675/10186 [1:47:36<5:02:10,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2676/10186 [1:47:43<5:02:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2676/10186 [1:47:43<5:02:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2677/10186 [1:47:44<5:02:12,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2677/10186 [1:47:44<5:02:12,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2678/10186 [1:47:45<5:02:06,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2678/10186 [1:47:45<5:02:06,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2679/10186 [1:47:46<5:02:00,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2679/10186 [1:47:46<5:02:00,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2680/10186 [1:47:53<5:02:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2680/10186 [1:47:53<5:02:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2681/10186 [1:47:54<5:02:02,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2681/10186 [1:47:54<5:02:02,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2682/10186 [1:47:55<5:01:56,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2682/10186 [1:47:55<5:01:56,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2683/10186 [1:47:56<5:01:50,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2683/10186 [1:47:56<5:01:50,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2684/10186 [1:48:02<5:01:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2684/10186 [1:48:02<5:01:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2685/10186 [1:48:03<5:01:53,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2685/10186 [1:48:03<5:01:53,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2686/10186 [1:48:04<5:01:46,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2686/10186 [1:48:04<5:01:46,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2687/10186 [1:48:05<5:01:40,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2687/10186 [1:48:05<5:01:40,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2688/10186 [1:48:12<5:01:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2688/10186 [1:48:12<5:01:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2689/10186 [1:48:13<5:01:43,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2689/10186 [1:48:13<5:01:43,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2690/10186 [1:48:14<5:01:37,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2690/10186 [1:48:14<5:01:37,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2691/10186 [1:48:15<5:01:30,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2691/10186 [1:48:15<5:01:30,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2692/10186 [1:48:21<5:01:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2692/10186 [1:48:21<5:01:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2693/10186 [1:48:22<5:01:33,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2693/10186 [1:48:22<5:01:33,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2694/10186 [1:48:23<5:01:27,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2694/10186 [1:48:23<5:01:27,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2695/10186 [1:48:24<5:01:20,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2695/10186 [1:48:24<5:01:20,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2696/10186 [1:48:31<5:01:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2696/10186 [1:48:31<5:01:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2697/10186 [1:48:32<5:01:23,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2697/10186 [1:48:32<5:01:23,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2698/10186 [1:48:33<5:01:17,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2698/10186 [1:48:33<5:01:17,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 2699/10186 [1:48:34<5:01:11,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  26%|▎| 2699/10186 [1:48:34<5:01:11,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2700/10186 [1:48:40<5:01:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2700/10186 [1:48:40<5:01:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2701/10186 [1:48:41<5:01:13,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2701/10186 [1:48:41<5:01:13,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2702/10186 [1:48:42<5:01:07,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2702/10186 [1:48:42<5:01:07,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2703/10186 [1:48:44<5:01:01,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2703/10186 [1:48:44<5:01:01,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2704/10186 [1:48:50<5:01:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2704/10186 [1:48:50<5:01:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2705/10186 [1:48:51<5:01:03,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2705/10186 [1:48:51<5:01:03,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2706/10186 [1:48:52<5:00:57,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2706/10186 [1:48:52<5:00:57,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2707/10186 [1:48:53<5:00:51,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2707/10186 [1:48:53<5:00:51,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2708/10186 [1:49:00<5:01:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2708/10186 [1:49:00<5:01:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2709/10186 [1:49:01<5:00:53,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2709/10186 [1:49:01<5:00:53,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2710/10186 [1:49:02<5:00:47,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2710/10186 [1:49:02<5:00:47,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2711/10186 [1:49:03<5:00:41,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2711/10186 [1:49:03<5:00:41,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2712/10186 [1:49:09<5:00:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2712/10186 [1:49:09<5:00:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2713/10186 [1:49:10<5:00:43,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2713/10186 [1:49:10<5:00:43,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2714/10186 [1:49:11<5:00:37,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2714/10186 [1:49:11<5:00:37,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2715/10186 [1:49:12<5:00:31,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2715/10186 [1:49:12<5:00:31,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2716/10186 [1:49:19<5:00:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2716/10186 [1:49:19<5:00:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2717/10186 [1:49:20<5:00:34,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2717/10186 [1:49:20<5:00:34,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2718/10186 [1:49:21<5:00:27,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2718/10186 [1:49:21<5:00:27,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2719/10186 [1:49:22<5:00:21,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2719/10186 [1:49:22<5:00:21,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2720/10186 [1:49:28<5:00:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2720/10186 [1:49:28<5:00:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2721/10186 [1:49:29<5:00:24,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2721/10186 [1:49:29<5:00:24,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2722/10186 [1:49:30<5:00:18,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2722/10186 [1:49:30<5:00:18,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2723/10186 [1:49:31<5:00:11,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2723/10186 [1:49:31<5:00:11,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2724/10186 [1:49:38<5:00:20,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2724/10186 [1:49:38<5:00:20,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2725/10186 [1:49:39<5:00:14,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2725/10186 [1:49:39<5:00:14,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2726/10186 [1:49:40<5:00:08,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2726/10186 [1:49:40<5:00:08,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2727/10186 [1:49:41<5:00:02,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2727/10186 [1:49:41<5:00:02,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2728/10186 [1:49:47<5:00:10,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2728/10186 [1:49:47<5:00:10,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2729/10186 [1:49:49<5:00:04,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2729/10186 [1:49:49<5:00:04,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2730/10186 [1:49:50<4:59:58,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2730/10186 [1:49:50<4:59:58,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2731/10186 [1:49:51<4:59:52,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2731/10186 [1:49:51<4:59:52,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2732/10186 [1:49:57<5:00:00,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2732/10186 [1:49:57<5:00:00,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2733/10186 [1:49:58<4:59:54,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2733/10186 [1:49:58<4:59:54,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2734/10186 [1:49:59<4:59:48,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2734/10186 [1:49:59<4:59:48,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2735/10186 [1:50:00<4:59:42,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2735/10186 [1:50:00<4:59:42,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2736/10186 [1:50:07<4:59:51,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2736/10186 [1:50:07<4:59:51,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2737/10186 [1:50:08<4:59:45,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2737/10186 [1:50:08<4:59:45,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2738/10186 [1:50:09<4:59:38,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2738/10186 [1:50:09<4:59:38,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2739/10186 [1:50:10<4:59:32,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2739/10186 [1:50:10<4:59:32,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2740/10186 [1:50:16<4:59:41,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2740/10186 [1:50:16<4:59:41,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2741/10186 [1:50:17<4:59:35,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2741/10186 [1:50:17<4:59:35,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2742/10186 [1:50:18<4:59:29,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2742/10186 [1:50:18<4:59:29,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2743/10186 [1:50:19<4:59:22,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2743/10186 [1:50:19<4:59:22,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2744/10186 [1:50:26<4:59:31,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2744/10186 [1:50:26<4:59:31,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2745/10186 [1:50:27<4:59:25,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2745/10186 [1:50:27<4:59:25,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2746/10186 [1:50:28<4:59:19,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2746/10186 [1:50:28<4:59:19,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2747/10186 [1:50:29<4:59:13,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2747/10186 [1:50:29<4:59:13,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2748/10186 [1:50:36<4:59:21,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2748/10186 [1:50:36<4:59:21,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2749/10186 [1:50:37<4:59:15,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2749/10186 [1:50:37<4:59:15,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2750/10186 [1:50:38<4:59:09,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2750/10186 [1:50:38<4:59:09,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2751/10186 [1:50:39<4:59:03,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2751/10186 [1:50:39<4:59:03,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2752/10186 [1:50:45<4:59:11,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2752/10186 [1:50:45<4:59:11,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2753/10186 [1:50:46<4:59:05,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2753/10186 [1:50:46<4:59:05,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2754/10186 [1:50:47<4:58:59,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2754/10186 [1:50:47<4:58:59,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2755/10186 [1:50:48<4:58:53,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2755/10186 [1:50:48<4:58:53,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2756/10186 [1:50:55<4:59:02,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2756/10186 [1:50:55<4:59:02,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2757/10186 [1:50:56<4:58:55,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2757/10186 [1:50:56<4:58:55,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2758/10186 [1:50:57<4:58:49,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2758/10186 [1:50:57<4:58:49,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2759/10186 [1:50:58<4:58:43,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2759/10186 [1:50:58<4:58:43,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2760/10186 [1:51:04<4:58:52,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2760/10186 [1:51:04<4:58:52,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2761/10186 [1:51:05<4:58:46,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2761/10186 [1:51:05<4:58:46,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2762/10186 [1:51:06<4:58:39,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2762/10186 [1:51:06<4:58:39,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2763/10186 [1:51:07<4:58:33,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2763/10186 [1:51:07<4:58:33,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2764/10186 [1:51:14<4:58:42,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2764/10186 [1:51:14<4:58:42,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2765/10186 [1:51:15<4:58:36,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2765/10186 [1:51:15<4:58:36,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2766/10186 [1:51:16<4:58:30,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2766/10186 [1:51:16<4:58:30,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2767/10186 [1:51:17<4:58:24,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2767/10186 [1:51:17<4:58:24,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2768/10186 [1:51:23<4:58:32,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2768/10186 [1:51:23<4:58:32,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2769/10186 [1:51:25<4:58:26,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2769/10186 [1:51:25<4:58:26,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2770/10186 [1:51:26<4:58:20,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2770/10186 [1:51:26<4:58:20,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2771/10186 [1:51:27<4:58:14,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2771/10186 [1:51:27<4:58:14,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2772/10186 [1:51:33<4:58:22,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2772/10186 [1:51:33<4:58:22,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2773/10186 [1:51:34<4:58:16,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2773/10186 [1:51:34<4:58:16,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2774/10186 [1:51:35<4:58:10,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2774/10186 [1:51:35<4:58:10,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2775/10186 [1:51:36<4:58:04,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2775/10186 [1:51:36<4:58:04,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2776/10186 [1:51:43<4:58:12,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2776/10186 [1:51:43<4:58:12,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2777/10186 [1:51:44<4:58:06,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2777/10186 [1:51:44<4:58:06,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2778/10186 [1:51:45<4:58:00,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2778/10186 [1:51:45<4:58:00,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2779/10186 [1:51:46<4:57:54,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2779/10186 [1:51:46<4:57:54,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2780/10186 [1:51:52<4:58:02,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2780/10186 [1:51:52<4:58:02,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2781/10186 [1:51:53<4:57:56,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2781/10186 [1:51:53<4:57:56,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2782/10186 [1:51:54<4:57:50,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2782/10186 [1:51:54<4:57:50,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2783/10186 [1:51:55<4:57:44,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2783/10186 [1:51:55<4:57:44,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2784/10186 [1:52:02<4:57:52,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2784/10186 [1:52:02<4:57:52,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2785/10186 [1:52:03<4:57:46,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2785/10186 [1:52:03<4:57:46,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2786/10186 [1:52:04<4:57:40,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2786/10186 [1:52:04<4:57:40,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2787/10186 [1:52:05<4:57:34,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2787/10186 [1:52:05<4:57:34,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2788/10186 [1:52:11<4:57:43,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2788/10186 [1:52:11<4:57:43,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2789/10186 [1:52:12<4:57:36,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2789/10186 [1:52:12<4:57:36,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2790/10186 [1:52:13<4:57:30,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2790/10186 [1:52:13<4:57:30,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2791/10186 [1:52:14<4:57:24,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2791/10186 [1:52:14<4:57:24,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2792/10186 [1:52:21<4:57:33,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2792/10186 [1:52:21<4:57:33,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2793/10186 [1:52:22<4:57:27,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2793/10186 [1:52:22<4:57:27,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2794/10186 [1:52:23<4:57:21,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2794/10186 [1:52:23<4:57:21,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2795/10186 [1:52:24<4:57:15,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2795/10186 [1:52:24<4:57:15,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2796/10186 [1:52:31<4:57:23,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2796/10186 [1:52:31<4:57:23,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2797/10186 [1:52:32<4:57:17,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2797/10186 [1:52:32<4:57:17,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2798/10186 [1:52:33<4:57:11,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2798/10186 [1:52:33<4:57:11,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2799/10186 [1:52:34<4:57:05,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2799/10186 [1:52:34<4:57:05,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2800/10186 [1:52:40<4:57:13,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2800/10186 [1:52:40<4:57:13,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 2801/10186 [1:52:41<4:57:07,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  27%|▎| 2801/10186 [1:52:41<4:57:07,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2802/10186 [1:52:42<4:57:01,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2802/10186 [1:52:42<4:57:01,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2803/10186 [1:52:43<4:56:55,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2803/10186 [1:52:43<4:56:55,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2804/10186 [1:52:50<4:57:03,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2804/10186 [1:52:50<4:57:03,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2805/10186 [1:52:51<4:56:57,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2805/10186 [1:52:51<4:56:57,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2806/10186 [1:52:52<4:56:51,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2806/10186 [1:52:52<4:56:51,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2807/10186 [1:52:53<4:56:45,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2807/10186 [1:52:53<4:56:45,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2808/10186 [1:52:59<4:56:53,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2808/10186 [1:52:59<4:56:53,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2809/10186 [1:53:00<4:56:47,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2809/10186 [1:53:00<4:56:47,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2810/10186 [1:53:01<4:56:41,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2810/10186 [1:53:01<4:56:41,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2811/10186 [1:53:02<4:56:35,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2811/10186 [1:53:02<4:56:35,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2812/10186 [1:53:09<4:56:43,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2812/10186 [1:53:09<4:56:43,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2813/10186 [1:53:10<4:56:37,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2813/10186 [1:53:10<4:56:37,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2814/10186 [1:53:11<4:56:31,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2814/10186 [1:53:11<4:56:31,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2815/10186 [1:53:12<4:56:25,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2815/10186 [1:53:12<4:56:25,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2816/10186 [1:53:18<4:56:34,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2816/10186 [1:53:18<4:56:34,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2817/10186 [1:53:19<4:56:28,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2817/10186 [1:53:19<4:56:28,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2818/10186 [1:53:21<4:56:22,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2818/10186 [1:53:21<4:56:22,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2819/10186 [1:53:22<4:56:16,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2819/10186 [1:53:22<4:56:16,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2820/10186 [1:53:28<4:56:24,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2820/10186 [1:53:28<4:56:24,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2821/10186 [1:53:29<4:56:18,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2821/10186 [1:53:29<4:56:18,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2822/10186 [1:53:30<4:56:12,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2822/10186 [1:53:30<4:56:12,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2823/10186 [1:53:31<4:56:06,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2823/10186 [1:53:31<4:56:06,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2824/10186 [1:53:38<4:56:14,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2824/10186 [1:53:38<4:56:14,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2825/10186 [1:53:39<4:56:08,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2825/10186 [1:53:39<4:56:08,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2826/10186 [1:53:40<4:56:02,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2826/10186 [1:53:40<4:56:02,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2827/10186 [1:53:41<4:55:56,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2827/10186 [1:53:41<4:55:56,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2828/10186 [1:53:47<4:56:04,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2828/10186 [1:53:47<4:56:04,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2829/10186 [1:53:48<4:55:58,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2829/10186 [1:53:48<4:55:58,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2830/10186 [1:53:49<4:55:52,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2830/10186 [1:53:49<4:55:52,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2831/10186 [1:53:50<4:55:46,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2831/10186 [1:53:50<4:55:46,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2832/10186 [1:53:57<4:55:54,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2832/10186 [1:53:57<4:55:54,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2833/10186 [1:53:58<4:55:48,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2833/10186 [1:53:58<4:55:48,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2834/10186 [1:53:59<4:55:42,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2834/10186 [1:53:59<4:55:42,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2835/10186 [1:54:00<4:55:36,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2835/10186 [1:54:00<4:55:36,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2836/10186 [1:54:06<4:55:44,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2836/10186 [1:54:06<4:55:44,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2837/10186 [1:54:07<4:55:38,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2837/10186 [1:54:07<4:55:38,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2838/10186 [1:54:08<4:55:32,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2838/10186 [1:54:08<4:55:32,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2839/10186 [1:54:09<4:55:26,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2839/10186 [1:54:09<4:55:26,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2840/10186 [1:54:16<4:55:35,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2840/10186 [1:54:16<4:55:35,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2841/10186 [1:54:17<4:55:29,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2841/10186 [1:54:17<4:55:29,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2842/10186 [1:54:18<4:55:23,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2842/10186 [1:54:18<4:55:23,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2843/10186 [1:54:19<4:55:17,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2843/10186 [1:54:19<4:55:17,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2844/10186 [1:54:26<4:55:25,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2844/10186 [1:54:26<4:55:25,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2845/10186 [1:54:27<4:55:19,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2845/10186 [1:54:27<4:55:19,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2846/10186 [1:54:28<4:55:13,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2846/10186 [1:54:28<4:55:13,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2847/10186 [1:54:29<4:55:07,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2847/10186 [1:54:29<4:55:07,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2848/10186 [1:54:35<4:55:15,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2848/10186 [1:54:35<4:55:15,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2849/10186 [1:54:36<4:55:09,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2849/10186 [1:54:36<4:55:09,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2850/10186 [1:54:37<4:55:03,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2850/10186 [1:54:37<4:55:03,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2851/10186 [1:54:38<4:54:57,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2851/10186 [1:54:38<4:54:57,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2852/10186 [1:54:45<4:55:05,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2852/10186 [1:54:45<4:55:05,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2853/10186 [1:54:46<4:54:59,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2853/10186 [1:54:46<4:54:59,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2854/10186 [1:54:47<4:54:53,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2854/10186 [1:54:47<4:54:53,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2855/10186 [1:54:48<4:54:47,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2855/10186 [1:54:48<4:54:47,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2856/10186 [1:54:54<4:54:55,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2856/10186 [1:54:54<4:54:55,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2857/10186 [1:54:55<4:54:49,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2857/10186 [1:54:55<4:54:49,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2858/10186 [1:54:56<4:54:43,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2858/10186 [1:54:56<4:54:43,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2859/10186 [1:54:57<4:54:37,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2859/10186 [1:54:57<4:54:37,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2860/10186 [1:55:04<4:54:45,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2860/10186 [1:55:04<4:54:45,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2861/10186 [1:55:05<4:54:39,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2861/10186 [1:55:05<4:54:39,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2862/10186 [1:55:06<4:54:33,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2862/10186 [1:55:06<4:54:33,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2863/10186 [1:55:07<4:54:28,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2863/10186 [1:55:07<4:54:28,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2864/10186 [1:55:13<4:54:35,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2864/10186 [1:55:13<4:54:35,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2865/10186 [1:55:14<4:54:30,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2865/10186 [1:55:14<4:54:30,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2866/10186 [1:55:16<4:54:24,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2866/10186 [1:55:16<4:54:24,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2867/10186 [1:55:17<4:54:18,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2867/10186 [1:55:17<4:54:18,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2868/10186 [1:55:23<4:54:26,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2868/10186 [1:55:23<4:54:26,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2869/10186 [1:55:24<4:54:20,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2869/10186 [1:55:24<4:54:20,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2870/10186 [1:55:25<4:54:14,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2870/10186 [1:55:25<4:54:14,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2871/10186 [1:55:26<4:54:08,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2871/10186 [1:55:26<4:54:08,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2872/10186 [1:55:33<4:54:16,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2872/10186 [1:55:33<4:54:16,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2873/10186 [1:55:34<4:54:10,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2873/10186 [1:55:34<4:54:10,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2874/10186 [1:55:35<4:54:04,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2874/10186 [1:55:35<4:54:04,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2875/10186 [1:55:36<4:53:58,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2875/10186 [1:55:36<4:53:58,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2876/10186 [1:55:42<4:54:06,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2876/10186 [1:55:42<4:54:06,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2877/10186 [1:55:43<4:54:00,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2877/10186 [1:55:43<4:54:00,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2878/10186 [1:55:44<4:53:54,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2878/10186 [1:55:44<4:53:54,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2879/10186 [1:55:45<4:53:48,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2879/10186 [1:55:45<4:53:48,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2880/10186 [1:55:52<4:53:56,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2880/10186 [1:55:52<4:53:56,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2881/10186 [1:55:53<4:53:50,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2881/10186 [1:55:53<4:53:50,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2882/10186 [1:55:54<4:53:44,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2882/10186 [1:55:54<4:53:44,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2883/10186 [1:55:55<4:53:38,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2883/10186 [1:55:55<4:53:38,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2884/10186 [1:56:01<4:53:46,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2884/10186 [1:56:01<4:53:46,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2885/10186 [1:56:02<4:53:40,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2885/10186 [1:56:02<4:53:40,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2886/10186 [1:56:03<4:53:34,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2886/10186 [1:56:03<4:53:34,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2887/10186 [1:56:04<4:53:29,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2887/10186 [1:56:04<4:53:29,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2888/10186 [1:56:11<4:53:36,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2888/10186 [1:56:11<4:53:36,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2889/10186 [1:56:12<4:53:31,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2889/10186 [1:56:12<4:53:31,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2890/10186 [1:56:13<4:53:25,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2890/10186 [1:56:13<4:53:25,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2891/10186 [1:56:14<4:53:19,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2891/10186 [1:56:14<4:53:19,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2892/10186 [1:56:21<4:53:27,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2892/10186 [1:56:21<4:53:27,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2893/10186 [1:56:22<4:53:21,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2893/10186 [1:56:22<4:53:21,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2894/10186 [1:56:23<4:53:15,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2894/10186 [1:56:23<4:53:15,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2895/10186 [1:56:24<4:53:09,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2895/10186 [1:56:24<4:53:09,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2896/10186 [1:56:30<4:53:17,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2896/10186 [1:56:30<4:53:17,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2897/10186 [1:56:31<4:53:11,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2897/10186 [1:56:31<4:53:11,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2898/10186 [1:56:32<4:53:05,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2898/10186 [1:56:32<4:53:05,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2899/10186 [1:56:33<4:52:59,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2899/10186 [1:56:33<4:52:59,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2900/10186 [1:56:40<4:53:07,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2900/10186 [1:56:40<4:53:07,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2901/10186 [1:56:41<4:53:01,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2901/10186 [1:56:41<4:53:01,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2902/10186 [1:56:42<4:52:55,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2902/10186 [1:56:42<4:52:55,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 2903/10186 [1:56:43<4:52:49,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  28%|▎| 2903/10186 [1:56:43<4:52:49,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2904/10186 [1:56:49<4:52:57,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2904/10186 [1:56:49<4:52:57,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2905/10186 [1:56:50<4:52:51,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2905/10186 [1:56:50<4:52:51,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2906/10186 [1:56:51<4:52:45,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2906/10186 [1:56:51<4:52:45,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2907/10186 [1:56:52<4:52:39,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2907/10186 [1:56:52<4:52:39,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2908/10186 [1:56:59<4:52:47,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2908/10186 [1:56:59<4:52:47,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2909/10186 [1:57:00<4:52:41,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2909/10186 [1:57:00<4:52:41,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2910/10186 [1:57:01<4:52:35,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2910/10186 [1:57:01<4:52:35,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2911/10186 [1:57:02<4:52:30,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2911/10186 [1:57:02<4:52:30,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2912/10186 [1:57:08<4:52:37,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2912/10186 [1:57:08<4:52:37,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2913/10186 [1:57:09<4:52:31,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2913/10186 [1:57:09<4:52:31,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2914/10186 [1:57:11<4:52:26,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2914/10186 [1:57:11<4:52:26,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2915/10186 [1:57:12<4:52:20,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2915/10186 [1:57:12<4:52:20,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2916/10186 [1:57:18<4:52:27,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2916/10186 [1:57:18<4:52:27,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2917/10186 [1:57:19<4:52:22,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2917/10186 [1:57:19<4:52:22,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2918/10186 [1:57:20<4:52:16,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2918/10186 [1:57:20<4:52:16,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2919/10186 [1:57:21<4:52:10,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2919/10186 [1:57:21<4:52:10,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2920/10186 [1:57:28<4:52:18,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2920/10186 [1:57:28<4:52:18,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2921/10186 [1:57:29<4:52:12,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2921/10186 [1:57:29<4:52:12,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2922/10186 [1:57:30<4:52:06,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2922/10186 [1:57:30<4:52:06,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2923/10186 [1:57:31<4:52:00,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2923/10186 [1:57:31<4:52:00,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2924/10186 [1:57:37<4:52:08,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2924/10186 [1:57:37<4:52:08,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2925/10186 [1:57:38<4:52:02,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2925/10186 [1:57:38<4:52:02,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2926/10186 [1:57:39<4:51:56,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2926/10186 [1:57:39<4:51:56,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2927/10186 [1:57:40<4:51:50,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2927/10186 [1:57:40<4:51:50,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2928/10186 [1:57:47<4:51:58,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2928/10186 [1:57:47<4:51:58,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2929/10186 [1:57:48<4:51:52,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2929/10186 [1:57:48<4:51:52,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2930/10186 [1:57:49<4:51:46,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2930/10186 [1:57:49<4:51:46,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2931/10186 [1:57:50<4:51:41,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2931/10186 [1:57:50<4:51:41,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2932/10186 [1:57:56<4:51:48,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2932/10186 [1:57:56<4:51:48,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2933/10186 [1:57:57<4:51:42,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2933/10186 [1:57:57<4:51:42,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2934/10186 [1:57:58<4:51:36,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2934/10186 [1:57:58<4:51:36,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2935/10186 [1:57:59<4:51:31,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2935/10186 [1:57:59<4:51:31,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2936/10186 [1:58:06<4:51:38,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2936/10186 [1:58:06<4:51:38,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2937/10186 [1:58:07<4:51:32,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2937/10186 [1:58:07<4:51:32,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2938/10186 [1:58:08<4:51:27,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2938/10186 [1:58:08<4:51:27,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2939/10186 [1:58:09<4:51:21,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2939/10186 [1:58:09<4:51:21,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2940/10186 [1:58:15<4:51:28,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2940/10186 [1:58:15<4:51:28,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2941/10186 [1:58:17<4:51:23,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2941/10186 [1:58:17<4:51:23,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2942/10186 [1:58:18<4:51:17,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2942/10186 [1:58:18<4:51:17,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2943/10186 [1:58:19<4:51:11,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2943/10186 [1:58:19<4:51:11,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2944/10186 [1:58:25<4:51:19,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2944/10186 [1:58:25<4:51:19,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2945/10186 [1:58:26<4:51:13,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2945/10186 [1:58:26<4:51:13,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2946/10186 [1:58:27<4:51:07,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2946/10186 [1:58:27<4:51:07,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2947/10186 [1:58:28<4:51:01,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2947/10186 [1:58:28<4:51:01,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2948/10186 [1:58:35<4:51:09,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2948/10186 [1:58:35<4:51:09,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2949/10186 [1:58:36<4:51:03,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2949/10186 [1:58:36<4:51:03,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2950/10186 [1:58:37<4:50:57,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2950/10186 [1:58:37<4:50:57,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2951/10186 [1:58:38<4:50:51,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2951/10186 [1:58:38<4:50:51,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2952/10186 [1:58:44<4:50:59,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2952/10186 [1:58:44<4:50:59,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2953/10186 [1:58:45<4:50:53,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2953/10186 [1:58:45<4:50:53,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2954/10186 [1:58:46<4:50:47,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2954/10186 [1:58:46<4:50:47,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2955/10186 [1:58:47<4:50:42,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2955/10186 [1:58:47<4:50:42,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2956/10186 [1:58:54<4:50:49,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2956/10186 [1:58:54<4:50:49,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2957/10186 [1:58:55<4:50:43,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2957/10186 [1:58:55<4:50:43,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2958/10186 [1:58:56<4:50:38,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2958/10186 [1:58:56<4:50:38,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2959/10186 [1:58:57<4:50:32,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2959/10186 [1:58:57<4:50:32,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2960/10186 [1:59:03<4:50:39,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2960/10186 [1:59:03<4:50:39,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2961/10186 [1:59:04<4:50:34,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2961/10186 [1:59:04<4:50:34,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2962/10186 [1:59:05<4:50:28,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2962/10186 [1:59:05<4:50:28,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2963/10186 [1:59:07<4:50:22,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2963/10186 [1:59:07<4:50:22,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2964/10186 [1:59:13<4:50:30,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2964/10186 [1:59:13<4:50:30,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2965/10186 [1:59:14<4:50:24,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2965/10186 [1:59:14<4:50:24,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2966/10186 [1:59:15<4:50:18,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2966/10186 [1:59:15<4:50:18,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2967/10186 [1:59:16<4:50:12,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2967/10186 [1:59:16<4:50:12,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2968/10186 [1:59:23<4:50:20,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2968/10186 [1:59:23<4:50:20,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2969/10186 [1:59:24<4:50:14,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2969/10186 [1:59:24<4:50:14,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2970/10186 [1:59:25<4:50:08,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2970/10186 [1:59:25<4:50:08,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2971/10186 [1:59:26<4:50:02,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2971/10186 [1:59:26<4:50:02,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2972/10186 [1:59:32<4:50:10,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2972/10186 [1:59:32<4:50:10,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2973/10186 [1:59:33<4:50:04,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2973/10186 [1:59:33<4:50:04,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2974/10186 [1:59:34<4:49:58,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2974/10186 [1:59:34<4:49:58,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2975/10186 [1:59:35<4:49:53,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2975/10186 [1:59:35<4:49:53,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2976/10186 [1:59:42<4:50:00,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2976/10186 [1:59:42<4:50:00,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2977/10186 [1:59:43<4:49:54,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2977/10186 [1:59:43<4:49:54,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2978/10186 [1:59:44<4:49:49,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2978/10186 [1:59:44<4:49:49,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2979/10186 [1:59:45<4:49:43,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2979/10186 [1:59:45<4:49:43,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2980/10186 [1:59:51<4:49:50,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2980/10186 [1:59:51<4:49:50,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2981/10186 [1:59:52<4:49:44,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2981/10186 [1:59:52<4:49:44,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2982/10186 [1:59:53<4:49:39,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2982/10186 [1:59:53<4:49:39,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2983/10186 [1:59:54<4:49:33,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2983/10186 [1:59:54<4:49:33,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2984/10186 [2:00:01<4:49:40,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2984/10186 [2:00:01<4:49:40,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2985/10186 [2:00:02<4:49:35,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2985/10186 [2:00:02<4:49:35,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2986/10186 [2:00:03<4:49:29,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2986/10186 [2:00:03<4:49:29,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2987/10186 [2:00:04<4:49:23,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2987/10186 [2:00:04<4:49:23,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2988/10186 [2:00:10<4:49:30,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2988/10186 [2:00:10<4:49:30,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2989/10186 [2:00:11<4:49:25,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2989/10186 [2:00:11<4:49:25,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2990/10186 [2:00:13<4:49:19,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2990/10186 [2:00:13<4:49:19,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2991/10186 [2:00:14<4:49:13,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2991/10186 [2:00:14<4:49:13,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2992/10186 [2:00:20<4:49:21,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2992/10186 [2:00:20<4:49:21,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2993/10186 [2:00:21<4:49:15,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2993/10186 [2:00:21<4:49:15,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2994/10186 [2:00:22<4:49:09,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2994/10186 [2:00:22<4:49:09,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2995/10186 [2:00:23<4:49:04,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2995/10186 [2:00:23<4:49:04,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2996/10186 [2:00:30<4:49:11,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2996/10186 [2:00:30<4:49:11,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2997/10186 [2:00:31<4:49:05,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2997/10186 [2:00:31<4:49:05,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2998/10186 [2:00:32<4:48:59,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2998/10186 [2:00:32<4:48:59,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 2999/10186 [2:00:33<4:48:54,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 2999/10186 [2:00:33<4:48:54,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 3000/10186 [2:00:39<4:49:01,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 3000/10186 [2:00:39<4:49:01,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 3001/10186 [2:01:08<4:50:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 3001/10186 [2:01:08<4:50:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 3002/10186 [2:01:09<4:49:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 3002/10186 [2:01:09<4:49:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 3003/10186 [2:01:10<4:49:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 3003/10186 [2:01:10<4:49:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 3004/10186 [2:01:17<4:49:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  29%|▎| 3004/10186 [2:01:17<4:49:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3005/10186 [2:01:18<4:49:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3005/10186 [2:01:18<4:49:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3006/10186 [2:01:19<4:49:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3006/10186 [2:01:19<4:49:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3007/10186 [2:01:20<4:49:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3007/10186 [2:01:20<4:49:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3008/10186 [2:01:26<4:49:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3008/10186 [2:01:26<4:49:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3009/10186 [2:01:27<4:49:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3009/10186 [2:01:27<4:49:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3010/10186 [2:01:28<4:49:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3010/10186 [2:01:28<4:49:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3011/10186 [2:01:29<4:49:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3011/10186 [2:01:29<4:49:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3012/10186 [2:01:36<4:49:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3012/10186 [2:01:36<4:49:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3013/10186 [2:01:37<4:49:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3013/10186 [2:01:37<4:49:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3014/10186 [2:01:38<4:49:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3014/10186 [2:01:38<4:49:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3015/10186 [2:01:39<4:49:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3015/10186 [2:01:39<4:49:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3016/10186 [2:01:45<4:49:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3016/10186 [2:01:45<4:49:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3017/10186 [2:01:46<4:49:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3017/10186 [2:01:46<4:49:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3018/10186 [2:01:47<4:49:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3018/10186 [2:01:47<4:49:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3019/10186 [2:01:48<4:49:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3019/10186 [2:01:48<4:49:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3020/10186 [2:01:55<4:49:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3020/10186 [2:01:55<4:49:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3021/10186 [2:01:56<4:49:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3021/10186 [2:01:56<4:49:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3022/10186 [2:01:57<4:49:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3022/10186 [2:01:57<4:49:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3023/10186 [2:01:58<4:49:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3023/10186 [2:01:58<4:49:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3024/10186 [2:02:04<4:49:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3024/10186 [2:02:04<4:49:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3025/10186 [2:02:05<4:49:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3025/10186 [2:02:05<4:49:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3026/10186 [2:02:07<4:48:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3026/10186 [2:02:07<4:48:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3027/10186 [2:02:08<4:48:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3027/10186 [2:02:08<4:48:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3028/10186 [2:02:14<4:48:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3028/10186 [2:02:14<4:48:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3029/10186 [2:02:15<4:48:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3029/10186 [2:02:15<4:48:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3030/10186 [2:02:16<4:48:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3030/10186 [2:02:16<4:48:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3031/10186 [2:02:17<4:48:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3031/10186 [2:02:17<4:48:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3032/10186 [2:02:24<4:48:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3032/10186 [2:02:24<4:48:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3033/10186 [2:02:25<4:48:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3033/10186 [2:02:25<4:48:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3034/10186 [2:02:26<4:48:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3034/10186 [2:02:26<4:48:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3035/10186 [2:02:27<4:48:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3035/10186 [2:02:27<4:48:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3036/10186 [2:02:33<4:48:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3036/10186 [2:02:33<4:48:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3037/10186 [2:02:34<4:48:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3037/10186 [2:02:34<4:48:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3038/10186 [2:02:35<4:48:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3038/10186 [2:02:35<4:48:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3039/10186 [2:02:36<4:48:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3039/10186 [2:02:36<4:48:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3040/10186 [2:02:43<4:48:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3040/10186 [2:02:43<4:48:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3041/10186 [2:02:44<4:48:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3041/10186 [2:02:44<4:48:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3042/10186 [2:02:45<4:48:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3042/10186 [2:02:45<4:48:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3043/10186 [2:02:46<4:48:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3043/10186 [2:02:46<4:48:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3044/10186 [2:02:52<4:48:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3044/10186 [2:02:52<4:48:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3045/10186 [2:02:53<4:48:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3045/10186 [2:02:53<4:48:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3046/10186 [2:02:54<4:48:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3046/10186 [2:02:54<4:48:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3047/10186 [2:02:55<4:48:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3047/10186 [2:02:55<4:48:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3048/10186 [2:03:02<4:48:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3048/10186 [2:03:02<4:48:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3049/10186 [2:03:03<4:48:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3049/10186 [2:03:03<4:48:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3050/10186 [2:03:04<4:47:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3050/10186 [2:03:04<4:47:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3051/10186 [2:03:05<4:47:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3051/10186 [2:03:05<4:47:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3052/10186 [2:03:12<4:47:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3052/10186 [2:03:12<4:47:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3053/10186 [2:03:13<4:47:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3053/10186 [2:03:13<4:47:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3054/10186 [2:03:14<4:47:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3054/10186 [2:03:14<4:47:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3055/10186 [2:03:15<4:47:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3055/10186 [2:03:15<4:47:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3056/10186 [2:03:21<4:47:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3056/10186 [2:03:21<4:47:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3057/10186 [2:03:22<4:47:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3057/10186 [2:03:22<4:47:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3058/10186 [2:03:23<4:47:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3058/10186 [2:03:23<4:47:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3059/10186 [2:03:24<4:47:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3059/10186 [2:03:24<4:47:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3060/10186 [2:03:31<4:47:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3060/10186 [2:03:31<4:47:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3061/10186 [2:03:32<4:47:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3061/10186 [2:03:32<4:47:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3062/10186 [2:03:33<4:47:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3062/10186 [2:03:33<4:47:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3063/10186 [2:03:34<4:47:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3063/10186 [2:03:34<4:47:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3064/10186 [2:03:40<4:47:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3064/10186 [2:03:40<4:47:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3065/10186 [2:03:41<4:47:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3065/10186 [2:03:41<4:47:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3066/10186 [2:03:42<4:47:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3066/10186 [2:03:42<4:47:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3067/10186 [2:03:43<4:47:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3067/10186 [2:03:43<4:47:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3068/10186 [2:03:50<4:47:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3068/10186 [2:03:50<4:47:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3069/10186 [2:03:51<4:47:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3069/10186 [2:03:51<4:47:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3070/10186 [2:03:52<4:47:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3070/10186 [2:03:52<4:47:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3071/10186 [2:03:53<4:47:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3071/10186 [2:03:53<4:47:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3072/10186 [2:03:59<4:47:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3072/10186 [2:03:59<4:47:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3073/10186 [2:04:00<4:47:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3073/10186 [2:04:00<4:47:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3074/10186 [2:04:02<4:46:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3074/10186 [2:04:02<4:46:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3075/10186 [2:04:03<4:46:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3075/10186 [2:04:03<4:46:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3076/10186 [2:04:09<4:46:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3076/10186 [2:04:09<4:46:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3077/10186 [2:04:10<4:46:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3077/10186 [2:04:10<4:46:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3078/10186 [2:04:11<4:46:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3078/10186 [2:04:11<4:46:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3079/10186 [2:04:12<4:46:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3079/10186 [2:04:12<4:46:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3080/10186 [2:04:19<4:46:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3080/10186 [2:04:19<4:46:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3081/10186 [2:04:20<4:46:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3081/10186 [2:04:20<4:46:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3082/10186 [2:04:21<4:46:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3082/10186 [2:04:21<4:46:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3083/10186 [2:04:22<4:46:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3083/10186 [2:04:22<4:46:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3084/10186 [2:04:28<4:46:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3084/10186 [2:04:28<4:46:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3085/10186 [2:04:29<4:46:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3085/10186 [2:04:29<4:46:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3086/10186 [2:04:30<4:46:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3086/10186 [2:04:30<4:46:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3087/10186 [2:04:31<4:46:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3087/10186 [2:04:31<4:46:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3088/10186 [2:04:38<4:46:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3088/10186 [2:04:38<4:46:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3089/10186 [2:04:39<4:46:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3089/10186 [2:04:39<4:46:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3090/10186 [2:04:40<4:46:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3090/10186 [2:04:40<4:46:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3091/10186 [2:04:41<4:46:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3091/10186 [2:04:41<4:46:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3092/10186 [2:04:47<4:46:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3092/10186 [2:04:47<4:46:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3093/10186 [2:04:48<4:46:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3093/10186 [2:04:48<4:46:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3094/10186 [2:04:49<4:46:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3094/10186 [2:04:49<4:46:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3095/10186 [2:04:50<4:46:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3095/10186 [2:04:50<4:46:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3096/10186 [2:04:57<4:46:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3096/10186 [2:04:57<4:46:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3097/10186 [2:04:58<4:46:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3097/10186 [2:04:58<4:46:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3098/10186 [2:04:59<4:45:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3098/10186 [2:04:59<4:45:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3099/10186 [2:05:00<4:45:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3099/10186 [2:05:00<4:45:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3100/10186 [2:05:06<4:45:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3100/10186 [2:05:06<4:45:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3101/10186 [2:05:07<4:45:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3101/10186 [2:05:07<4:45:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3102/10186 [2:05:09<4:45:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3102/10186 [2:05:09<4:45:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3103/10186 [2:05:10<4:45:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3103/10186 [2:05:10<4:45:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3104/10186 [2:05:16<4:45:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3104/10186 [2:05:16<4:45:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3105/10186 [2:05:17<4:45:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3105/10186 [2:05:17<4:45:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 3106/10186 [2:05:18<4:45:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  30%|▎| 3106/10186 [2:05:18<4:45:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3107/10186 [2:05:19<4:45:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3107/10186 [2:05:19<4:45:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3108/10186 [2:05:26<4:45:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3108/10186 [2:05:26<4:45:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3109/10186 [2:05:27<4:45:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3109/10186 [2:05:27<4:45:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3110/10186 [2:05:28<4:45:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3110/10186 [2:05:28<4:45:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3111/10186 [2:05:29<4:45:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3111/10186 [2:05:29<4:45:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3112/10186 [2:05:35<4:45:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3112/10186 [2:05:35<4:45:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3113/10186 [2:05:36<4:45:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3113/10186 [2:05:36<4:45:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3114/10186 [2:05:37<4:45:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3114/10186 [2:05:37<4:45:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3115/10186 [2:05:38<4:45:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3115/10186 [2:05:38<4:45:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3116/10186 [2:05:45<4:45:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3116/10186 [2:05:45<4:45:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3117/10186 [2:05:46<4:45:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3117/10186 [2:05:46<4:45:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3118/10186 [2:05:47<4:45:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3118/10186 [2:05:47<4:45:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3119/10186 [2:05:48<4:45:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3119/10186 [2:05:48<4:45:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3120/10186 [2:05:54<4:45:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3120/10186 [2:05:54<4:45:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3121/10186 [2:05:55<4:45:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3121/10186 [2:05:55<4:45:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3122/10186 [2:05:56<4:44:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3122/10186 [2:05:56<4:44:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3123/10186 [2:05:58<4:44:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3123/10186 [2:05:58<4:44:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3124/10186 [2:06:04<4:44:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3124/10186 [2:06:04<4:44:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3125/10186 [2:06:05<4:44:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3125/10186 [2:06:05<4:44:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3126/10186 [2:06:06<4:44:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3126/10186 [2:06:06<4:44:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3127/10186 [2:06:07<4:44:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3127/10186 [2:06:07<4:44:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3128/10186 [2:06:14<4:44:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3128/10186 [2:06:14<4:44:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3129/10186 [2:06:15<4:44:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3129/10186 [2:06:15<4:44:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3130/10186 [2:06:16<4:44:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3130/10186 [2:06:16<4:44:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3131/10186 [2:06:17<4:44:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3131/10186 [2:06:17<4:44:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3132/10186 [2:06:23<4:44:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3132/10186 [2:06:23<4:44:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3133/10186 [2:06:24<4:44:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3133/10186 [2:06:24<4:44:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3134/10186 [2:06:25<4:44:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3134/10186 [2:06:25<4:44:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3135/10186 [2:06:26<4:44:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3135/10186 [2:06:26<4:44:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3136/10186 [2:06:33<4:44:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3136/10186 [2:06:33<4:44:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3137/10186 [2:06:34<4:44:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3137/10186 [2:06:34<4:44:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3138/10186 [2:06:35<4:44:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3138/10186 [2:06:35<4:44:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3139/10186 [2:06:36<4:44:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3139/10186 [2:06:36<4:44:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3140/10186 [2:06:42<4:44:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3140/10186 [2:06:42<4:44:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3141/10186 [2:06:43<4:44:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3141/10186 [2:06:43<4:44:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3142/10186 [2:06:44<4:44:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3142/10186 [2:06:44<4:44:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3143/10186 [2:06:45<4:44:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3143/10186 [2:06:45<4:44:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3144/10186 [2:06:52<4:44:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3144/10186 [2:06:52<4:44:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3145/10186 [2:06:53<4:44:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3145/10186 [2:06:53<4:44:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3146/10186 [2:06:54<4:43:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3146/10186 [2:06:54<4:43:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3147/10186 [2:06:55<4:43:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3147/10186 [2:06:55<4:43:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3148/10186 [2:07:01<4:44:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3148/10186 [2:07:01<4:44:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3149/10186 [2:07:03<4:43:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3149/10186 [2:07:03<4:43:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3150/10186 [2:07:04<4:43:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3150/10186 [2:07:04<4:43:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3151/10186 [2:07:05<4:43:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3151/10186 [2:07:05<4:43:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3152/10186 [2:07:11<4:43:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3152/10186 [2:07:11<4:43:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3153/10186 [2:07:12<4:43:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3153/10186 [2:07:12<4:43:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3154/10186 [2:07:13<4:43:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3154/10186 [2:07:13<4:43:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3155/10186 [2:07:14<4:43:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3155/10186 [2:07:14<4:43:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3156/10186 [2:07:21<4:43:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3156/10186 [2:07:21<4:43:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3157/10186 [2:07:22<4:43:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3157/10186 [2:07:22<4:43:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3158/10186 [2:07:23<4:43:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3158/10186 [2:07:23<4:43:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3159/10186 [2:07:24<4:43:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3159/10186 [2:07:24<4:43:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3160/10186 [2:07:30<4:43:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3160/10186 [2:07:30<4:43:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3161/10186 [2:07:31<4:43:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3161/10186 [2:07:31<4:43:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3162/10186 [2:07:32<4:43:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3162/10186 [2:07:32<4:43:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3163/10186 [2:07:33<4:43:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3163/10186 [2:07:33<4:43:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3164/10186 [2:07:40<4:43:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3164/10186 [2:07:40<4:43:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3165/10186 [2:07:41<4:43:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3165/10186 [2:07:41<4:43:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3166/10186 [2:07:42<4:43:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3166/10186 [2:07:42<4:43:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3167/10186 [2:07:43<4:43:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3167/10186 [2:07:43<4:43:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3168/10186 [2:07:49<4:43:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3168/10186 [2:07:49<4:43:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3169/10186 [2:07:50<4:43:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3169/10186 [2:07:50<4:43:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3170/10186 [2:07:52<4:43:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3170/10186 [2:07:52<4:43:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3171/10186 [2:07:53<4:42:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3171/10186 [2:07:53<4:42:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3172/10186 [2:07:59<4:43:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3172/10186 [2:07:59<4:43:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3173/10186 [2:08:00<4:42:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3173/10186 [2:08:00<4:42:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3174/10186 [2:08:01<4:42:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3174/10186 [2:08:01<4:42:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3175/10186 [2:08:02<4:42:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3175/10186 [2:08:02<4:42:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3176/10186 [2:08:09<4:42:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3176/10186 [2:08:09<4:42:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3177/10186 [2:08:10<4:42:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3177/10186 [2:08:10<4:42:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3178/10186 [2:08:11<4:42:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3178/10186 [2:08:11<4:42:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3179/10186 [2:08:12<4:42:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3179/10186 [2:08:12<4:42:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3180/10186 [2:08:18<4:42:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3180/10186 [2:08:18<4:42:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3181/10186 [2:08:19<4:42:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3181/10186 [2:08:19<4:42:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3182/10186 [2:08:20<4:42:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3182/10186 [2:08:20<4:42:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3183/10186 [2:08:21<4:42:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3183/10186 [2:08:21<4:42:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3184/10186 [2:08:28<4:42:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3184/10186 [2:08:28<4:42:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3185/10186 [2:08:29<4:42:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3185/10186 [2:08:29<4:42:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3186/10186 [2:08:30<4:42:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3186/10186 [2:08:30<4:42:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3187/10186 [2:08:31<4:42:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3187/10186 [2:08:31<4:42:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3188/10186 [2:08:37<4:42:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3188/10186 [2:08:37<4:42:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3189/10186 [2:08:38<4:42:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3189/10186 [2:08:38<4:42:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3190/10186 [2:08:39<4:42:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3190/10186 [2:08:39<4:42:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3191/10186 [2:08:40<4:42:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3191/10186 [2:08:40<4:42:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3192/10186 [2:08:47<4:42:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3192/10186 [2:08:47<4:42:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3193/10186 [2:08:48<4:42:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3193/10186 [2:08:48<4:42:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3194/10186 [2:08:49<4:42:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3194/10186 [2:08:49<4:42:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3195/10186 [2:08:50<4:41:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3195/10186 [2:08:50<4:41:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3196/10186 [2:08:56<4:42:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3196/10186 [2:08:56<4:42:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3197/10186 [2:08:58<4:41:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3197/10186 [2:08:58<4:41:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3198/10186 [2:08:59<4:41:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3198/10186 [2:08:59<4:41:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3199/10186 [2:09:00<4:41:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3199/10186 [2:09:00<4:41:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3200/10186 [2:09:06<4:41:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3200/10186 [2:09:06<4:41:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3201/10186 [2:09:07<4:41:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3201/10186 [2:09:07<4:41:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3202/10186 [2:09:08<4:41:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3202/10186 [2:09:08<4:41:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3203/10186 [2:09:09<4:41:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3203/10186 [2:09:09<4:41:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3204/10186 [2:09:16<4:41:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3204/10186 [2:09:16<4:41:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3205/10186 [2:09:17<4:41:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3205/10186 [2:09:17<4:41:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3206/10186 [2:09:18<4:41:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3206/10186 [2:09:18<4:41:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3207/10186 [2:09:19<4:41:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3207/10186 [2:09:19<4:41:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 3208/10186 [2:09:25<4:41:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  31%|▎| 3208/10186 [2:09:25<4:41:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3209/10186 [2:09:26<4:41:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3209/10186 [2:09:26<4:41:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3210/10186 [2:09:27<4:41:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3210/10186 [2:09:27<4:41:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3211/10186 [2:09:28<4:41:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3211/10186 [2:09:28<4:41:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3212/10186 [2:09:35<4:41:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3212/10186 [2:09:35<4:41:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3213/10186 [2:09:36<4:41:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3213/10186 [2:09:36<4:41:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3214/10186 [2:09:37<4:41:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3214/10186 [2:09:37<4:41:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3215/10186 [2:09:38<4:41:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3215/10186 [2:09:38<4:41:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3216/10186 [2:09:44<4:41:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3216/10186 [2:09:44<4:41:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3217/10186 [2:09:45<4:41:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3217/10186 [2:09:45<4:41:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3218/10186 [2:09:46<4:41:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3218/10186 [2:09:46<4:41:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3219/10186 [2:09:48<4:40:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3219/10186 [2:09:48<4:40:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3220/10186 [2:09:54<4:41:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3220/10186 [2:09:54<4:41:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3221/10186 [2:09:55<4:40:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3221/10186 [2:09:55<4:40:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3222/10186 [2:09:56<4:40:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3222/10186 [2:09:56<4:40:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3223/10186 [2:09:57<4:40:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3223/10186 [2:09:57<4:40:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3224/10186 [2:10:04<4:40:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3224/10186 [2:10:04<4:40:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3225/10186 [2:10:05<4:40:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3225/10186 [2:10:05<4:40:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3226/10186 [2:10:06<4:40:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3226/10186 [2:10:06<4:40:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3227/10186 [2:10:07<4:40:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3227/10186 [2:10:07<4:40:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3228/10186 [2:10:13<4:40:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3228/10186 [2:10:13<4:40:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3229/10186 [2:10:14<4:40:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3229/10186 [2:10:14<4:40:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3230/10186 [2:10:15<4:40:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3230/10186 [2:10:15<4:40:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3231/10186 [2:10:16<4:40:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3231/10186 [2:10:16<4:40:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3232/10186 [2:10:23<4:40:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3232/10186 [2:10:23<4:40:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3233/10186 [2:10:24<4:40:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3233/10186 [2:10:24<4:40:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3234/10186 [2:10:25<4:40:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3234/10186 [2:10:25<4:40:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3235/10186 [2:10:26<4:40:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3235/10186 [2:10:26<4:40:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3236/10186 [2:10:32<4:40:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3236/10186 [2:10:32<4:40:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3237/10186 [2:10:33<4:40:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3237/10186 [2:10:33<4:40:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3238/10186 [2:10:34<4:40:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3238/10186 [2:10:34<4:40:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3239/10186 [2:10:35<4:40:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3239/10186 [2:10:35<4:40:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3240/10186 [2:10:42<4:40:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3240/10186 [2:10:42<4:40:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3241/10186 [2:10:43<4:40:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3241/10186 [2:10:43<4:40:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3242/10186 [2:10:44<4:40:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3242/10186 [2:10:44<4:40:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3243/10186 [2:10:45<4:39:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3243/10186 [2:10:45<4:39:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3244/10186 [2:10:52<4:40:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3244/10186 [2:10:52<4:40:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3245/10186 [2:10:53<4:39:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3245/10186 [2:10:53<4:39:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3246/10186 [2:10:54<4:39:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3246/10186 [2:10:54<4:39:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3247/10186 [2:10:55<4:39:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3247/10186 [2:10:55<4:39:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3248/10186 [2:11:01<4:39:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3248/10186 [2:11:01<4:39:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3249/10186 [2:11:02<4:39:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3249/10186 [2:11:02<4:39:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3250/10186 [2:11:03<4:39:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3250/10186 [2:11:03<4:39:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3251/10186 [2:11:04<4:39:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3251/10186 [2:11:04<4:39:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3252/10186 [2:11:11<4:39:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3252/10186 [2:11:11<4:39:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3253/10186 [2:11:12<4:39:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3253/10186 [2:11:12<4:39:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3254/10186 [2:11:13<4:39:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3254/10186 [2:11:13<4:39:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3255/10186 [2:11:14<4:39:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3255/10186 [2:11:14<4:39:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3256/10186 [2:11:20<4:39:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3256/10186 [2:11:20<4:39:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3257/10186 [2:11:21<4:39:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3257/10186 [2:11:21<4:39:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3258/10186 [2:11:22<4:39:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3258/10186 [2:11:22<4:39:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3259/10186 [2:11:23<4:39:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3259/10186 [2:11:23<4:39:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3260/10186 [2:11:30<4:39:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3260/10186 [2:11:30<4:39:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3261/10186 [2:11:31<4:39:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3261/10186 [2:11:31<4:39:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3262/10186 [2:11:32<4:39:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3262/10186 [2:11:32<4:39:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3263/10186 [2:11:33<4:39:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3263/10186 [2:11:33<4:39:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3264/10186 [2:11:39<4:39:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3264/10186 [2:11:39<4:39:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3265/10186 [2:11:40<4:39:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3265/10186 [2:11:40<4:39:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3266/10186 [2:11:41<4:39:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3266/10186 [2:11:41<4:39:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3267/10186 [2:11:43<4:38:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3267/10186 [2:11:43<4:38:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3268/10186 [2:11:49<4:39:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3268/10186 [2:11:49<4:39:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3269/10186 [2:11:50<4:38:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3269/10186 [2:11:50<4:38:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3270/10186 [2:11:51<4:38:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3270/10186 [2:11:51<4:38:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3271/10186 [2:11:52<4:38:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3271/10186 [2:11:52<4:38:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3272/10186 [2:11:59<4:38:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3272/10186 [2:11:59<4:38:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3273/10186 [2:12:00<4:38:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3273/10186 [2:12:00<4:38:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3274/10186 [2:12:01<4:38:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3274/10186 [2:12:01<4:38:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3275/10186 [2:12:02<4:38:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3275/10186 [2:12:02<4:38:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3276/10186 [2:12:08<4:38:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3276/10186 [2:12:08<4:38:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3277/10186 [2:12:09<4:38:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3277/10186 [2:12:09<4:38:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3278/10186 [2:12:10<4:38:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3278/10186 [2:12:10<4:38:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3279/10186 [2:12:11<4:38:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3279/10186 [2:12:11<4:38:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3280/10186 [2:12:18<4:38:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3280/10186 [2:12:18<4:38:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3281/10186 [2:12:19<4:38:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3281/10186 [2:12:19<4:38:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3282/10186 [2:12:20<4:38:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3282/10186 [2:12:20<4:38:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3283/10186 [2:12:21<4:38:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3283/10186 [2:12:21<4:38:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3284/10186 [2:12:27<4:38:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3284/10186 [2:12:27<4:38:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3285/10186 [2:12:28<4:38:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3285/10186 [2:12:28<4:38:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3286/10186 [2:12:29<4:38:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3286/10186 [2:12:29<4:38:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3287/10186 [2:12:30<4:38:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3287/10186 [2:12:30<4:38:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3288/10186 [2:12:37<4:38:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3288/10186 [2:12:37<4:38:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3289/10186 [2:12:38<4:38:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3289/10186 [2:12:38<4:38:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3290/10186 [2:12:39<4:38:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3290/10186 [2:12:39<4:38:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3291/10186 [2:12:40<4:37:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3291/10186 [2:12:40<4:37:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3292/10186 [2:12:46<4:38:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3292/10186 [2:12:46<4:38:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3293/10186 [2:12:48<4:37:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3293/10186 [2:12:48<4:37:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3294/10186 [2:12:49<4:37:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3294/10186 [2:12:49<4:37:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3295/10186 [2:12:50<4:37:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3295/10186 [2:12:50<4:37:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3296/10186 [2:12:56<4:37:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3296/10186 [2:12:56<4:37:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3297/10186 [2:12:57<4:37:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3297/10186 [2:12:57<4:37:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3298/10186 [2:12:58<4:37:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3298/10186 [2:12:58<4:37:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3299/10186 [2:12:59<4:37:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3299/10186 [2:12:59<4:37:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3300/10186 [2:13:06<4:37:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3300/10186 [2:13:06<4:37:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3301/10186 [2:13:07<4:37:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3301/10186 [2:13:07<4:37:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3302/10186 [2:13:08<4:37:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3302/10186 [2:13:08<4:37:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3303/10186 [2:13:09<4:37:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3303/10186 [2:13:09<4:37:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3304/10186 [2:13:15<4:37:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3304/10186 [2:13:15<4:37:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3305/10186 [2:13:16<4:37:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3305/10186 [2:13:16<4:37:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3306/10186 [2:13:17<4:37:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3306/10186 [2:13:17<4:37:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3307/10186 [2:13:18<4:37:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3307/10186 [2:13:18<4:37:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3308/10186 [2:13:25<4:37:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3308/10186 [2:13:25<4:37:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3309/10186 [2:13:26<4:37:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3309/10186 [2:13:26<4:37:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 3310/10186 [2:13:27<4:37:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  32%|▎| 3310/10186 [2:13:27<4:37:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3311/10186 [2:13:28<4:37:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3311/10186 [2:13:28<4:37:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3312/10186 [2:13:34<4:37:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3312/10186 [2:13:34<4:37:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3313/10186 [2:13:35<4:37:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3313/10186 [2:13:35<4:37:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3314/10186 [2:13:36<4:37:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3314/10186 [2:13:36<4:37:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3315/10186 [2:13:38<4:36:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3315/10186 [2:13:38<4:36:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3316/10186 [2:13:44<4:37:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3316/10186 [2:13:44<4:37:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3317/10186 [2:13:45<4:36:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3317/10186 [2:13:45<4:36:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3318/10186 [2:13:46<4:36:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3318/10186 [2:13:46<4:36:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3319/10186 [2:13:47<4:36:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3319/10186 [2:13:47<4:36:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3320/10186 [2:13:54<4:36:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3320/10186 [2:13:54<4:36:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3321/10186 [2:13:55<4:36:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3321/10186 [2:13:55<4:36:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3322/10186 [2:13:56<4:36:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3322/10186 [2:13:56<4:36:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3323/10186 [2:13:57<4:36:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3323/10186 [2:13:57<4:36:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3324/10186 [2:14:03<4:36:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3324/10186 [2:14:03<4:36:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3325/10186 [2:14:04<4:36:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3325/10186 [2:14:04<4:36:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3326/10186 [2:14:05<4:36:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3326/10186 [2:14:05<4:36:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3327/10186 [2:14:06<4:36:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3327/10186 [2:14:06<4:36:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3328/10186 [2:14:13<4:36:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3328/10186 [2:14:13<4:36:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3329/10186 [2:14:14<4:36:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3329/10186 [2:14:14<4:36:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3330/10186 [2:14:15<4:36:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3330/10186 [2:14:15<4:36:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3331/10186 [2:14:16<4:36:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3331/10186 [2:14:16<4:36:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3332/10186 [2:14:22<4:36:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3332/10186 [2:14:22<4:36:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3333/10186 [2:14:23<4:36:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3333/10186 [2:14:23<4:36:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3334/10186 [2:14:24<4:36:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3334/10186 [2:14:24<4:36:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3335/10186 [2:14:25<4:36:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3335/10186 [2:14:25<4:36:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3336/10186 [2:14:32<4:36:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3336/10186 [2:14:32<4:36:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3337/10186 [2:14:33<4:36:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3337/10186 [2:14:33<4:36:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3338/10186 [2:14:34<4:36:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3338/10186 [2:14:34<4:36:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3339/10186 [2:14:35<4:35:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3339/10186 [2:14:35<4:35:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3340/10186 [2:14:41<4:36:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3340/10186 [2:14:41<4:36:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3341/10186 [2:14:43<4:36:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3341/10186 [2:14:43<4:36:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3342/10186 [2:14:44<4:35:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3342/10186 [2:14:44<4:35:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3343/10186 [2:14:45<4:35:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3343/10186 [2:14:45<4:35:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3344/10186 [2:14:51<4:35:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3344/10186 [2:14:51<4:35:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3345/10186 [2:14:52<4:35:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3345/10186 [2:14:52<4:35:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3346/10186 [2:14:53<4:35:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3346/10186 [2:14:53<4:35:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3347/10186 [2:14:54<4:35:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3347/10186 [2:14:54<4:35:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3348/10186 [2:15:01<4:35:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3348/10186 [2:15:01<4:35:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3349/10186 [2:15:02<4:35:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3349/10186 [2:15:02<4:35:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3350/10186 [2:15:03<4:35:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3350/10186 [2:15:03<4:35:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3351/10186 [2:15:04<4:35:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3351/10186 [2:15:04<4:35:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3352/10186 [2:15:10<4:35:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3352/10186 [2:15:10<4:35:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3353/10186 [2:15:11<4:35:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3353/10186 [2:15:11<4:35:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3354/10186 [2:15:12<4:35:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3354/10186 [2:15:12<4:35:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3355/10186 [2:15:13<4:35:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3355/10186 [2:15:13<4:35:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3356/10186 [2:15:20<4:35:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3356/10186 [2:15:20<4:35:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3357/10186 [2:15:21<4:35:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3357/10186 [2:15:21<4:35:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3358/10186 [2:15:22<4:35:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3358/10186 [2:15:22<4:35:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3359/10186 [2:15:23<4:35:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3359/10186 [2:15:23<4:35:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3360/10186 [2:15:29<4:35:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3360/10186 [2:15:29<4:35:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3361/10186 [2:15:30<4:35:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3361/10186 [2:15:30<4:35:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3362/10186 [2:15:31<4:35:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3362/10186 [2:15:31<4:35:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3363/10186 [2:15:33<4:35:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3363/10186 [2:15:33<4:35:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3364/10186 [2:15:39<4:35:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3364/10186 [2:15:39<4:35:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3365/10186 [2:15:40<4:35:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3365/10186 [2:15:40<4:35:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3366/10186 [2:15:41<4:34:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3366/10186 [2:15:41<4:34:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3367/10186 [2:15:42<4:34:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3367/10186 [2:15:42<4:34:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3368/10186 [2:15:49<4:34:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3368/10186 [2:15:49<4:34:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3369/10186 [2:15:50<4:34:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3369/10186 [2:15:50<4:34:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3370/10186 [2:15:51<4:34:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3370/10186 [2:15:51<4:34:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3371/10186 [2:15:52<4:34:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3371/10186 [2:15:52<4:34:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3372/10186 [2:15:58<4:34:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3372/10186 [2:15:58<4:34:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3373/10186 [2:15:59<4:34:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3373/10186 [2:15:59<4:34:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3374/10186 [2:16:00<4:34:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3374/10186 [2:16:00<4:34:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3375/10186 [2:16:01<4:34:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3375/10186 [2:16:01<4:34:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3376/10186 [2:16:08<4:34:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3376/10186 [2:16:08<4:34:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3377/10186 [2:16:09<4:34:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3377/10186 [2:16:09<4:34:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3378/10186 [2:16:10<4:34:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3378/10186 [2:16:10<4:34:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3379/10186 [2:16:11<4:34:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3379/10186 [2:16:11<4:34:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3380/10186 [2:16:17<4:34:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3380/10186 [2:16:17<4:34:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3381/10186 [2:16:18<4:34:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3381/10186 [2:16:18<4:34:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3382/10186 [2:16:19<4:34:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3382/10186 [2:16:19<4:34:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3383/10186 [2:16:20<4:34:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3383/10186 [2:16:20<4:34:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3384/10186 [2:16:27<4:34:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3384/10186 [2:16:27<4:34:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3385/10186 [2:16:28<4:34:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3385/10186 [2:16:28<4:34:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3386/10186 [2:16:29<4:34:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3386/10186 [2:16:29<4:34:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3387/10186 [2:16:30<4:34:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3387/10186 [2:16:30<4:34:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3388/10186 [2:16:36<4:34:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3388/10186 [2:16:36<4:34:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3389/10186 [2:16:37<4:34:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3389/10186 [2:16:37<4:34:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3390/10186 [2:16:39<4:33:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3390/10186 [2:16:39<4:33:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3391/10186 [2:16:40<4:33:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3391/10186 [2:16:40<4:33:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3392/10186 [2:16:46<4:33:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3392/10186 [2:16:46<4:33:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3393/10186 [2:16:47<4:33:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3393/10186 [2:16:47<4:33:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3394/10186 [2:16:48<4:33:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3394/10186 [2:16:48<4:33:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3395/10186 [2:16:49<4:33:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3395/10186 [2:16:49<4:33:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3396/10186 [2:16:56<4:33:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3396/10186 [2:16:56<4:33:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3397/10186 [2:16:57<4:33:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3397/10186 [2:16:57<4:33:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3398/10186 [2:16:58<4:33:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3398/10186 [2:16:58<4:33:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3399/10186 [2:16:59<4:33:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3399/10186 [2:16:59<4:33:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3400/10186 [2:17:05<4:33:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3400/10186 [2:17:05<4:33:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3401/10186 [2:17:06<4:33:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3401/10186 [2:17:06<4:33:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3402/10186 [2:17:07<4:33:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3402/10186 [2:17:07<4:33:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3403/10186 [2:17:08<4:33:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3403/10186 [2:17:08<4:33:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3404/10186 [2:17:15<4:33:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3404/10186 [2:17:15<4:33:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3405/10186 [2:17:16<4:33:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3405/10186 [2:17:16<4:33:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3406/10186 [2:17:17<4:33:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3406/10186 [2:17:17<4:33:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3407/10186 [2:17:18<4:33:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3407/10186 [2:17:18<4:33:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3408/10186 [2:17:24<4:33:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3408/10186 [2:17:24<4:33:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3409/10186 [2:17:25<4:33:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3409/10186 [2:17:25<4:33:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3410/10186 [2:17:26<4:33:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3410/10186 [2:17:26<4:33:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3411/10186 [2:17:27<4:33:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3411/10186 [2:17:27<4:33:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 3412/10186 [2:17:34<4:33:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  33%|▎| 3412/10186 [2:17:34<4:33:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3413/10186 [2:17:35<4:33:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3413/10186 [2:17:35<4:33:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3414/10186 [2:17:36<4:32:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3414/10186 [2:17:36<4:32:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3415/10186 [2:17:37<4:32:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3415/10186 [2:17:37<4:32:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3416/10186 [2:17:44<4:32:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3416/10186 [2:17:44<4:32:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3417/10186 [2:17:45<4:32:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3417/10186 [2:17:45<4:32:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3418/10186 [2:17:46<4:32:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3418/10186 [2:17:46<4:32:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3419/10186 [2:17:47<4:32:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3419/10186 [2:17:47<4:32:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3420/10186 [2:17:53<4:32:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3420/10186 [2:17:53<4:32:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3421/10186 [2:17:54<4:32:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3421/10186 [2:17:54<4:32:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3422/10186 [2:17:55<4:32:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3422/10186 [2:17:55<4:32:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3423/10186 [2:17:56<4:32:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3423/10186 [2:17:56<4:32:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3424/10186 [2:18:03<4:32:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3424/10186 [2:18:03<4:32:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3425/10186 [2:18:04<4:32:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3425/10186 [2:18:04<4:32:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3426/10186 [2:18:05<4:32:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3426/10186 [2:18:05<4:32:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3427/10186 [2:18:06<4:32:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3427/10186 [2:18:06<4:32:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3428/10186 [2:18:12<4:32:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3428/10186 [2:18:12<4:32:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3429/10186 [2:18:13<4:32:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3429/10186 [2:18:13<4:32:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3430/10186 [2:18:14<4:32:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3430/10186 [2:18:14<4:32:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3431/10186 [2:18:15<4:32:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3431/10186 [2:18:15<4:32:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3432/10186 [2:18:22<4:32:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3432/10186 [2:18:22<4:32:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3433/10186 [2:18:23<4:32:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3433/10186 [2:18:23<4:32:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3434/10186 [2:18:24<4:32:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3434/10186 [2:18:24<4:32:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3435/10186 [2:18:25<4:32:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3435/10186 [2:18:25<4:32:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3436/10186 [2:18:31<4:32:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3436/10186 [2:18:31<4:32:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3437/10186 [2:18:32<4:32:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3437/10186 [2:18:32<4:32:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3438/10186 [2:18:33<4:31:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3438/10186 [2:18:33<4:31:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3439/10186 [2:18:35<4:31:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3439/10186 [2:18:35<4:31:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3440/10186 [2:18:41<4:31:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3440/10186 [2:18:41<4:31:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3441/10186 [2:18:42<4:31:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3441/10186 [2:18:42<4:31:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3442/10186 [2:18:43<4:31:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3442/10186 [2:18:43<4:31:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3443/10186 [2:18:44<4:31:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3443/10186 [2:18:44<4:31:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3444/10186 [2:18:51<4:31:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3444/10186 [2:18:51<4:31:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3445/10186 [2:18:52<4:31:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3445/10186 [2:18:52<4:31:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3446/10186 [2:18:53<4:31:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3446/10186 [2:18:53<4:31:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3447/10186 [2:18:54<4:31:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3447/10186 [2:18:54<4:31:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3448/10186 [2:19:00<4:31:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3448/10186 [2:19:00<4:31:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3449/10186 [2:19:01<4:31:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3449/10186 [2:19:01<4:31:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3450/10186 [2:19:02<4:31:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3450/10186 [2:19:02<4:31:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3451/10186 [2:19:03<4:31:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3451/10186 [2:19:03<4:31:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3452/10186 [2:19:10<4:31:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3452/10186 [2:19:10<4:31:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3453/10186 [2:19:11<4:31:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3453/10186 [2:19:11<4:31:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3454/10186 [2:19:12<4:31:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3454/10186 [2:19:12<4:31:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3455/10186 [2:19:13<4:31:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3455/10186 [2:19:13<4:31:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3456/10186 [2:19:19<4:31:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3456/10186 [2:19:19<4:31:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3457/10186 [2:19:20<4:31:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3457/10186 [2:19:20<4:31:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3458/10186 [2:19:21<4:31:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3458/10186 [2:19:21<4:31:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3459/10186 [2:19:22<4:31:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3459/10186 [2:19:22<4:31:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3460/10186 [2:19:29<4:31:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3460/10186 [2:19:29<4:31:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3461/10186 [2:19:30<4:31:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3461/10186 [2:19:30<4:31:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3462/10186 [2:19:31<4:30:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3462/10186 [2:19:31<4:30:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3463/10186 [2:19:32<4:30:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3463/10186 [2:19:32<4:30:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3464/10186 [2:19:38<4:30:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3464/10186 [2:19:38<4:30:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3465/10186 [2:19:39<4:30:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3465/10186 [2:19:39<4:30:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3466/10186 [2:19:40<4:30:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3466/10186 [2:19:40<4:30:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3467/10186 [2:19:42<4:30:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3467/10186 [2:19:42<4:30:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3468/10186 [2:19:48<4:30:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3468/10186 [2:19:48<4:30:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3469/10186 [2:19:49<4:30:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3469/10186 [2:19:49<4:30:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3470/10186 [2:19:50<4:30:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3470/10186 [2:19:50<4:30:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3471/10186 [2:19:51<4:30:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3471/10186 [2:19:51<4:30:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3472/10186 [2:19:58<4:30:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3472/10186 [2:19:58<4:30:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3473/10186 [2:19:59<4:30:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3473/10186 [2:19:59<4:30:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3474/10186 [2:20:00<4:30:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3474/10186 [2:20:00<4:30:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3475/10186 [2:20:01<4:30:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3475/10186 [2:20:01<4:30:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3476/10186 [2:20:07<4:30:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3476/10186 [2:20:07<4:30:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3477/10186 [2:20:08<4:30:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3477/10186 [2:20:08<4:30:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3478/10186 [2:20:09<4:30:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3478/10186 [2:20:09<4:30:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3479/10186 [2:20:10<4:30:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3479/10186 [2:20:10<4:30:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3480/10186 [2:20:17<4:30:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3480/10186 [2:20:17<4:30:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3481/10186 [2:20:18<4:30:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3481/10186 [2:20:18<4:30:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3482/10186 [2:20:19<4:30:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3482/10186 [2:20:19<4:30:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3483/10186 [2:20:20<4:30:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3483/10186 [2:20:20<4:30:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3484/10186 [2:20:26<4:30:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3484/10186 [2:20:26<4:30:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3485/10186 [2:20:27<4:30:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3485/10186 [2:20:27<4:30:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3486/10186 [2:20:28<4:30:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3486/10186 [2:20:28<4:30:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3487/10186 [2:20:29<4:29:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3487/10186 [2:20:29<4:29:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3488/10186 [2:20:36<4:30:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3488/10186 [2:20:36<4:30:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3489/10186 [2:20:37<4:29:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3489/10186 [2:20:37<4:29:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3490/10186 [2:20:38<4:29:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3490/10186 [2:20:38<4:29:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3491/10186 [2:20:39<4:29:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3491/10186 [2:20:39<4:29:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3492/10186 [2:20:45<4:29:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3492/10186 [2:20:45<4:29:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3493/10186 [2:20:46<4:29:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3493/10186 [2:20:46<4:29:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3494/10186 [2:20:48<4:29:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3494/10186 [2:20:48<4:29:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3495/10186 [2:20:49<4:29:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3495/10186 [2:20:49<4:29:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3496/10186 [2:20:55<4:29:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3496/10186 [2:20:55<4:29:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3497/10186 [2:20:56<4:29:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3497/10186 [2:20:56<4:29:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3498/10186 [2:20:57<4:29:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3498/10186 [2:20:57<4:29:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3499/10186 [2:20:58<4:29:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3499/10186 [2:20:58<4:29:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3500/10186 [2:21:05<4:29:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3500/10186 [2:21:05<4:29:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3501/10186 [2:21:06<4:29:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3501/10186 [2:21:06<4:29:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3502/10186 [2:21:07<4:29:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3502/10186 [2:21:07<4:29:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3503/10186 [2:21:08<4:29:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3503/10186 [2:21:08<4:29:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3504/10186 [2:21:14<4:29:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3504/10186 [2:21:14<4:29:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3505/10186 [2:21:15<4:29:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3505/10186 [2:21:15<4:29:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3506/10186 [2:21:16<4:29:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3506/10186 [2:21:16<4:29:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3507/10186 [2:21:17<4:29:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3507/10186 [2:21:17<4:29:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3508/10186 [2:21:24<4:29:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3508/10186 [2:21:24<4:29:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3509/10186 [2:21:25<4:29:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3509/10186 [2:21:25<4:29:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3510/10186 [2:21:26<4:29:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3510/10186 [2:21:26<4:29:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3511/10186 [2:21:27<4:28:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3511/10186 [2:21:27<4:28:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3512/10186 [2:21:33<4:29:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3512/10186 [2:21:33<4:29:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3513/10186 [2:21:34<4:28:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3513/10186 [2:21:34<4:28:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 3514/10186 [2:21:35<4:28:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  34%|▎| 3514/10186 [2:21:35<4:28:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3515/10186 [2:21:36<4:28:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3515/10186 [2:21:36<4:28:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3516/10186 [2:21:43<4:28:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3516/10186 [2:21:43<4:28:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3517/10186 [2:21:44<4:28:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3517/10186 [2:21:44<4:28:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3518/10186 [2:21:45<4:28:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3518/10186 [2:21:45<4:28:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3519/10186 [2:21:46<4:28:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3519/10186 [2:21:46<4:28:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3520/10186 [2:21:52<4:28:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3520/10186 [2:21:52<4:28:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3521/10186 [2:21:53<4:28:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3521/10186 [2:21:53<4:28:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3522/10186 [2:21:55<4:28:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3522/10186 [2:21:55<4:28:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3523/10186 [2:21:56<4:28:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3523/10186 [2:21:56<4:28:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3524/10186 [2:22:02<4:28:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3524/10186 [2:22:02<4:28:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3525/10186 [2:22:03<4:28:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3525/10186 [2:22:03<4:28:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3526/10186 [2:22:04<4:28:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3526/10186 [2:22:04<4:28:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3527/10186 [2:22:05<4:28:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3527/10186 [2:22:05<4:28:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3528/10186 [2:22:12<4:28:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3528/10186 [2:22:12<4:28:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3529/10186 [2:22:13<4:28:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3529/10186 [2:22:13<4:28:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3530/10186 [2:22:14<4:28:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3530/10186 [2:22:14<4:28:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3531/10186 [2:22:15<4:28:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3531/10186 [2:22:15<4:28:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3532/10186 [2:22:21<4:28:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3532/10186 [2:22:21<4:28:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3533/10186 [2:22:22<4:28:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3533/10186 [2:22:22<4:28:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3534/10186 [2:22:23<4:28:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3534/10186 [2:22:23<4:28:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3535/10186 [2:22:24<4:27:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3535/10186 [2:22:24<4:27:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3536/10186 [2:22:31<4:28:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3536/10186 [2:22:31<4:28:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3537/10186 [2:22:32<4:27:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3537/10186 [2:22:32<4:27:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3538/10186 [2:22:33<4:27:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3538/10186 [2:22:33<4:27:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3539/10186 [2:22:34<4:27:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3539/10186 [2:22:34<4:27:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3540/10186 [2:22:40<4:27:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3540/10186 [2:22:40<4:27:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3541/10186 [2:22:41<4:27:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3541/10186 [2:22:41<4:27:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3542/10186 [2:22:42<4:27:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3542/10186 [2:22:42<4:27:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3543/10186 [2:22:43<4:27:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3543/10186 [2:22:43<4:27:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3544/10186 [2:22:50<4:27:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3544/10186 [2:22:50<4:27:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3545/10186 [2:22:51<4:27:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3545/10186 [2:22:51<4:27:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3546/10186 [2:22:52<4:27:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3546/10186 [2:22:52<4:27:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3547/10186 [2:22:53<4:27:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3547/10186 [2:22:53<4:27:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3548/10186 [2:23:00<4:27:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3548/10186 [2:23:00<4:27:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3549/10186 [2:23:01<4:27:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3549/10186 [2:23:01<4:27:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3550/10186 [2:23:02<4:27:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3550/10186 [2:23:02<4:27:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3551/10186 [2:23:03<4:27:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3551/10186 [2:23:03<4:27:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3552/10186 [2:23:09<4:27:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3552/10186 [2:23:09<4:27:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3553/10186 [2:23:10<4:27:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3553/10186 [2:23:10<4:27:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3554/10186 [2:23:11<4:27:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3554/10186 [2:23:11<4:27:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3555/10186 [2:23:12<4:27:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3555/10186 [2:23:12<4:27:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3556/10186 [2:23:19<4:27:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3556/10186 [2:23:19<4:27:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3557/10186 [2:23:20<4:27:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3557/10186 [2:23:20<4:27:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3558/10186 [2:23:21<4:27:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3558/10186 [2:23:21<4:27:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3559/10186 [2:23:22<4:26:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3559/10186 [2:23:22<4:26:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3560/10186 [2:23:28<4:27:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3560/10186 [2:23:28<4:27:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3561/10186 [2:23:29<4:26:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3561/10186 [2:23:29<4:26:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3562/10186 [2:23:30<4:26:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3562/10186 [2:23:30<4:26:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3563/10186 [2:23:31<4:26:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3563/10186 [2:23:31<4:26:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3564/10186 [2:23:38<4:26:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3564/10186 [2:23:38<4:26:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3565/10186 [2:23:39<4:26:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3565/10186 [2:23:39<4:26:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3566/10186 [2:23:40<4:26:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3566/10186 [2:23:40<4:26:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3567/10186 [2:23:41<4:26:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3567/10186 [2:23:41<4:26:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3568/10186 [2:23:47<4:26:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3568/10186 [2:23:47<4:26:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3569/10186 [2:23:48<4:26:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3569/10186 [2:23:48<4:26:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3570/10186 [2:23:49<4:26:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3570/10186 [2:23:49<4:26:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3571/10186 [2:23:51<4:26:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3571/10186 [2:23:51<4:26:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3572/10186 [2:23:57<4:26:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3572/10186 [2:23:57<4:26:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3573/10186 [2:23:58<4:26:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3573/10186 [2:23:58<4:26:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3574/10186 [2:23:59<4:26:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3574/10186 [2:23:59<4:26:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3575/10186 [2:24:00<4:26:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3575/10186 [2:24:00<4:26:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3576/10186 [2:24:07<4:26:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3576/10186 [2:24:07<4:26:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3577/10186 [2:24:08<4:26:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3577/10186 [2:24:08<4:26:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3578/10186 [2:24:09<4:26:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3578/10186 [2:24:09<4:26:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3579/10186 [2:24:10<4:26:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3579/10186 [2:24:10<4:26:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3580/10186 [2:24:16<4:26:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3580/10186 [2:24:16<4:26:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3581/10186 [2:24:17<4:26:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3581/10186 [2:24:17<4:26:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3582/10186 [2:24:18<4:26:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3582/10186 [2:24:18<4:26:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3583/10186 [2:24:19<4:25:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3583/10186 [2:24:19<4:25:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3584/10186 [2:24:26<4:26:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3584/10186 [2:24:26<4:26:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3585/10186 [2:24:27<4:25:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3585/10186 [2:24:27<4:25:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3586/10186 [2:24:28<4:25:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3586/10186 [2:24:28<4:25:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3587/10186 [2:24:29<4:25:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3587/10186 [2:24:29<4:25:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3588/10186 [2:24:35<4:25:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3588/10186 [2:24:35<4:25:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3589/10186 [2:24:36<4:25:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3589/10186 [2:24:36<4:25:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3590/10186 [2:24:37<4:25:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3590/10186 [2:24:37<4:25:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3591/10186 [2:24:38<4:25:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3591/10186 [2:24:38<4:25:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3592/10186 [2:24:45<4:25:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3592/10186 [2:24:45<4:25:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3593/10186 [2:24:46<4:25:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3593/10186 [2:24:46<4:25:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3594/10186 [2:24:47<4:25:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3594/10186 [2:24:47<4:25:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3595/10186 [2:24:48<4:25:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3595/10186 [2:24:48<4:25:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3596/10186 [2:24:54<4:25:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3596/10186 [2:24:54<4:25:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3597/10186 [2:24:55<4:25:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3597/10186 [2:24:55<4:25:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3598/10186 [2:24:57<4:25:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3598/10186 [2:24:57<4:25:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3599/10186 [2:24:58<4:25:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3599/10186 [2:24:58<4:25:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3600/10186 [2:25:04<4:25:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3600/10186 [2:25:04<4:25:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3601/10186 [2:25:05<4:25:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3601/10186 [2:25:05<4:25:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3602/10186 [2:25:06<4:25:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3602/10186 [2:25:06<4:25:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3603/10186 [2:25:07<4:25:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3603/10186 [2:25:07<4:25:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3604/10186 [2:25:14<4:25:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3604/10186 [2:25:14<4:25:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3605/10186 [2:25:15<4:25:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3605/10186 [2:25:15<4:25:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3606/10186 [2:25:16<4:25:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3606/10186 [2:25:16<4:25:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3607/10186 [2:25:17<4:24:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3607/10186 [2:25:17<4:24:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3608/10186 [2:25:23<4:25:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3608/10186 [2:25:23<4:25:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3609/10186 [2:25:24<4:24:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3609/10186 [2:25:24<4:24:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3610/10186 [2:25:25<4:24:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3610/10186 [2:25:25<4:24:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3611/10186 [2:25:26<4:24:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3611/10186 [2:25:26<4:24:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3612/10186 [2:25:33<4:24:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3612/10186 [2:25:33<4:24:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3613/10186 [2:25:34<4:24:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3613/10186 [2:25:34<4:24:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3614/10186 [2:25:35<4:24:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3614/10186 [2:25:35<4:24:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3615/10186 [2:25:36<4:24:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3615/10186 [2:25:36<4:24:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 3616/10186 [2:25:42<4:24:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  35%|▎| 3616/10186 [2:25:42<4:24:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3617/10186 [2:25:43<4:24:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3617/10186 [2:25:43<4:24:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3618/10186 [2:25:44<4:24:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3618/10186 [2:25:44<4:24:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3619/10186 [2:25:45<4:24:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3619/10186 [2:25:45<4:24:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3620/10186 [2:25:52<4:24:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3620/10186 [2:25:52<4:24:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3621/10186 [2:25:53<4:24:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3621/10186 [2:25:53<4:24:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3622/10186 [2:25:54<4:24:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3622/10186 [2:25:54<4:24:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3623/10186 [2:25:55<4:24:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3623/10186 [2:25:55<4:24:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3624/10186 [2:26:01<4:24:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3624/10186 [2:26:01<4:24:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3625/10186 [2:26:02<4:24:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3625/10186 [2:26:02<4:24:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3626/10186 [2:26:04<4:24:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3626/10186 [2:26:04<4:24:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3627/10186 [2:26:05<4:24:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3627/10186 [2:26:05<4:24:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3628/10186 [2:26:11<4:24:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3628/10186 [2:26:11<4:24:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3629/10186 [2:26:12<4:24:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3629/10186 [2:26:12<4:24:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3630/10186 [2:26:13<4:24:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3630/10186 [2:26:13<4:24:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3631/10186 [2:26:14<4:24:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3631/10186 [2:26:14<4:24:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3632/10186 [2:26:21<4:24:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3632/10186 [2:26:21<4:24:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3633/10186 [2:26:22<4:24:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3633/10186 [2:26:22<4:24:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3634/10186 [2:26:23<4:23:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3634/10186 [2:26:23<4:23:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3635/10186 [2:26:24<4:23:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3635/10186 [2:26:24<4:23:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3636/10186 [2:26:30<4:23:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3636/10186 [2:26:30<4:23:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3637/10186 [2:26:31<4:23:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3637/10186 [2:26:31<4:23:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3638/10186 [2:26:32<4:23:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3638/10186 [2:26:32<4:23:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3639/10186 [2:26:33<4:23:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3639/10186 [2:26:33<4:23:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3640/10186 [2:26:40<4:23:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3640/10186 [2:26:40<4:23:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3641/10186 [2:26:41<4:23:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3641/10186 [2:26:41<4:23:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3642/10186 [2:26:42<4:23:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3642/10186 [2:26:42<4:23:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3643/10186 [2:26:43<4:23:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3643/10186 [2:26:43<4:23:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3644/10186 [2:26:49<4:23:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3644/10186 [2:26:49<4:23:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3645/10186 [2:26:50<4:23:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3645/10186 [2:26:50<4:23:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3646/10186 [2:26:51<4:23:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3646/10186 [2:26:51<4:23:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3647/10186 [2:26:52<4:23:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3647/10186 [2:26:52<4:23:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3648/10186 [2:26:59<4:23:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3648/10186 [2:26:59<4:23:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3649/10186 [2:27:00<4:23:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3649/10186 [2:27:00<4:23:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3650/10186 [2:27:01<4:23:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3650/10186 [2:27:01<4:23:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3651/10186 [2:27:02<4:23:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3651/10186 [2:27:02<4:23:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3652/10186 [2:27:08<4:23:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3652/10186 [2:27:08<4:23:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3653/10186 [2:27:10<4:23:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3653/10186 [2:27:10<4:23:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3654/10186 [2:27:11<4:23:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3654/10186 [2:27:11<4:23:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3655/10186 [2:27:12<4:23:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3655/10186 [2:27:12<4:23:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3656/10186 [2:27:18<4:23:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3656/10186 [2:27:18<4:23:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3657/10186 [2:27:19<4:23:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3657/10186 [2:27:19<4:23:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3658/10186 [2:27:20<4:22:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3658/10186 [2:27:20<4:22:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3659/10186 [2:27:21<4:22:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3659/10186 [2:27:21<4:22:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3660/10186 [2:27:28<4:22:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3660/10186 [2:27:28<4:22:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3661/10186 [2:27:29<4:22:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3661/10186 [2:27:29<4:22:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3662/10186 [2:27:30<4:22:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3662/10186 [2:27:30<4:22:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3663/10186 [2:27:31<4:22:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3663/10186 [2:27:31<4:22:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3664/10186 [2:27:37<4:22:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3664/10186 [2:27:37<4:22:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3665/10186 [2:27:38<4:22:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3665/10186 [2:27:38<4:22:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3666/10186 [2:27:39<4:22:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3666/10186 [2:27:39<4:22:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3667/10186 [2:27:40<4:22:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3667/10186 [2:27:40<4:22:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3668/10186 [2:27:47<4:22:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3668/10186 [2:27:47<4:22:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3669/10186 [2:27:48<4:22:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3669/10186 [2:27:48<4:22:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3670/10186 [2:27:49<4:22:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3670/10186 [2:27:49<4:22:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3671/10186 [2:27:50<4:22:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3671/10186 [2:27:50<4:22:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3672/10186 [2:27:56<4:22:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3672/10186 [2:27:56<4:22:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3673/10186 [2:27:57<4:22:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3673/10186 [2:27:57<4:22:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3674/10186 [2:27:58<4:22:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3674/10186 [2:27:58<4:22:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3675/10186 [2:28:00<4:22:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3675/10186 [2:28:00<4:22:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3676/10186 [2:28:06<4:22:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3676/10186 [2:28:06<4:22:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3677/10186 [2:28:07<4:22:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3677/10186 [2:28:07<4:22:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3678/10186 [2:28:08<4:22:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3678/10186 [2:28:08<4:22:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3679/10186 [2:28:09<4:22:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3679/10186 [2:28:09<4:22:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3680/10186 [2:28:16<4:22:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3680/10186 [2:28:16<4:22:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3681/10186 [2:28:17<4:22:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3681/10186 [2:28:17<4:22:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3682/10186 [2:28:18<4:21:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3682/10186 [2:28:18<4:21:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3683/10186 [2:28:19<4:21:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3683/10186 [2:28:19<4:21:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3684/10186 [2:28:25<4:21:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3684/10186 [2:28:25<4:21:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3685/10186 [2:28:26<4:21:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3685/10186 [2:28:26<4:21:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3686/10186 [2:28:27<4:21:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3686/10186 [2:28:27<4:21:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3687/10186 [2:28:28<4:21:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3687/10186 [2:28:28<4:21:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3688/10186 [2:28:35<4:21:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3688/10186 [2:28:35<4:21:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3689/10186 [2:28:36<4:21:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3689/10186 [2:28:36<4:21:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3690/10186 [2:28:37<4:21:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3690/10186 [2:28:37<4:21:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3691/10186 [2:28:38<4:21:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3691/10186 [2:28:38<4:21:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3692/10186 [2:28:44<4:21:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3692/10186 [2:28:44<4:21:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3693/10186 [2:28:45<4:21:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3693/10186 [2:28:45<4:21:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3694/10186 [2:28:46<4:21:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3694/10186 [2:28:46<4:21:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3695/10186 [2:28:47<4:21:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3695/10186 [2:28:47<4:21:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3696/10186 [2:28:54<4:21:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3696/10186 [2:28:54<4:21:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3697/10186 [2:28:55<4:21:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3697/10186 [2:28:55<4:21:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3698/10186 [2:28:56<4:21:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3698/10186 [2:28:56<4:21:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3699/10186 [2:28:57<4:21:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3699/10186 [2:28:57<4:21:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3700/10186 [2:29:03<4:21:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3700/10186 [2:29:03<4:21:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3701/10186 [2:29:04<4:21:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3701/10186 [2:29:04<4:21:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3702/10186 [2:29:06<4:21:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3702/10186 [2:29:06<4:21:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3703/10186 [2:29:07<4:21:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3703/10186 [2:29:07<4:21:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3704/10186 [2:29:13<4:21:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3704/10186 [2:29:13<4:21:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3705/10186 [2:29:14<4:21:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3705/10186 [2:29:14<4:21:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3706/10186 [2:29:15<4:20:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3706/10186 [2:29:15<4:20:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3707/10186 [2:29:16<4:20:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3707/10186 [2:29:16<4:20:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3708/10186 [2:29:23<4:20:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3708/10186 [2:29:23<4:20:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3709/10186 [2:29:24<4:20:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3709/10186 [2:29:24<4:20:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3710/10186 [2:29:25<4:20:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3710/10186 [2:29:25<4:20:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3711/10186 [2:29:26<4:20:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3711/10186 [2:29:26<4:20:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3712/10186 [2:29:32<4:20:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3712/10186 [2:29:32<4:20:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3713/10186 [2:29:33<4:20:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3713/10186 [2:29:33<4:20:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3714/10186 [2:29:34<4:20:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3714/10186 [2:29:34<4:20:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3715/10186 [2:29:35<4:20:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3715/10186 [2:29:35<4:20:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3716/10186 [2:29:42<4:20:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  36%|▎| 3716/10186 [2:29:42<4:20:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3717/10186 [2:29:43<4:20:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 3717/10186 [2:29:43<4:20:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3718/10186 [2:29:44<4:20:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3718/10186 [2:29:44<4:20:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3719/10186 [2:29:45<4:20:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3719/10186 [2:29:45<4:20:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3720/10186 [2:29:51<4:20:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3720/10186 [2:29:51<4:20:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3721/10186 [2:29:52<4:20:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3721/10186 [2:29:52<4:20:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3722/10186 [2:29:53<4:20:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3722/10186 [2:29:53<4:20:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3723/10186 [2:29:54<4:20:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3723/10186 [2:29:54<4:20:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3724/10186 [2:30:01<4:20:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3724/10186 [2:30:01<4:20:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3725/10186 [2:30:02<4:20:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3725/10186 [2:30:02<4:20:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3726/10186 [2:30:03<4:20:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3726/10186 [2:30:03<4:20:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3727/10186 [2:30:04<4:20:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3727/10186 [2:30:04<4:20:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3728/10186 [2:30:10<4:20:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3728/10186 [2:30:10<4:20:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3729/10186 [2:30:12<4:20:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3729/10186 [2:30:12<4:20:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3730/10186 [2:30:13<4:20:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3730/10186 [2:30:13<4:20:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3731/10186 [2:30:14<4:19:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3731/10186 [2:30:14<4:19:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3732/10186 [2:30:20<4:19:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3732/10186 [2:30:20<4:19:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3733/10186 [2:30:21<4:19:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3733/10186 [2:30:21<4:19:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3734/10186 [2:30:22<4:19:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3734/10186 [2:30:22<4:19:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3735/10186 [2:30:23<4:19:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3735/10186 [2:30:23<4:19:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3736/10186 [2:30:30<4:19:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3736/10186 [2:30:30<4:19:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3737/10186 [2:30:31<4:19:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3737/10186 [2:30:31<4:19:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3738/10186 [2:30:32<4:19:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3738/10186 [2:30:32<4:19:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3739/10186 [2:30:33<4:19:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3739/10186 [2:30:33<4:19:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3740/10186 [2:30:39<4:19:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3740/10186 [2:30:39<4:19:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3741/10186 [2:30:40<4:19:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3741/10186 [2:30:40<4:19:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3742/10186 [2:30:41<4:19:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3742/10186 [2:30:41<4:19:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3743/10186 [2:30:42<4:19:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3743/10186 [2:30:42<4:19:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3744/10186 [2:30:49<4:19:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3744/10186 [2:30:49<4:19:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3745/10186 [2:30:50<4:19:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3745/10186 [2:30:50<4:19:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3746/10186 [2:30:51<4:19:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3746/10186 [2:30:51<4:19:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3747/10186 [2:30:52<4:19:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3747/10186 [2:30:52<4:19:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3748/10186 [2:30:58<4:19:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3748/10186 [2:30:58<4:19:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3749/10186 [2:30:59<4:19:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3749/10186 [2:30:59<4:19:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3750/10186 [2:31:00<4:19:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3750/10186 [2:31:00<4:19:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3751/10186 [2:31:01<4:19:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3751/10186 [2:31:01<4:19:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3752/10186 [2:31:08<4:19:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3752/10186 [2:31:08<4:19:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3753/10186 [2:31:09<4:19:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3753/10186 [2:31:09<4:19:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3754/10186 [2:31:10<4:19:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3754/10186 [2:31:10<4:19:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3755/10186 [2:31:11<4:18:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3755/10186 [2:31:11<4:18:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3756/10186 [2:31:18<4:19:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3756/10186 [2:31:18<4:19:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3757/10186 [2:31:19<4:18:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3757/10186 [2:31:19<4:18:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3758/10186 [2:31:20<4:18:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3758/10186 [2:31:20<4:18:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3759/10186 [2:31:21<4:18:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3759/10186 [2:31:21<4:18:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3760/10186 [2:31:27<4:18:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3760/10186 [2:31:27<4:18:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3761/10186 [2:31:28<4:18:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3761/10186 [2:31:28<4:18:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3762/10186 [2:31:29<4:18:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3762/10186 [2:31:29<4:18:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3763/10186 [2:31:30<4:18:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3763/10186 [2:31:30<4:18:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3764/10186 [2:31:37<4:18:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3764/10186 [2:31:37<4:18:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3765/10186 [2:31:38<4:18:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3765/10186 [2:31:38<4:18:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3766/10186 [2:31:39<4:18:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3766/10186 [2:31:39<4:18:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3767/10186 [2:31:40<4:18:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3767/10186 [2:31:40<4:18:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3768/10186 [2:31:46<4:18:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3768/10186 [2:31:46<4:18:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3769/10186 [2:31:47<4:18:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3769/10186 [2:31:47<4:18:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3770/10186 [2:31:48<4:18:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3770/10186 [2:31:48<4:18:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3771/10186 [2:31:49<4:18:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3771/10186 [2:31:49<4:18:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3772/10186 [2:31:56<4:18:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3772/10186 [2:31:56<4:18:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3773/10186 [2:31:57<4:18:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3773/10186 [2:31:57<4:18:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3774/10186 [2:31:58<4:18:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3774/10186 [2:31:58<4:18:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3775/10186 [2:31:59<4:18:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3775/10186 [2:31:59<4:18:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3776/10186 [2:32:05<4:18:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3776/10186 [2:32:05<4:18:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3777/10186 [2:32:06<4:18:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3777/10186 [2:32:06<4:18:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3778/10186 [2:32:07<4:18:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3778/10186 [2:32:07<4:18:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3779/10186 [2:32:09<4:17:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3779/10186 [2:32:09<4:17:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3780/10186 [2:32:15<4:18:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3780/10186 [2:32:15<4:18:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3781/10186 [2:32:16<4:17:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3781/10186 [2:32:16<4:17:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3782/10186 [2:32:17<4:17:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3782/10186 [2:32:17<4:17:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3783/10186 [2:32:18<4:17:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3783/10186 [2:32:18<4:17:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3784/10186 [2:32:25<4:17:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3784/10186 [2:32:25<4:17:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3785/10186 [2:32:26<4:17:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3785/10186 [2:32:26<4:17:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3786/10186 [2:32:27<4:17:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3786/10186 [2:32:27<4:17:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3787/10186 [2:32:28<4:17:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3787/10186 [2:32:28<4:17:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3788/10186 [2:32:34<4:17:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3788/10186 [2:32:34<4:17:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3789/10186 [2:32:35<4:17:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3789/10186 [2:32:35<4:17:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3790/10186 [2:32:36<4:17:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3790/10186 [2:32:36<4:17:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3791/10186 [2:32:37<4:17:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3791/10186 [2:32:37<4:17:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3792/10186 [2:32:44<4:17:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3792/10186 [2:32:44<4:17:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3793/10186 [2:32:45<4:17:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3793/10186 [2:32:45<4:17:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3794/10186 [2:32:46<4:17:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3794/10186 [2:32:46<4:17:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3795/10186 [2:32:47<4:17:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3795/10186 [2:32:47<4:17:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3796/10186 [2:32:53<4:17:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3796/10186 [2:32:53<4:17:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3797/10186 [2:32:54<4:17:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3797/10186 [2:32:54<4:17:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3798/10186 [2:32:55<4:17:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3798/10186 [2:32:55<4:17:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3799/10186 [2:32:56<4:17:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3799/10186 [2:32:56<4:17:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3800/10186 [2:33:03<4:17:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3800/10186 [2:33:03<4:17:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3801/10186 [2:33:04<4:17:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3801/10186 [2:33:04<4:17:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3802/10186 [2:33:05<4:17:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3802/10186 [2:33:05<4:17:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3803/10186 [2:33:06<4:16:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3803/10186 [2:33:06<4:16:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3804/10186 [2:33:12<4:17:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3804/10186 [2:33:12<4:17:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3805/10186 [2:33:13<4:16:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3805/10186 [2:33:13<4:16:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3806/10186 [2:33:15<4:16:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3806/10186 [2:33:15<4:16:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3807/10186 [2:33:16<4:16:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3807/10186 [2:33:16<4:16:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3808/10186 [2:33:22<4:16:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3808/10186 [2:33:22<4:16:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3809/10186 [2:33:23<4:16:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3809/10186 [2:33:23<4:16:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3810/10186 [2:33:24<4:16:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3810/10186 [2:33:24<4:16:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3811/10186 [2:33:25<4:16:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3811/10186 [2:33:25<4:16:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3812/10186 [2:33:32<4:16:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3812/10186 [2:33:32<4:16:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3813/10186 [2:33:33<4:16:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3813/10186 [2:33:33<4:16:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3814/10186 [2:33:34<4:16:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3814/10186 [2:33:34<4:16:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3815/10186 [2:33:35<4:16:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3815/10186 [2:33:35<4:16:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3816/10186 [2:33:41<4:16:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3816/10186 [2:33:41<4:16:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3817/10186 [2:33:42<4:16:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3817/10186 [2:33:42<4:16:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3818/10186 [2:33:43<4:16:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3818/10186 [2:33:43<4:16:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 3819/10186 [2:33:44<4:16:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  37%|▎| 3819/10186 [2:33:44<4:16:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3820/10186 [2:33:51<4:16:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3820/10186 [2:33:51<4:16:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3821/10186 [2:33:52<4:16:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3821/10186 [2:33:52<4:16:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3822/10186 [2:33:53<4:16:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3822/10186 [2:33:53<4:16:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3823/10186 [2:33:54<4:16:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3823/10186 [2:33:54<4:16:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3824/10186 [2:34:00<4:16:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3824/10186 [2:34:00<4:16:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3825/10186 [2:34:01<4:16:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3825/10186 [2:34:01<4:16:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3826/10186 [2:34:02<4:16:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3826/10186 [2:34:02<4:16:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3827/10186 [2:34:03<4:15:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3827/10186 [2:34:03<4:15:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3828/10186 [2:34:10<4:16:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3828/10186 [2:34:10<4:16:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3829/10186 [2:34:11<4:15:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3829/10186 [2:34:11<4:15:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3830/10186 [2:34:12<4:15:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3830/10186 [2:34:12<4:15:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3831/10186 [2:34:13<4:15:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3831/10186 [2:34:13<4:15:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3832/10186 [2:34:19<4:15:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3832/10186 [2:34:19<4:15:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3833/10186 [2:34:20<4:15:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3833/10186 [2:34:20<4:15:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3834/10186 [2:34:22<4:15:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3834/10186 [2:34:22<4:15:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3835/10186 [2:34:23<4:15:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3835/10186 [2:34:23<4:15:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3836/10186 [2:34:29<4:15:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3836/10186 [2:34:29<4:15:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3837/10186 [2:34:30<4:15:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3837/10186 [2:34:30<4:15:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3838/10186 [2:34:31<4:15:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3838/10186 [2:34:31<4:15:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3839/10186 [2:34:32<4:15:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3839/10186 [2:34:32<4:15:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3840/10186 [2:34:39<4:15:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3840/10186 [2:34:39<4:15:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3841/10186 [2:34:40<4:15:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3841/10186 [2:34:40<4:15:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3842/10186 [2:34:41<4:15:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3842/10186 [2:34:41<4:15:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3843/10186 [2:34:42<4:15:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3843/10186 [2:34:42<4:15:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3844/10186 [2:34:48<4:15:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3844/10186 [2:34:48<4:15:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3845/10186 [2:34:49<4:15:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3845/10186 [2:34:49<4:15:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3846/10186 [2:34:50<4:15:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3846/10186 [2:34:50<4:15:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3847/10186 [2:34:51<4:15:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3847/10186 [2:34:51<4:15:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3848/10186 [2:34:58<4:15:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3848/10186 [2:34:58<4:15:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3849/10186 [2:34:59<4:15:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3849/10186 [2:34:59<4:15:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3850/10186 [2:35:00<4:15:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3850/10186 [2:35:00<4:15:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3851/10186 [2:35:01<4:15:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3851/10186 [2:35:01<4:15:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3852/10186 [2:35:07<4:15:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3852/10186 [2:35:07<4:15:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3853/10186 [2:35:08<4:15:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3853/10186 [2:35:08<4:15:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3854/10186 [2:35:09<4:14:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3854/10186 [2:35:09<4:14:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3855/10186 [2:35:10<4:14:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3855/10186 [2:35:10<4:14:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3856/10186 [2:35:17<4:14:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3856/10186 [2:35:17<4:14:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3857/10186 [2:35:18<4:14:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3857/10186 [2:35:18<4:14:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3858/10186 [2:35:19<4:14:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3858/10186 [2:35:19<4:14:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3859/10186 [2:35:20<4:14:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3859/10186 [2:35:20<4:14:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3860/10186 [2:35:26<4:14:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3860/10186 [2:35:26<4:14:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3861/10186 [2:35:28<4:14:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3861/10186 [2:35:28<4:14:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3862/10186 [2:35:29<4:14:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3862/10186 [2:35:29<4:14:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3863/10186 [2:35:30<4:14:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3863/10186 [2:35:30<4:14:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3864/10186 [2:35:36<4:14:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3864/10186 [2:35:36<4:14:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3865/10186 [2:35:37<4:14:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3865/10186 [2:35:37<4:14:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3866/10186 [2:35:38<4:14:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3866/10186 [2:35:38<4:14:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3867/10186 [2:35:39<4:14:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3867/10186 [2:35:39<4:14:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3868/10186 [2:35:46<4:14:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3868/10186 [2:35:46<4:14:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3869/10186 [2:35:47<4:14:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3869/10186 [2:35:47<4:14:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3870/10186 [2:35:48<4:14:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3870/10186 [2:35:48<4:14:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3871/10186 [2:35:49<4:14:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3871/10186 [2:35:49<4:14:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3872/10186 [2:35:55<4:14:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3872/10186 [2:35:55<4:14:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3873/10186 [2:35:56<4:14:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3873/10186 [2:35:56<4:14:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3874/10186 [2:35:57<4:14:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3874/10186 [2:35:57<4:14:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3875/10186 [2:35:58<4:14:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3875/10186 [2:35:58<4:14:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3876/10186 [2:36:05<4:14:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3876/10186 [2:36:05<4:14:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3877/10186 [2:36:06<4:14:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3877/10186 [2:36:06<4:14:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3878/10186 [2:36:07<4:13:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3878/10186 [2:36:07<4:13:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3879/10186 [2:36:08<4:13:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3879/10186 [2:36:08<4:13:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3880/10186 [2:36:14<4:13:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3880/10186 [2:36:14<4:13:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3881/10186 [2:36:15<4:13:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3881/10186 [2:36:15<4:13:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3882/10186 [2:36:16<4:13:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3882/10186 [2:36:16<4:13:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3883/10186 [2:36:17<4:13:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3883/10186 [2:36:17<4:13:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3884/10186 [2:36:24<4:13:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3884/10186 [2:36:24<4:13:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3885/10186 [2:36:25<4:13:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3885/10186 [2:36:25<4:13:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3886/10186 [2:36:26<4:13:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3886/10186 [2:36:26<4:13:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3887/10186 [2:36:27<4:13:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3887/10186 [2:36:27<4:13:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3888/10186 [2:36:34<4:13:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3888/10186 [2:36:34<4:13:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3889/10186 [2:36:35<4:13:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3889/10186 [2:36:35<4:13:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3890/10186 [2:36:36<4:13:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3890/10186 [2:36:36<4:13:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3891/10186 [2:36:37<4:13:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3891/10186 [2:36:37<4:13:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3892/10186 [2:36:43<4:13:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3892/10186 [2:36:43<4:13:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3893/10186 [2:36:44<4:13:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3893/10186 [2:36:44<4:13:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3894/10186 [2:36:45<4:13:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3894/10186 [2:36:45<4:13:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3895/10186 [2:36:46<4:13:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3895/10186 [2:36:46<4:13:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3896/10186 [2:36:53<4:13:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3896/10186 [2:36:53<4:13:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3897/10186 [2:36:54<4:13:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3897/10186 [2:36:54<4:13:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3898/10186 [2:36:55<4:13:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3898/10186 [2:36:55<4:13:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3899/10186 [2:36:56<4:13:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3899/10186 [2:36:56<4:13:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3900/10186 [2:37:02<4:13:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3900/10186 [2:37:02<4:13:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3901/10186 [2:37:03<4:13:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3901/10186 [2:37:03<4:13:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3902/10186 [2:37:04<4:12:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3902/10186 [2:37:04<4:12:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3903/10186 [2:37:05<4:12:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3903/10186 [2:37:05<4:12:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3904/10186 [2:37:12<4:12:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3904/10186 [2:37:12<4:12:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3905/10186 [2:37:13<4:12:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3905/10186 [2:37:13<4:12:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3906/10186 [2:37:14<4:12:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3906/10186 [2:37:14<4:12:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3907/10186 [2:37:15<4:12:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3907/10186 [2:37:15<4:12:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3908/10186 [2:37:21<4:12:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3908/10186 [2:37:21<4:12:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3909/10186 [2:37:22<4:12:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3909/10186 [2:37:22<4:12:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3910/10186 [2:37:23<4:12:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3910/10186 [2:37:23<4:12:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3911/10186 [2:37:25<4:12:34,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3911/10186 [2:37:25<4:12:34,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3912/10186 [2:37:31<4:12:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3912/10186 [2:37:31<4:12:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3913/10186 [2:37:32<4:12:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3913/10186 [2:37:32<4:12:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3914/10186 [2:37:33<4:12:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3914/10186 [2:37:33<4:12:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3915/10186 [2:37:34<4:12:24,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3915/10186 [2:37:34<4:12:24,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3916/10186 [2:37:41<4:12:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3916/10186 [2:37:41<4:12:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3917/10186 [2:37:42<4:12:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3917/10186 [2:37:42<4:12:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3918/10186 [2:37:43<4:12:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3918/10186 [2:37:43<4:12:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3919/10186 [2:37:44<4:12:14,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3919/10186 [2:37:44<4:12:14,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3920/10186 [2:37:50<4:12:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3920/10186 [2:37:50<4:12:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 3921/10186 [2:37:51<4:12:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  38%|▍| 3921/10186 [2:37:51<4:12:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 3922/10186 [2:37:52<4:12:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 3922/10186 [2:37:52<4:12:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 3923/10186 [2:37:53<4:12:04,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 3923/10186 [2:37:53<4:12:04,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 3924/10186 [2:38:00<4:12:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 3924/10186 [2:38:00<4:12:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 3925/10186 [2:38:01<4:12:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 3925/10186 [2:38:01<4:12:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 3926/10186 [2:38:02<4:11:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 3926/10186 [2:38:02<4:11:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 3927/10186 [2:38:03<4:11:54,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 3927/10186 [2:38:03<4:11:54,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 3928/10186 [2:38:09<4:11:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 3928/10186 [2:38:09<4:11:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 3929/10186 [2:38:10<4:11:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 3929/10186 [2:38:10<4:11:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 3930/10186 [2:38:11<4:11:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 3930/10186 [2:38:11<4:11:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 3931/10186 [2:38:12<4:11:45,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 3931/10186 [2:38:12<4:11:45,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 3932/10186 [2:38:19<4:11:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 3932/10186 [2:38:19<4:11:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 3933/10186 [2:38:20<4:11:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 3933/10186 [2:38:20<4:11:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 3934/10186 [2:38:21<4:11:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 3934/10186 [2:38:21<4:11:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 3935/10186 [2:38:22<4:11:35,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 3935/10186 [2:38:22<4:11:35,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 3936/10186 [2:38:28<4:11:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 3936/10186 [2:38:28<4:11:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 3937/10186 [2:38:30<4:11:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 3937/10186 [2:38:30<4:11:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 3938/10186 [2:38:31<4:11:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 3938/10186 [2:38:31<4:11:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 3939/10186 [2:38:32<4:11:25,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 3939/10186 [2:38:32<4:11:25,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 3940/10186 [2:38:38<4:11:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 3940/10186 [2:38:38<4:11:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 3941/10186 [2:38:39<4:11:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 3941/10186 [2:38:39<4:11:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 3942/10186 [2:38:40<4:11:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 3942/10186 [2:38:40<4:11:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 3943/10186 [2:38:41<4:11:15,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 3943/10186 [2:38:41<4:11:15,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 3944/10186 [2:38:48<4:11:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 3944/10186 [2:38:48<4:11:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 3945/10186 [2:38:49<4:11:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 3945/10186 [2:38:49<4:11:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 3946/10186 [2:38:50<4:11:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 3946/10186 [2:38:50<4:11:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 3947/10186 [2:38:51<4:11:05,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 3947/10186 [2:38:51<4:11:05,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 3948/10186 [2:38:57<4:11:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 3948/10186 [2:38:57<4:11:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 3949/10186 [2:38:58<4:11:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 3949/10186 [2:38:58<4:11:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 3950/10186 [2:38:59<4:11:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 3950/10186 [2:38:59<4:11:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 3951/10186 [2:39:00<4:10:56,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 3951/10186 [2:39:00<4:10:56,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 3952/10186 [2:39:07<4:11:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 3952/10186 [2:39:07<4:11:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 3953/10186 [2:39:08<4:10:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 3953/10186 [2:39:08<4:10:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 3954/10186 [2:39:09<4:10:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 3954/10186 [2:39:09<4:10:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 3955/10186 [2:39:10<4:10:46,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 3955/10186 [2:39:10<4:10:46,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 3956/10186 [2:39:16<4:10:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 3956/10186 [2:39:16<4:10:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 3957/10186 [2:39:17<4:10:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 3957/10186 [2:39:17<4:10:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 3958/10186 [2:39:18<4:10:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 3958/10186 [2:39:18<4:10:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 3959/10186 [2:39:19<4:10:36,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 3959/10186 [2:39:19<4:10:36,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 3960/10186 [2:39:26<4:10:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 3960/10186 [2:39:26<4:10:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 3961/10186 [2:39:27<4:10:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 3961/10186 [2:39:27<4:10:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 3962/10186 [2:39:28<4:10:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 3962/10186 [2:39:28<4:10:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 3963/10186 [2:39:29<4:10:26,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 3963/10186 [2:39:29<4:10:26,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 3964/10186 [2:39:35<4:10:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 3964/10186 [2:39:35<4:10:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 3965/10186 [2:39:37<4:10:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 3965/10186 [2:39:37<4:10:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 3966/10186 [2:39:38<4:10:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 3966/10186 [2:39:38<4:10:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 3967/10186 [2:39:39<4:10:16,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 3967/10186 [2:39:39<4:10:17,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 3968/10186 [2:39:45<4:10:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 3968/10186 [2:39:45<4:10:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 3969/10186 [2:39:46<4:10:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 3969/10186 [2:39:46<4:10:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 3970/10186 [2:39:47<4:10:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 3970/10186 [2:39:47<4:10:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 3971/10186 [2:39:48<4:10:07,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 3971/10186 [2:39:48<4:10:07,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 3972/10186 [2:39:55<4:10:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 3972/10186 [2:39:55<4:10:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 3973/10186 [2:39:56<4:10:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 3973/10186 [2:39:56<4:10:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 3974/10186 [2:39:57<4:10:01,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 3974/10186 [2:39:57<4:10:01,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 3975/10186 [2:39:58<4:09:57,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 3975/10186 [2:39:58<4:09:57,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 3976/10186 [2:40:04<4:10:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 3976/10186 [2:40:04<4:10:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 3977/10186 [2:40:05<4:09:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 3977/10186 [2:40:05<4:09:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 3978/10186 [2:40:06<4:09:52,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 3978/10186 [2:40:06<4:09:52,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 3979/10186 [2:40:07<4:09:47,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 3979/10186 [2:40:07<4:09:47,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 3980/10186 [2:40:14<4:09:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 3980/10186 [2:40:14<4:09:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 3981/10186 [2:40:15<4:09:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 3981/10186 [2:40:15<4:09:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 3982/10186 [2:40:16<4:09:42,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 3982/10186 [2:40:16<4:09:42,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 3983/10186 [2:40:17<4:09:37,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 3983/10186 [2:40:17<4:09:37,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 3984/10186 [2:40:23<4:09:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 3984/10186 [2:40:23<4:09:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 3985/10186 [2:40:24<4:09:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 3985/10186 [2:40:24<4:09:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 3986/10186 [2:40:25<4:09:32,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 3986/10186 [2:40:25<4:09:32,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 3987/10186 [2:40:26<4:09:28,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 3987/10186 [2:40:26<4:09:28,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 3988/10186 [2:40:33<4:09:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 3988/10186 [2:40:33<4:09:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 3989/10186 [2:40:34<4:09:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 3989/10186 [2:40:34<4:09:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 3990/10186 [2:40:35<4:09:22,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 3990/10186 [2:40:35<4:09:22,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 3991/10186 [2:40:36<4:09:18,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 3991/10186 [2:40:36<4:09:18,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 3992/10186 [2:40:43<4:09:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 3992/10186 [2:40:43<4:09:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 3993/10186 [2:40:44<4:09:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 3993/10186 [2:40:44<4:09:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 3994/10186 [2:40:45<4:09:13,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 3994/10186 [2:40:45<4:09:13,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 3995/10186 [2:40:46<4:09:08,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 3995/10186 [2:40:46<4:09:08,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 3996/10186 [2:40:52<4:09:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 3996/10186 [2:40:52<4:09:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 3997/10186 [2:40:53<4:09:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 3997/10186 [2:40:53<4:09:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 3998/10186 [2:40:54<4:09:03,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 3998/10186 [2:40:54<4:09:03,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 3999/10186 [2:40:55<4:08:58,  2.41s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 3999/10186 [2:40:55<4:08:58,  2.41s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 4000/10186 [2:41:02<4:09:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 4000/10186 [2:41:02<4:09:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 4001/10186 [2:41:31<4:09:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 4001/10186 [2:41:31<4:09:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 4002/10186 [2:41:32<4:09:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 4002/10186 [2:41:32<4:09:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 4003/10186 [2:41:33<4:09:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 4003/10186 [2:41:33<4:09:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 4004/10186 [2:41:40<4:09:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 4004/10186 [2:41:40<4:09:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 4005/10186 [2:41:41<4:09:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 4005/10186 [2:41:41<4:09:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 4006/10186 [2:41:42<4:09:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 4006/10186 [2:41:42<4:09:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 4007/10186 [2:41:43<4:09:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 4007/10186 [2:41:43<4:09:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 4008/10186 [2:41:49<4:09:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 4008/10186 [2:41:49<4:09:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 4009/10186 [2:41:50<4:09:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 4009/10186 [2:41:50<4:09:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 4010/10186 [2:41:51<4:09:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 4010/10186 [2:41:51<4:09:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 4011/10186 [2:41:52<4:09:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 4011/10186 [2:41:52<4:09:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 4012/10186 [2:41:59<4:09:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 4012/10186 [2:41:59<4:09:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 4013/10186 [2:42:00<4:09:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 4013/10186 [2:42:00<4:09:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 4014/10186 [2:42:01<4:09:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 4014/10186 [2:42:01<4:09:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 4015/10186 [2:42:02<4:09:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 4015/10186 [2:42:02<4:09:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 4016/10186 [2:42:08<4:09:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 4016/10186 [2:42:08<4:09:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 4017/10186 [2:42:09<4:09:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 4017/10186 [2:42:09<4:09:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 4018/10186 [2:42:10<4:08:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 4018/10186 [2:42:10<4:08:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 4019/10186 [2:42:11<4:08:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 4019/10186 [2:42:11<4:08:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 4020/10186 [2:42:18<4:08:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 4020/10186 [2:42:18<4:08:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 4021/10186 [2:42:19<4:08:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 4021/10186 [2:42:19<4:08:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 4022/10186 [2:42:20<4:08:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 4022/10186 [2:42:20<4:08:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 4023/10186 [2:42:21<4:08:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  39%|▍| 4023/10186 [2:42:21<4:08:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4024/10186 [2:42:27<4:08:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4024/10186 [2:42:27<4:08:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4025/10186 [2:42:28<4:08:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4025/10186 [2:42:28<4:08:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4026/10186 [2:42:30<4:08:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4026/10186 [2:42:30<4:08:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4027/10186 [2:42:31<4:08:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4027/10186 [2:42:31<4:08:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4028/10186 [2:42:37<4:08:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4028/10186 [2:42:37<4:08:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4029/10186 [2:42:38<4:08:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4029/10186 [2:42:38<4:08:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4030/10186 [2:42:39<4:08:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4030/10186 [2:42:39<4:08:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4031/10186 [2:42:40<4:08:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4031/10186 [2:42:40<4:08:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4032/10186 [2:42:47<4:08:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4032/10186 [2:42:47<4:08:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4033/10186 [2:42:48<4:08:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4033/10186 [2:42:48<4:08:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4034/10186 [2:42:49<4:08:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4034/10186 [2:42:49<4:08:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4035/10186 [2:42:50<4:08:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4035/10186 [2:42:50<4:08:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4036/10186 [2:42:56<4:08:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4036/10186 [2:42:56<4:08:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4037/10186 [2:42:57<4:08:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4037/10186 [2:42:57<4:08:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4038/10186 [2:42:58<4:08:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4038/10186 [2:42:58<4:08:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4039/10186 [2:42:59<4:08:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4039/10186 [2:42:59<4:08:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4040/10186 [2:43:06<4:08:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4040/10186 [2:43:06<4:08:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4041/10186 [2:43:07<4:08:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4041/10186 [2:43:07<4:08:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4042/10186 [2:43:08<4:07:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4042/10186 [2:43:08<4:07:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4043/10186 [2:43:09<4:07:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4043/10186 [2:43:09<4:07:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4044/10186 [2:43:15<4:07:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4044/10186 [2:43:15<4:07:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4045/10186 [2:43:16<4:07:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4045/10186 [2:43:16<4:07:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4046/10186 [2:43:17<4:07:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4046/10186 [2:43:17<4:07:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4047/10186 [2:43:18<4:07:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4047/10186 [2:43:18<4:07:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4048/10186 [2:43:25<4:07:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4048/10186 [2:43:25<4:07:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4049/10186 [2:43:26<4:07:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4049/10186 [2:43:26<4:07:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4050/10186 [2:43:27<4:07:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4050/10186 [2:43:27<4:07:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4051/10186 [2:43:28<4:07:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4051/10186 [2:43:28<4:07:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4052/10186 [2:43:35<4:07:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4052/10186 [2:43:35<4:07:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4053/10186 [2:43:36<4:07:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4053/10186 [2:43:36<4:07:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4054/10186 [2:43:37<4:07:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4054/10186 [2:43:37<4:07:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4055/10186 [2:43:38<4:07:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4055/10186 [2:43:38<4:07:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4056/10186 [2:43:44<4:07:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4056/10186 [2:43:44<4:07:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4057/10186 [2:43:45<4:07:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4057/10186 [2:43:45<4:07:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4058/10186 [2:43:46<4:07:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4058/10186 [2:43:46<4:07:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4059/10186 [2:43:47<4:07:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4059/10186 [2:43:47<4:07:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4060/10186 [2:43:54<4:07:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4060/10186 [2:43:54<4:07:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4061/10186 [2:43:55<4:07:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4061/10186 [2:43:55<4:07:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4062/10186 [2:43:56<4:07:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4062/10186 [2:43:56<4:07:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4063/10186 [2:43:57<4:07:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4063/10186 [2:43:57<4:07:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4064/10186 [2:44:03<4:07:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4064/10186 [2:44:03<4:07:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4065/10186 [2:44:04<4:07:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4065/10186 [2:44:04<4:07:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4066/10186 [2:44:05<4:06:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4066/10186 [2:44:05<4:06:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4067/10186 [2:44:06<4:06:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4067/10186 [2:44:06<4:06:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4068/10186 [2:44:13<4:06:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4068/10186 [2:44:13<4:06:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4069/10186 [2:44:14<4:06:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4069/10186 [2:44:14<4:06:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4070/10186 [2:44:15<4:06:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4070/10186 [2:44:15<4:06:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4071/10186 [2:44:16<4:06:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4071/10186 [2:44:16<4:06:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4072/10186 [2:44:22<4:06:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4072/10186 [2:44:22<4:06:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4073/10186 [2:44:23<4:06:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4073/10186 [2:44:23<4:06:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4074/10186 [2:44:25<4:06:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4074/10186 [2:44:25<4:06:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4075/10186 [2:44:26<4:06:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4075/10186 [2:44:26<4:06:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4076/10186 [2:44:32<4:06:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4076/10186 [2:44:32<4:06:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4077/10186 [2:44:33<4:06:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4077/10186 [2:44:33<4:06:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4078/10186 [2:44:34<4:06:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4078/10186 [2:44:34<4:06:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4079/10186 [2:44:35<4:06:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4079/10186 [2:44:35<4:06:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4080/10186 [2:44:42<4:06:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4080/10186 [2:44:42<4:06:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4081/10186 [2:44:43<4:06:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4081/10186 [2:44:43<4:06:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4082/10186 [2:44:44<4:06:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4082/10186 [2:44:44<4:06:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4083/10186 [2:44:45<4:06:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4083/10186 [2:44:45<4:06:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4084/10186 [2:44:51<4:06:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4084/10186 [2:44:51<4:06:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4085/10186 [2:44:52<4:06:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4085/10186 [2:44:52<4:06:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4086/10186 [2:44:53<4:06:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4086/10186 [2:44:53<4:06:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4087/10186 [2:44:54<4:06:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4087/10186 [2:44:54<4:06:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4088/10186 [2:45:01<4:06:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4088/10186 [2:45:01<4:06:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4089/10186 [2:45:02<4:06:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4089/10186 [2:45:02<4:06:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4090/10186 [2:45:03<4:06:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4090/10186 [2:45:03<4:06:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4091/10186 [2:45:04<4:05:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4091/10186 [2:45:04<4:05:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4092/10186 [2:45:10<4:05:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4092/10186 [2:45:10<4:05:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4093/10186 [2:45:11<4:05:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4093/10186 [2:45:11<4:05:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4094/10186 [2:45:12<4:05:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4094/10186 [2:45:12<4:05:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4095/10186 [2:45:13<4:05:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4095/10186 [2:45:13<4:05:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4096/10186 [2:45:20<4:05:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4096/10186 [2:45:20<4:05:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4097/10186 [2:45:21<4:05:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4097/10186 [2:45:21<4:05:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4098/10186 [2:45:22<4:05:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4098/10186 [2:45:22<4:05:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4099/10186 [2:45:23<4:05:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4099/10186 [2:45:23<4:05:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4100/10186 [2:45:29<4:05:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4100/10186 [2:45:29<4:05:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4101/10186 [2:45:30<4:05:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4101/10186 [2:45:30<4:05:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4102/10186 [2:45:32<4:05:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4102/10186 [2:45:32<4:05:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4103/10186 [2:45:33<4:05:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4103/10186 [2:45:33<4:05:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4104/10186 [2:45:39<4:05:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4104/10186 [2:45:39<4:05:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4105/10186 [2:45:40<4:05:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4105/10186 [2:45:40<4:05:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4106/10186 [2:45:41<4:05:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4106/10186 [2:45:41<4:05:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4107/10186 [2:45:42<4:05:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4107/10186 [2:45:42<4:05:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4108/10186 [2:45:49<4:05:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4108/10186 [2:45:49<4:05:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4109/10186 [2:45:50<4:05:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4109/10186 [2:45:50<4:05:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4110/10186 [2:45:51<4:05:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4110/10186 [2:45:51<4:05:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4111/10186 [2:45:52<4:05:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4111/10186 [2:45:52<4:05:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4112/10186 [2:45:58<4:05:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4112/10186 [2:45:58<4:05:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4113/10186 [2:45:59<4:05:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4113/10186 [2:45:59<4:05:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4114/10186 [2:46:00<4:05:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4114/10186 [2:46:00<4:05:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4115/10186 [2:46:01<4:04:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4115/10186 [2:46:01<4:04:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4116/10186 [2:46:08<4:05:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4116/10186 [2:46:08<4:05:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4117/10186 [2:46:09<4:04:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4117/10186 [2:46:09<4:04:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4118/10186 [2:46:10<4:04:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4118/10186 [2:46:10<4:04:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4119/10186 [2:46:11<4:04:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4119/10186 [2:46:11<4:04:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4120/10186 [2:46:17<4:04:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4120/10186 [2:46:17<4:04:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4121/10186 [2:46:18<4:04:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4121/10186 [2:46:18<4:04:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4122/10186 [2:46:19<4:04:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4122/10186 [2:46:19<4:04:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4123/10186 [2:46:20<4:04:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4123/10186 [2:46:20<4:04:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4124/10186 [2:46:27<4:04:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4124/10186 [2:46:27<4:04:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 4125/10186 [2:46:28<4:04:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  40%|▍| 4125/10186 [2:46:28<4:04:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4126/10186 [2:46:29<4:04:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4126/10186 [2:46:29<4:04:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4127/10186 [2:46:30<4:04:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4127/10186 [2:46:30<4:04:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4128/10186 [2:46:37<4:04:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4128/10186 [2:46:37<4:04:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4129/10186 [2:46:38<4:04:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4129/10186 [2:46:38<4:04:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4130/10186 [2:46:39<4:04:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4130/10186 [2:46:39<4:04:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4131/10186 [2:46:40<4:04:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4131/10186 [2:46:40<4:04:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4132/10186 [2:46:46<4:04:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4132/10186 [2:46:46<4:04:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4133/10186 [2:46:47<4:04:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4133/10186 [2:46:47<4:04:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4134/10186 [2:46:48<4:04:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4134/10186 [2:46:48<4:04:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4135/10186 [2:46:49<4:04:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4135/10186 [2:46:49<4:04:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4136/10186 [2:46:56<4:04:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4136/10186 [2:46:56<4:04:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4137/10186 [2:46:57<4:04:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4137/10186 [2:46:57<4:04:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4138/10186 [2:46:58<4:04:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4138/10186 [2:46:58<4:04:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4139/10186 [2:46:59<4:03:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4139/10186 [2:46:59<4:03:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4140/10186 [2:47:05<4:04:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4140/10186 [2:47:05<4:04:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4141/10186 [2:47:06<4:03:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4141/10186 [2:47:06<4:03:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4142/10186 [2:47:07<4:03:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4142/10186 [2:47:07<4:03:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4143/10186 [2:47:08<4:03:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4143/10186 [2:47:08<4:03:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4144/10186 [2:47:15<4:03:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4144/10186 [2:47:15<4:03:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4145/10186 [2:47:16<4:03:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4145/10186 [2:47:16<4:03:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4146/10186 [2:47:17<4:03:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4146/10186 [2:47:17<4:03:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4147/10186 [2:47:18<4:03:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4147/10186 [2:47:18<4:03:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4148/10186 [2:47:24<4:03:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4148/10186 [2:47:24<4:03:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4149/10186 [2:47:25<4:03:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4149/10186 [2:47:25<4:03:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4150/10186 [2:47:26<4:03:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4150/10186 [2:47:26<4:03:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4151/10186 [2:47:28<4:03:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4151/10186 [2:47:28<4:03:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4152/10186 [2:47:34<4:03:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4152/10186 [2:47:34<4:03:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4153/10186 [2:47:35<4:03:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4153/10186 [2:47:35<4:03:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4154/10186 [2:47:36<4:03:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4154/10186 [2:47:36<4:03:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4155/10186 [2:47:37<4:03:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4155/10186 [2:47:37<4:03:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4156/10186 [2:47:44<4:03:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4156/10186 [2:47:44<4:03:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4157/10186 [2:47:45<4:03:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4157/10186 [2:47:45<4:03:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4158/10186 [2:47:46<4:03:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4158/10186 [2:47:46<4:03:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4159/10186 [2:47:47<4:03:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4159/10186 [2:47:47<4:03:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4160/10186 [2:47:53<4:03:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4160/10186 [2:47:53<4:03:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4161/10186 [2:47:54<4:03:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4161/10186 [2:47:54<4:03:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4162/10186 [2:47:55<4:03:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4162/10186 [2:47:55<4:03:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4163/10186 [2:47:56<4:02:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4163/10186 [2:47:56<4:02:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4164/10186 [2:48:03<4:03:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4164/10186 [2:48:03<4:03:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4165/10186 [2:48:04<4:02:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4165/10186 [2:48:04<4:02:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4166/10186 [2:48:05<4:02:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4166/10186 [2:48:05<4:02:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4167/10186 [2:48:06<4:02:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4167/10186 [2:48:06<4:02:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4168/10186 [2:48:12<4:02:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4168/10186 [2:48:12<4:02:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4169/10186 [2:48:13<4:02:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4169/10186 [2:48:13<4:02:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4170/10186 [2:48:14<4:02:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4170/10186 [2:48:14<4:02:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4171/10186 [2:48:15<4:02:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4171/10186 [2:48:15<4:02:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4172/10186 [2:48:22<4:02:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4172/10186 [2:48:22<4:02:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4173/10186 [2:48:23<4:02:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4173/10186 [2:48:23<4:02:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4174/10186 [2:48:24<4:02:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4174/10186 [2:48:24<4:02:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4175/10186 [2:48:25<4:02:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4175/10186 [2:48:25<4:02:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4176/10186 [2:48:31<4:02:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4176/10186 [2:48:31<4:02:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4177/10186 [2:48:32<4:02:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4177/10186 [2:48:32<4:02:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4178/10186 [2:48:33<4:02:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4178/10186 [2:48:33<4:02:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4179/10186 [2:48:35<4:02:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4179/10186 [2:48:35<4:02:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4180/10186 [2:48:41<4:02:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4180/10186 [2:48:41<4:02:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4181/10186 [2:48:42<4:02:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4181/10186 [2:48:42<4:02:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4182/10186 [2:48:43<4:02:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4182/10186 [2:48:43<4:02:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4183/10186 [2:48:44<4:02:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4183/10186 [2:48:44<4:02:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4184/10186 [2:48:51<4:02:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4184/10186 [2:48:51<4:02:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4185/10186 [2:48:52<4:02:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4185/10186 [2:48:52<4:02:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4186/10186 [2:48:53<4:02:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4186/10186 [2:48:53<4:02:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4187/10186 [2:48:54<4:01:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4187/10186 [2:48:54<4:01:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4188/10186 [2:49:00<4:02:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4188/10186 [2:49:00<4:02:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4189/10186 [2:49:01<4:01:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4189/10186 [2:49:01<4:01:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4190/10186 [2:49:02<4:01:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4190/10186 [2:49:02<4:01:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4191/10186 [2:49:03<4:01:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4191/10186 [2:49:03<4:01:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4192/10186 [2:49:10<4:01:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4192/10186 [2:49:10<4:01:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4193/10186 [2:49:11<4:01:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4193/10186 [2:49:11<4:01:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4194/10186 [2:49:12<4:01:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4194/10186 [2:49:12<4:01:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4195/10186 [2:49:13<4:01:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4195/10186 [2:49:13<4:01:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4196/10186 [2:49:19<4:01:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4196/10186 [2:49:19<4:01:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4197/10186 [2:49:20<4:01:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4197/10186 [2:49:20<4:01:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4198/10186 [2:49:21<4:01:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4198/10186 [2:49:21<4:01:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4199/10186 [2:49:22<4:01:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4199/10186 [2:49:22<4:01:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4200/10186 [2:49:29<4:01:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4200/10186 [2:49:29<4:01:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4201/10186 [2:49:30<4:01:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4201/10186 [2:49:30<4:01:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4202/10186 [2:49:31<4:01:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4202/10186 [2:49:31<4:01:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4203/10186 [2:49:32<4:01:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4203/10186 [2:49:32<4:01:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4204/10186 [2:49:38<4:01:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4204/10186 [2:49:38<4:01:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4205/10186 [2:49:39<4:01:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4205/10186 [2:49:39<4:01:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4206/10186 [2:49:41<4:01:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4206/10186 [2:49:41<4:01:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4207/10186 [2:49:42<4:01:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4207/10186 [2:49:42<4:01:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4208/10186 [2:49:48<4:01:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4208/10186 [2:49:48<4:01:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4209/10186 [2:49:49<4:01:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4209/10186 [2:49:49<4:01:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4210/10186 [2:49:50<4:01:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4210/10186 [2:49:50<4:01:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4211/10186 [2:49:51<4:01:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4211/10186 [2:49:51<4:01:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4212/10186 [2:49:58<4:01:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4212/10186 [2:49:58<4:01:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4213/10186 [2:49:59<4:00:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4213/10186 [2:49:59<4:00:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4214/10186 [2:50:00<4:00:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4214/10186 [2:50:00<4:00:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4215/10186 [2:50:01<4:00:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4215/10186 [2:50:01<4:00:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4216/10186 [2:50:07<4:00:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4216/10186 [2:50:07<4:00:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4217/10186 [2:50:08<4:00:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4217/10186 [2:50:08<4:00:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4218/10186 [2:50:09<4:00:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4218/10186 [2:50:09<4:00:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4219/10186 [2:50:10<4:00:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4219/10186 [2:50:10<4:00:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4220/10186 [2:50:17<4:00:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4220/10186 [2:50:17<4:00:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4221/10186 [2:50:18<4:00:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4221/10186 [2:50:18<4:00:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4222/10186 [2:50:19<4:00:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4222/10186 [2:50:19<4:00:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4223/10186 [2:50:20<4:00:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4223/10186 [2:50:20<4:00:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4224/10186 [2:50:26<4:00:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4224/10186 [2:50:26<4:00:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4225/10186 [2:50:27<4:00:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4225/10186 [2:50:27<4:00:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4226/10186 [2:50:28<4:00:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4226/10186 [2:50:28<4:00:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 4227/10186 [2:50:29<4:00:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  41%|▍| 4227/10186 [2:50:29<4:00:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4228/10186 [2:50:36<4:00:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4228/10186 [2:50:36<4:00:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4229/10186 [2:50:37<4:00:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4229/10186 [2:50:37<4:00:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4230/10186 [2:50:38<4:00:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4230/10186 [2:50:38<4:00:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4231/10186 [2:50:39<4:00:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4231/10186 [2:50:39<4:00:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4232/10186 [2:50:46<4:00:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4232/10186 [2:50:46<4:00:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4233/10186 [2:50:47<4:00:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4233/10186 [2:50:47<4:00:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4234/10186 [2:50:48<4:00:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4234/10186 [2:50:48<4:00:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4235/10186 [2:50:49<4:00:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4235/10186 [2:50:49<4:00:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4236/10186 [2:50:55<4:00:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4236/10186 [2:50:55<4:00:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4237/10186 [2:50:56<4:00:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4237/10186 [2:50:56<4:00:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4238/10186 [2:50:57<3:59:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4238/10186 [2:50:57<3:59:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4239/10186 [2:50:58<3:59:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4239/10186 [2:50:58<3:59:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4240/10186 [2:51:05<3:59:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4240/10186 [2:51:05<3:59:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4241/10186 [2:51:06<3:59:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4241/10186 [2:51:06<3:59:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4242/10186 [2:51:07<3:59:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4242/10186 [2:51:07<3:59:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4243/10186 [2:51:08<3:59:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4243/10186 [2:51:08<3:59:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4244/10186 [2:51:14<3:59:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4244/10186 [2:51:14<3:59:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4245/10186 [2:51:15<3:59:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4245/10186 [2:51:15<3:59:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4246/10186 [2:51:16<3:59:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4246/10186 [2:51:16<3:59:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4247/10186 [2:51:17<3:59:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4247/10186 [2:51:17<3:59:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4248/10186 [2:51:24<3:59:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4248/10186 [2:51:24<3:59:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4249/10186 [2:51:25<3:59:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4249/10186 [2:51:25<3:59:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4250/10186 [2:51:26<3:59:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4250/10186 [2:51:26<3:59:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4251/10186 [2:51:27<3:59:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4251/10186 [2:51:27<3:59:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4252/10186 [2:51:33<3:59:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4252/10186 [2:51:33<3:59:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4253/10186 [2:51:34<3:59:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4253/10186 [2:51:34<3:59:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4254/10186 [2:51:35<3:59:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4254/10186 [2:51:35<3:59:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4255/10186 [2:51:37<3:59:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4255/10186 [2:51:37<3:59:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4256/10186 [2:51:43<3:59:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4256/10186 [2:51:43<3:59:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4257/10186 [2:51:44<3:59:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4257/10186 [2:51:44<3:59:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4258/10186 [2:51:45<3:59:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4258/10186 [2:51:45<3:59:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4259/10186 [2:51:46<3:59:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4259/10186 [2:51:46<3:59:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4260/10186 [2:51:53<3:59:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4260/10186 [2:51:53<3:59:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4261/10186 [2:51:54<3:59:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4261/10186 [2:51:54<3:59:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4262/10186 [2:51:55<3:58:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4262/10186 [2:51:55<3:58:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4263/10186 [2:51:56<3:58:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4263/10186 [2:51:56<3:58:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4264/10186 [2:52:02<3:58:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4264/10186 [2:52:02<3:58:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4265/10186 [2:52:03<3:58:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4265/10186 [2:52:03<3:58:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4266/10186 [2:52:04<3:58:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4266/10186 [2:52:04<3:58:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4267/10186 [2:52:05<3:58:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4267/10186 [2:52:05<3:58:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4268/10186 [2:52:12<3:58:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4268/10186 [2:52:12<3:58:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4269/10186 [2:52:13<3:58:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4269/10186 [2:52:13<3:58:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4270/10186 [2:52:14<3:58:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4270/10186 [2:52:14<3:58:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4271/10186 [2:52:15<3:58:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4271/10186 [2:52:15<3:58:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4272/10186 [2:52:21<3:58:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4272/10186 [2:52:21<3:58:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4273/10186 [2:52:22<3:58:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4273/10186 [2:52:22<3:58:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4274/10186 [2:52:23<3:58:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4274/10186 [2:52:23<3:58:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4275/10186 [2:52:24<3:58:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4275/10186 [2:52:24<3:58:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4276/10186 [2:52:31<3:58:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4276/10186 [2:52:31<3:58:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4277/10186 [2:52:32<3:58:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4277/10186 [2:52:32<3:58:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4278/10186 [2:52:33<3:58:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4278/10186 [2:52:33<3:58:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4279/10186 [2:52:34<3:58:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4279/10186 [2:52:34<3:58:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4280/10186 [2:52:40<3:58:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4280/10186 [2:52:40<3:58:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4281/10186 [2:52:42<3:58:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4281/10186 [2:52:42<3:58:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4282/10186 [2:52:43<3:58:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4282/10186 [2:52:43<3:58:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4283/10186 [2:52:44<3:58:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4283/10186 [2:52:44<3:58:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4284/10186 [2:52:50<3:58:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4284/10186 [2:52:50<3:58:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4285/10186 [2:52:51<3:58:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4285/10186 [2:52:51<3:58:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4286/10186 [2:52:52<3:57:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4286/10186 [2:52:52<3:57:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4287/10186 [2:52:53<3:57:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4287/10186 [2:52:53<3:57:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4288/10186 [2:53:00<3:57:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4288/10186 [2:53:00<3:57:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4289/10186 [2:53:01<3:57:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4289/10186 [2:53:01<3:57:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4290/10186 [2:53:02<3:57:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4290/10186 [2:53:02<3:57:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4291/10186 [2:53:03<3:57:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4291/10186 [2:53:03<3:57:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4292/10186 [2:53:09<3:57:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4292/10186 [2:53:09<3:57:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4293/10186 [2:53:10<3:57:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4293/10186 [2:53:10<3:57:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4294/10186 [2:53:11<3:57:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4294/10186 [2:53:11<3:57:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4295/10186 [2:53:12<3:57:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4295/10186 [2:53:12<3:57:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4296/10186 [2:53:19<3:57:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4296/10186 [2:53:19<3:57:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4297/10186 [2:53:20<3:57:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4297/10186 [2:53:20<3:57:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4298/10186 [2:53:21<3:57:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4298/10186 [2:53:21<3:57:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4299/10186 [2:53:22<3:57:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4299/10186 [2:53:22<3:57:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4300/10186 [2:53:28<3:57:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4300/10186 [2:53:28<3:57:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4301/10186 [2:53:29<3:57:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4301/10186 [2:53:29<3:57:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4302/10186 [2:53:30<3:57:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4302/10186 [2:53:30<3:57:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4303/10186 [2:53:31<3:57:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4303/10186 [2:53:31<3:57:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4304/10186 [2:53:38<3:57:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4304/10186 [2:53:38<3:57:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4305/10186 [2:53:39<3:57:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4305/10186 [2:53:39<3:57:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4306/10186 [2:53:40<3:57:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4306/10186 [2:53:40<3:57:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4307/10186 [2:53:41<3:57:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4307/10186 [2:53:41<3:57:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4308/10186 [2:53:48<3:57:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4308/10186 [2:53:48<3:57:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4309/10186 [2:53:49<3:57:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4309/10186 [2:53:49<3:57:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4310/10186 [2:53:50<3:56:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4310/10186 [2:53:50<3:56:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4311/10186 [2:53:51<3:56:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4311/10186 [2:53:51<3:56:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4312/10186 [2:53:57<3:56:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4312/10186 [2:53:57<3:56:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4313/10186 [2:53:58<3:56:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4313/10186 [2:53:58<3:56:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4314/10186 [2:53:59<3:56:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4314/10186 [2:53:59<3:56:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4315/10186 [2:54:00<3:56:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4315/10186 [2:54:00<3:56:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4316/10186 [2:54:07<3:56:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4316/10186 [2:54:07<3:56:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4317/10186 [2:54:08<3:56:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4317/10186 [2:54:08<3:56:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4318/10186 [2:54:09<3:56:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4318/10186 [2:54:09<3:56:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4319/10186 [2:54:10<3:56:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4319/10186 [2:54:10<3:56:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4320/10186 [2:54:16<3:56:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4320/10186 [2:54:16<3:56:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4321/10186 [2:54:17<3:56:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4321/10186 [2:54:17<3:56:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4322/10186 [2:54:18<3:56:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4322/10186 [2:54:18<3:56:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4323/10186 [2:54:19<3:56:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4323/10186 [2:54:19<3:56:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4324/10186 [2:54:26<3:56:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4324/10186 [2:54:26<3:56:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4325/10186 [2:54:27<3:56:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4325/10186 [2:54:27<3:56:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4326/10186 [2:54:28<3:56:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4326/10186 [2:54:28<3:56:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4327/10186 [2:54:29<3:56:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4327/10186 [2:54:29<3:56:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4328/10186 [2:54:35<3:56:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4328/10186 [2:54:35<3:56:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 4329/10186 [2:54:36<3:56:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  42%|▍| 4329/10186 [2:54:36<3:56:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4330/10186 [2:54:37<3:56:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4330/10186 [2:54:37<3:56:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4331/10186 [2:54:39<3:56:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4331/10186 [2:54:39<3:56:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4332/10186 [2:54:45<3:56:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4332/10186 [2:54:45<3:56:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4333/10186 [2:54:46<3:56:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4333/10186 [2:54:46<3:56:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4334/10186 [2:54:47<3:56:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4334/10186 [2:54:47<3:56:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4335/10186 [2:54:48<3:55:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4335/10186 [2:54:48<3:55:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4336/10186 [2:54:55<3:55:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4336/10186 [2:54:55<3:55:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4337/10186 [2:54:56<3:55:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4337/10186 [2:54:56<3:55:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4338/10186 [2:54:57<3:55:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4338/10186 [2:54:57<3:55:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4339/10186 [2:54:58<3:55:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4339/10186 [2:54:58<3:55:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4340/10186 [2:55:04<3:55:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4340/10186 [2:55:04<3:55:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4341/10186 [2:55:05<3:55:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4341/10186 [2:55:05<3:55:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4342/10186 [2:55:06<3:55:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4342/10186 [2:55:06<3:55:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4343/10186 [2:55:07<3:55:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4343/10186 [2:55:07<3:55:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4344/10186 [2:55:14<3:55:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4344/10186 [2:55:14<3:55:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4345/10186 [2:55:15<3:55:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4345/10186 [2:55:15<3:55:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4346/10186 [2:55:16<3:55:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4346/10186 [2:55:16<3:55:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4347/10186 [2:55:17<3:55:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4347/10186 [2:55:17<3:55:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4348/10186 [2:55:23<3:55:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4348/10186 [2:55:23<3:55:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4349/10186 [2:55:24<3:55:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4349/10186 [2:55:24<3:55:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4350/10186 [2:55:25<3:55:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4350/10186 [2:55:25<3:55:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4351/10186 [2:55:26<3:55:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4351/10186 [2:55:26<3:55:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4352/10186 [2:55:33<3:55:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4352/10186 [2:55:33<3:55:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4353/10186 [2:55:34<3:55:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4353/10186 [2:55:34<3:55:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4354/10186 [2:55:35<3:55:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4354/10186 [2:55:35<3:55:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4355/10186 [2:55:36<3:55:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4355/10186 [2:55:36<3:55:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4356/10186 [2:55:42<3:55:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4356/10186 [2:55:42<3:55:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4357/10186 [2:55:43<3:55:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4357/10186 [2:55:43<3:55:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4358/10186 [2:55:45<3:55:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4358/10186 [2:55:45<3:55:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4359/10186 [2:55:46<3:54:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4359/10186 [2:55:46<3:54:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4360/10186 [2:55:52<3:55:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4360/10186 [2:55:52<3:55:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4361/10186 [2:55:53<3:54:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4361/10186 [2:55:53<3:54:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4362/10186 [2:55:54<3:54:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4362/10186 [2:55:54<3:54:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4363/10186 [2:55:55<3:54:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4363/10186 [2:55:55<3:54:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4364/10186 [2:56:02<3:54:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4364/10186 [2:56:02<3:54:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4365/10186 [2:56:03<3:54:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4365/10186 [2:56:03<3:54:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4366/10186 [2:56:04<3:54:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4366/10186 [2:56:04<3:54:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4367/10186 [2:56:05<3:54:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4367/10186 [2:56:05<3:54:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4368/10186 [2:56:11<3:54:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4368/10186 [2:56:11<3:54:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4369/10186 [2:56:12<3:54:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4369/10186 [2:56:12<3:54:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4370/10186 [2:56:13<3:54:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4370/10186 [2:56:13<3:54:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4371/10186 [2:56:14<3:54:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4371/10186 [2:56:14<3:54:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4372/10186 [2:56:21<3:54:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4372/10186 [2:56:21<3:54:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4373/10186 [2:56:22<3:54:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4373/10186 [2:56:22<3:54:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4374/10186 [2:56:23<3:54:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4374/10186 [2:56:23<3:54:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4375/10186 [2:56:24<3:54:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4375/10186 [2:56:24<3:54:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4376/10186 [2:56:30<3:54:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4376/10186 [2:56:30<3:54:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4377/10186 [2:56:31<3:54:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4377/10186 [2:56:31<3:54:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4378/10186 [2:56:32<3:54:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4378/10186 [2:56:32<3:54:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4379/10186 [2:56:33<3:54:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4379/10186 [2:56:33<3:54:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4380/10186 [2:56:40<3:54:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4380/10186 [2:56:40<3:54:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4381/10186 [2:56:41<3:54:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4381/10186 [2:56:41<3:54:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4382/10186 [2:56:42<3:54:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4382/10186 [2:56:42<3:54:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4383/10186 [2:56:43<3:53:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4383/10186 [2:56:43<3:53:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4384/10186 [2:56:49<3:54:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4384/10186 [2:56:49<3:54:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4385/10186 [2:56:51<3:53:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4385/10186 [2:56:51<3:53:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4386/10186 [2:56:52<3:53:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4386/10186 [2:56:52<3:53:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4387/10186 [2:56:53<3:53:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4387/10186 [2:56:53<3:53:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4388/10186 [2:56:59<3:53:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4388/10186 [2:56:59<3:53:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4389/10186 [2:57:00<3:53:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4389/10186 [2:57:00<3:53:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4390/10186 [2:57:01<3:53:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4390/10186 [2:57:01<3:53:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4391/10186 [2:57:02<3:53:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4391/10186 [2:57:02<3:53:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4392/10186 [2:57:09<3:53:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4392/10186 [2:57:09<3:53:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4393/10186 [2:57:10<3:53:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4393/10186 [2:57:10<3:53:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4394/10186 [2:57:11<3:53:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4394/10186 [2:57:11<3:53:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4395/10186 [2:57:12<3:53:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4395/10186 [2:57:12<3:53:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4396/10186 [2:57:18<3:53:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4396/10186 [2:57:18<3:53:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4397/10186 [2:57:19<3:53:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4397/10186 [2:57:19<3:53:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4398/10186 [2:57:20<3:53:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4398/10186 [2:57:20<3:53:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4399/10186 [2:57:21<3:53:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4399/10186 [2:57:21<3:53:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4400/10186 [2:57:28<3:53:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4400/10186 [2:57:28<3:53:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4401/10186 [2:57:29<3:53:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4401/10186 [2:57:29<3:53:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4402/10186 [2:57:30<3:53:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4402/10186 [2:57:30<3:53:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4403/10186 [2:57:31<3:53:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4403/10186 [2:57:31<3:53:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4404/10186 [2:57:37<3:53:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4404/10186 [2:57:37<3:53:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4405/10186 [2:57:38<3:53:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4405/10186 [2:57:38<3:53:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4406/10186 [2:57:39<3:53:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4406/10186 [2:57:39<3:53:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4407/10186 [2:57:41<3:53:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4407/10186 [2:57:41<3:53:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4408/10186 [2:57:47<3:53:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4408/10186 [2:57:47<3:53:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4409/10186 [2:57:48<3:52:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4409/10186 [2:57:48<3:52:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4410/10186 [2:57:49<3:52:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4410/10186 [2:57:49<3:52:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4411/10186 [2:57:50<3:52:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4411/10186 [2:57:50<3:52:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4412/10186 [2:57:57<3:52:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4412/10186 [2:57:57<3:52:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4413/10186 [2:57:58<3:52:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4413/10186 [2:57:58<3:52:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4414/10186 [2:57:59<3:52:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4414/10186 [2:57:59<3:52:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4415/10186 [2:58:00<3:52:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4415/10186 [2:58:00<3:52:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4416/10186 [2:58:06<3:52:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4416/10186 [2:58:06<3:52:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4417/10186 [2:58:07<3:52:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4417/10186 [2:58:07<3:52:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4418/10186 [2:58:08<3:52:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4418/10186 [2:58:08<3:52:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4419/10186 [2:58:09<3:52:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4419/10186 [2:58:09<3:52:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4420/10186 [2:58:16<3:52:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4420/10186 [2:58:16<3:52:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4421/10186 [2:58:17<3:52:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4421/10186 [2:58:17<3:52:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4422/10186 [2:58:18<3:52:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4422/10186 [2:58:18<3:52:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4423/10186 [2:58:19<3:52:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4423/10186 [2:58:19<3:52:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4424/10186 [2:58:25<3:52:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4424/10186 [2:58:25<3:52:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4425/10186 [2:58:26<3:52:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4425/10186 [2:58:26<3:52:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4426/10186 [2:58:27<3:52:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4426/10186 [2:58:27<3:52:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4427/10186 [2:58:28<3:52:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4427/10186 [2:58:28<3:52:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4428/10186 [2:58:35<3:52:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4428/10186 [2:58:35<3:52:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4429/10186 [2:58:36<3:52:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4429/10186 [2:58:36<3:52:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 4430/10186 [2:58:37<3:52:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  43%|▍| 4430/10186 [2:58:37<3:52:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4431/10186 [2:58:38<3:52:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4431/10186 [2:58:38<3:52:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4432/10186 [2:58:44<3:52:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4432/10186 [2:58:44<3:52:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4433/10186 [2:58:45<3:51:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4433/10186 [2:58:45<3:51:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4434/10186 [2:58:46<3:51:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4434/10186 [2:58:46<3:51:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4435/10186 [2:58:48<3:51:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4435/10186 [2:58:48<3:51:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4436/10186 [2:58:54<3:51:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4436/10186 [2:58:54<3:51:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4437/10186 [2:58:55<3:51:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4437/10186 [2:58:55<3:51:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4438/10186 [2:58:56<3:51:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4438/10186 [2:58:56<3:51:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4439/10186 [2:58:57<3:51:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4439/10186 [2:58:57<3:51:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4440/10186 [2:59:04<3:51:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4440/10186 [2:59:04<3:51:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4441/10186 [2:59:05<3:51:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4441/10186 [2:59:05<3:51:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4442/10186 [2:59:06<3:51:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4442/10186 [2:59:06<3:51:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4443/10186 [2:59:07<3:51:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4443/10186 [2:59:07<3:51:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4444/10186 [2:59:13<3:51:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4444/10186 [2:59:13<3:51:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4445/10186 [2:59:14<3:51:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4445/10186 [2:59:14<3:51:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4446/10186 [2:59:15<3:51:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4446/10186 [2:59:15<3:51:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4447/10186 [2:59:16<3:51:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4447/10186 [2:59:16<3:51:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4448/10186 [2:59:23<3:51:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4448/10186 [2:59:23<3:51:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4449/10186 [2:59:24<3:51:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4449/10186 [2:59:24<3:51:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4450/10186 [2:59:25<3:51:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4450/10186 [2:59:25<3:51:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4451/10186 [2:59:26<3:51:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4451/10186 [2:59:26<3:51:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4452/10186 [2:59:32<3:51:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4452/10186 [2:59:32<3:51:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4453/10186 [2:59:33<3:51:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4453/10186 [2:59:33<3:51:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4454/10186 [2:59:34<3:51:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4454/10186 [2:59:34<3:51:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4455/10186 [2:59:35<3:51:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4455/10186 [2:59:35<3:51:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4456/10186 [2:59:42<3:51:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4456/10186 [2:59:42<3:51:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4457/10186 [2:59:43<3:51:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4457/10186 [2:59:43<3:51:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4458/10186 [2:59:44<3:50:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4458/10186 [2:59:44<3:50:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4459/10186 [2:59:45<3:50:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4459/10186 [2:59:45<3:50:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4460/10186 [2:59:51<3:50:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4460/10186 [2:59:51<3:50:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4461/10186 [2:59:52<3:50:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4461/10186 [2:59:52<3:50:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4462/10186 [2:59:54<3:50:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4462/10186 [2:59:54<3:50:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4463/10186 [2:59:55<3:50:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4463/10186 [2:59:55<3:50:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4464/10186 [3:00:01<3:50:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4464/10186 [3:00:01<3:50:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4465/10186 [3:00:02<3:50:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4465/10186 [3:00:02<3:50:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4466/10186 [3:00:03<3:50:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4466/10186 [3:00:03<3:50:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4467/10186 [3:00:04<3:50:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4467/10186 [3:00:04<3:50:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4468/10186 [3:00:11<3:50:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4468/10186 [3:00:11<3:50:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4469/10186 [3:00:12<3:50:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4469/10186 [3:00:12<3:50:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4470/10186 [3:00:13<3:50:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4470/10186 [3:00:13<3:50:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4471/10186 [3:00:14<3:50:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4471/10186 [3:00:14<3:50:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4472/10186 [3:00:20<3:50:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4472/10186 [3:00:20<3:50:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4473/10186 [3:00:21<3:50:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4473/10186 [3:00:21<3:50:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4474/10186 [3:00:22<3:50:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4474/10186 [3:00:22<3:50:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4475/10186 [3:00:23<3:50:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4475/10186 [3:00:23<3:50:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4476/10186 [3:00:30<3:50:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4476/10186 [3:00:30<3:50:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4477/10186 [3:00:31<3:50:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4477/10186 [3:00:31<3:50:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4478/10186 [3:00:32<3:50:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4478/10186 [3:00:32<3:50:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4479/10186 [3:00:33<3:50:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4479/10186 [3:00:33<3:50:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4480/10186 [3:00:39<3:50:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4480/10186 [3:00:39<3:50:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4481/10186 [3:00:40<3:50:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4481/10186 [3:00:40<3:50:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4482/10186 [3:00:41<3:49:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4482/10186 [3:00:41<3:49:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4483/10186 [3:00:42<3:49:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4483/10186 [3:00:42<3:49:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4484/10186 [3:00:49<3:49:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4484/10186 [3:00:49<3:49:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4485/10186 [3:00:50<3:49:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4485/10186 [3:00:50<3:49:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4486/10186 [3:00:51<3:49:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4486/10186 [3:00:51<3:49:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4487/10186 [3:00:52<3:49:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4487/10186 [3:00:52<3:49:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4488/10186 [3:00:58<3:49:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4488/10186 [3:00:58<3:49:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4489/10186 [3:00:59<3:49:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4489/10186 [3:00:59<3:49:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4490/10186 [3:01:01<3:49:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4490/10186 [3:01:01<3:49:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4491/10186 [3:01:02<3:49:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4491/10186 [3:01:02<3:49:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4492/10186 [3:01:08<3:49:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4492/10186 [3:01:08<3:49:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4493/10186 [3:01:09<3:49:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4493/10186 [3:01:09<3:49:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4494/10186 [3:01:10<3:49:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4494/10186 [3:01:10<3:49:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4495/10186 [3:01:11<3:49:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4495/10186 [3:01:11<3:49:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4496/10186 [3:01:18<3:49:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4496/10186 [3:01:18<3:49:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4497/10186 [3:01:19<3:49:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4497/10186 [3:01:19<3:49:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4498/10186 [3:01:20<3:49:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4498/10186 [3:01:20<3:49:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4499/10186 [3:01:21<3:49:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4499/10186 [3:01:21<3:49:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4500/10186 [3:01:27<3:49:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4500/10186 [3:01:27<3:49:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4501/10186 [3:01:28<3:49:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4501/10186 [3:01:28<3:49:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4502/10186 [3:01:29<3:49:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4502/10186 [3:01:29<3:49:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4503/10186 [3:01:30<3:49:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4503/10186 [3:01:30<3:49:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4504/10186 [3:01:37<3:49:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4504/10186 [3:01:37<3:49:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4505/10186 [3:01:38<3:49:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4505/10186 [3:01:38<3:49:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4506/10186 [3:01:39<3:48:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4506/10186 [3:01:39<3:48:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4507/10186 [3:01:40<3:48:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4507/10186 [3:01:40<3:48:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4508/10186 [3:01:46<3:48:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4508/10186 [3:01:46<3:48:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4509/10186 [3:01:47<3:48:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4509/10186 [3:01:47<3:48:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4510/10186 [3:01:48<3:48:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4510/10186 [3:01:48<3:48:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4511/10186 [3:01:49<3:48:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4511/10186 [3:01:49<3:48:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4512/10186 [3:01:56<3:48:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4512/10186 [3:01:56<3:48:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4513/10186 [3:01:57<3:48:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4513/10186 [3:01:57<3:48:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4514/10186 [3:01:58<3:48:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4514/10186 [3:01:58<3:48:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4515/10186 [3:01:59<3:48:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4515/10186 [3:01:59<3:48:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4516/10186 [3:02:05<3:48:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4516/10186 [3:02:05<3:48:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4517/10186 [3:02:07<3:48:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4517/10186 [3:02:07<3:48:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4518/10186 [3:02:08<3:48:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4518/10186 [3:02:08<3:48:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4519/10186 [3:02:09<3:48:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4519/10186 [3:02:09<3:48:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4520/10186 [3:02:15<3:48:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4520/10186 [3:02:15<3:48:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4521/10186 [3:02:16<3:48:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4521/10186 [3:02:16<3:48:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4522/10186 [3:02:17<3:48:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4522/10186 [3:02:17<3:48:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4523/10186 [3:02:18<3:48:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4523/10186 [3:02:18<3:48:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4524/10186 [3:02:25<3:48:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4524/10186 [3:02:25<3:48:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4525/10186 [3:02:26<3:48:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4525/10186 [3:02:26<3:48:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4526/10186 [3:02:27<3:48:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4526/10186 [3:02:27<3:48:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4527/10186 [3:02:28<3:48:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4527/10186 [3:02:28<3:48:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4528/10186 [3:02:34<3:48:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4528/10186 [3:02:34<3:48:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4529/10186 [3:02:35<3:48:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4529/10186 [3:02:35<3:48:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4530/10186 [3:02:36<3:48:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4530/10186 [3:02:36<3:48:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4531/10186 [3:02:37<3:47:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4531/10186 [3:02:37<3:47:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 4532/10186 [3:02:44<3:47:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  44%|▍| 4532/10186 [3:02:44<3:47:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4533/10186 [3:02:45<3:47:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4533/10186 [3:02:45<3:47:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4534/10186 [3:02:46<3:47:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4534/10186 [3:02:46<3:47:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4535/10186 [3:02:47<3:47:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4535/10186 [3:02:47<3:47:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4536/10186 [3:02:53<3:47:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4536/10186 [3:02:53<3:47:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4537/10186 [3:02:54<3:47:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4537/10186 [3:02:54<3:47:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4538/10186 [3:02:55<3:47:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4538/10186 [3:02:55<3:47:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4539/10186 [3:02:56<3:47:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4539/10186 [3:02:56<3:47:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4540/10186 [3:03:03<3:47:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4540/10186 [3:03:03<3:47:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4541/10186 [3:03:04<3:47:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4541/10186 [3:03:04<3:47:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4542/10186 [3:03:05<3:47:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4542/10186 [3:03:05<3:47:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4543/10186 [3:03:06<3:47:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4543/10186 [3:03:06<3:47:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4544/10186 [3:03:13<3:47:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4544/10186 [3:03:13<3:47:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4545/10186 [3:03:14<3:47:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4545/10186 [3:03:14<3:47:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4546/10186 [3:03:15<3:47:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4546/10186 [3:03:15<3:47:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4547/10186 [3:03:16<3:47:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4547/10186 [3:03:16<3:47:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4548/10186 [3:03:22<3:47:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4548/10186 [3:03:22<3:47:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4549/10186 [3:03:23<3:47:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4549/10186 [3:03:23<3:47:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4550/10186 [3:03:24<3:47:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4550/10186 [3:03:24<3:47:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4551/10186 [3:03:25<3:47:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4551/10186 [3:03:25<3:47:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4552/10186 [3:03:32<3:47:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4552/10186 [3:03:32<3:47:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4553/10186 [3:03:33<3:47:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4553/10186 [3:03:33<3:47:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4554/10186 [3:03:34<3:47:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4554/10186 [3:03:34<3:47:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4555/10186 [3:03:35<3:46:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4555/10186 [3:03:35<3:46:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4556/10186 [3:03:41<3:46:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4556/10186 [3:03:41<3:46:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4557/10186 [3:03:42<3:46:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4557/10186 [3:03:42<3:46:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4558/10186 [3:03:43<3:46:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4558/10186 [3:03:43<3:46:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4559/10186 [3:03:44<3:46:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4559/10186 [3:03:44<3:46:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4560/10186 [3:03:51<3:46:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4560/10186 [3:03:51<3:46:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4561/10186 [3:03:52<3:46:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4561/10186 [3:03:52<3:46:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4562/10186 [3:03:53<3:46:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4562/10186 [3:03:53<3:46:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4563/10186 [3:03:54<3:46:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4563/10186 [3:03:54<3:46:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4564/10186 [3:04:00<3:46:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4564/10186 [3:04:00<3:46:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4565/10186 [3:04:01<3:46:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4565/10186 [3:04:01<3:46:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4566/10186 [3:04:02<3:46:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4566/10186 [3:04:02<3:46:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4567/10186 [3:04:03<3:46:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4567/10186 [3:04:03<3:46:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4568/10186 [3:04:10<3:46:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4568/10186 [3:04:10<3:46:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4569/10186 [3:04:11<3:46:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4569/10186 [3:04:11<3:46:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4570/10186 [3:04:12<3:46:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4570/10186 [3:04:12<3:46:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4571/10186 [3:04:13<3:46:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4571/10186 [3:04:13<3:46:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4572/10186 [3:04:20<3:46:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4572/10186 [3:04:20<3:46:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4573/10186 [3:04:21<3:46:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4573/10186 [3:04:21<3:46:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4574/10186 [3:04:22<3:46:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4574/10186 [3:04:22<3:46:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4575/10186 [3:04:23<3:46:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4575/10186 [3:04:23<3:46:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4576/10186 [3:04:29<3:46:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4576/10186 [3:04:29<3:46:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4577/10186 [3:04:30<3:46:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4577/10186 [3:04:30<3:46:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4578/10186 [3:04:31<3:46:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4578/10186 [3:04:31<3:46:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4579/10186 [3:04:32<3:45:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4579/10186 [3:04:32<3:45:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4580/10186 [3:04:39<3:46:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4580/10186 [3:04:39<3:46:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4581/10186 [3:04:40<3:45:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4581/10186 [3:04:40<3:45:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4582/10186 [3:04:41<3:45:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4582/10186 [3:04:41<3:45:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4583/10186 [3:04:42<3:45:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4583/10186 [3:04:42<3:45:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4584/10186 [3:04:48<3:45:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4584/10186 [3:04:48<3:45:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4585/10186 [3:04:49<3:45:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4585/10186 [3:04:49<3:45:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4586/10186 [3:04:50<3:45:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4586/10186 [3:04:50<3:45:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4587/10186 [3:04:51<3:45:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4587/10186 [3:04:51<3:45:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4588/10186 [3:04:58<3:45:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4588/10186 [3:04:58<3:45:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4589/10186 [3:04:59<3:45:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4589/10186 [3:04:59<3:45:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4590/10186 [3:05:00<3:45:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4590/10186 [3:05:00<3:45:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4591/10186 [3:05:01<3:45:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4591/10186 [3:05:01<3:45:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4592/10186 [3:05:07<3:45:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4592/10186 [3:05:07<3:45:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4593/10186 [3:05:08<3:45:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4593/10186 [3:05:08<3:45:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4594/10186 [3:05:09<3:45:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4594/10186 [3:05:09<3:45:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4595/10186 [3:05:11<3:45:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4595/10186 [3:05:11<3:45:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4596/10186 [3:05:17<3:45:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4596/10186 [3:05:17<3:45:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4597/10186 [3:05:18<3:45:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4597/10186 [3:05:18<3:45:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4598/10186 [3:05:19<3:45:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4598/10186 [3:05:19<3:45:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4599/10186 [3:05:20<3:45:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4599/10186 [3:05:20<3:45:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4600/10186 [3:05:27<3:45:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4600/10186 [3:05:27<3:45:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4601/10186 [3:05:28<3:45:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4601/10186 [3:05:28<3:45:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4602/10186 [3:05:29<3:45:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4602/10186 [3:05:29<3:45:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4603/10186 [3:05:30<3:44:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4603/10186 [3:05:30<3:44:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4604/10186 [3:05:36<3:45:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4604/10186 [3:05:36<3:45:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4605/10186 [3:05:37<3:44:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4605/10186 [3:05:37<3:44:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4606/10186 [3:05:38<3:44:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4606/10186 [3:05:38<3:44:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4607/10186 [3:05:39<3:44:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4607/10186 [3:05:39<3:44:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4608/10186 [3:05:46<3:44:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4608/10186 [3:05:46<3:44:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4609/10186 [3:05:47<3:44:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4609/10186 [3:05:47<3:44:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4610/10186 [3:05:48<3:44:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4610/10186 [3:05:48<3:44:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4611/10186 [3:05:49<3:44:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4611/10186 [3:05:49<3:44:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4612/10186 [3:05:55<3:44:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4612/10186 [3:05:55<3:44:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4613/10186 [3:05:56<3:44:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4613/10186 [3:05:56<3:44:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4614/10186 [3:05:57<3:44:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4614/10186 [3:05:57<3:44:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4615/10186 [3:05:58<3:44:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4615/10186 [3:05:58<3:44:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4616/10186 [3:06:05<3:44:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4616/10186 [3:06:05<3:44:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4617/10186 [3:06:06<3:44:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4617/10186 [3:06:06<3:44:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4618/10186 [3:06:07<3:44:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4618/10186 [3:06:07<3:44:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4619/10186 [3:06:08<3:44:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4619/10186 [3:06:08<3:44:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4620/10186 [3:06:14<3:44:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4620/10186 [3:06:14<3:44:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4621/10186 [3:06:15<3:44:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4621/10186 [3:06:15<3:44:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4622/10186 [3:06:17<3:44:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4622/10186 [3:06:17<3:44:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4623/10186 [3:06:18<3:44:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4623/10186 [3:06:18<3:44:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4624/10186 [3:06:24<3:44:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4624/10186 [3:06:24<3:44:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4625/10186 [3:06:25<3:44:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4625/10186 [3:06:25<3:44:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4626/10186 [3:06:26<3:44:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4626/10186 [3:06:26<3:44:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4627/10186 [3:06:27<3:44:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4627/10186 [3:06:27<3:44:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4628/10186 [3:06:34<3:44:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4628/10186 [3:06:34<3:44:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4629/10186 [3:06:35<3:43:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4629/10186 [3:06:35<3:43:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4630/10186 [3:06:36<3:43:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4630/10186 [3:06:36<3:43:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4631/10186 [3:06:37<3:43:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4631/10186 [3:06:37<3:43:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4632/10186 [3:06:43<3:43:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4632/10186 [3:06:43<3:43:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4633/10186 [3:06:44<3:43:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4633/10186 [3:06:44<3:43:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 4634/10186 [3:06:45<3:43:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  45%|▍| 4634/10186 [3:06:45<3:43:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4635/10186 [3:06:46<3:43:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4635/10186 [3:06:46<3:43:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4636/10186 [3:06:53<3:43:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4636/10186 [3:06:53<3:43:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4637/10186 [3:06:54<3:43:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4637/10186 [3:06:54<3:43:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4638/10186 [3:06:55<3:43:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4638/10186 [3:06:55<3:43:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4639/10186 [3:06:56<3:43:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4639/10186 [3:06:56<3:43:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4640/10186 [3:07:02<3:43:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4640/10186 [3:07:02<3:43:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4641/10186 [3:07:03<3:43:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4641/10186 [3:07:03<3:43:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4642/10186 [3:07:04<3:43:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4642/10186 [3:07:04<3:43:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4643/10186 [3:07:05<3:43:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4643/10186 [3:07:05<3:43:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4644/10186 [3:07:12<3:43:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4644/10186 [3:07:12<3:43:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4645/10186 [3:07:13<3:43:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4645/10186 [3:07:13<3:43:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4646/10186 [3:07:14<3:43:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4646/10186 [3:07:14<3:43:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4647/10186 [3:07:15<3:43:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4647/10186 [3:07:15<3:43:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4648/10186 [3:07:21<3:43:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4648/10186 [3:07:21<3:43:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4649/10186 [3:07:23<3:43:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4649/10186 [3:07:23<3:43:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4650/10186 [3:07:24<3:43:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4650/10186 [3:07:24<3:43:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4651/10186 [3:07:25<3:43:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4651/10186 [3:07:25<3:43:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4652/10186 [3:07:31<3:43:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4652/10186 [3:07:31<3:43:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4653/10186 [3:07:32<3:43:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4653/10186 [3:07:32<3:43:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4654/10186 [3:07:33<3:42:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4654/10186 [3:07:33<3:42:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4655/10186 [3:07:34<3:42:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4655/10186 [3:07:34<3:42:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4656/10186 [3:07:41<3:42:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4656/10186 [3:07:41<3:42:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4657/10186 [3:07:42<3:42:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4657/10186 [3:07:42<3:42:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4658/10186 [3:07:43<3:42:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4658/10186 [3:07:43<3:42:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4659/10186 [3:07:44<3:42:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4659/10186 [3:07:44<3:42:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4660/10186 [3:07:50<3:42:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4660/10186 [3:07:50<3:42:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4661/10186 [3:07:51<3:42:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4661/10186 [3:07:51<3:42:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4662/10186 [3:07:52<3:42:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4662/10186 [3:07:52<3:42:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4663/10186 [3:07:53<3:42:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4663/10186 [3:07:53<3:42:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4664/10186 [3:08:00<3:42:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4664/10186 [3:08:00<3:42:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4665/10186 [3:08:01<3:42:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4665/10186 [3:08:01<3:42:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4666/10186 [3:08:02<3:42:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4666/10186 [3:08:02<3:42:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4667/10186 [3:08:03<3:42:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4667/10186 [3:08:03<3:42:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4668/10186 [3:08:09<3:42:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4668/10186 [3:08:09<3:42:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4669/10186 [3:08:10<3:42:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4669/10186 [3:08:10<3:42:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4670/10186 [3:08:11<3:42:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4670/10186 [3:08:11<3:42:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4671/10186 [3:08:12<3:42:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4671/10186 [3:08:12<3:42:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4672/10186 [3:08:19<3:42:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4672/10186 [3:08:19<3:42:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4673/10186 [3:08:20<3:42:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4673/10186 [3:08:20<3:42:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4674/10186 [3:08:21<3:42:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4674/10186 [3:08:21<3:42:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4675/10186 [3:08:22<3:42:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4675/10186 [3:08:22<3:42:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4676/10186 [3:08:29<3:42:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4676/10186 [3:08:29<3:42:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4677/10186 [3:08:30<3:42:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4677/10186 [3:08:30<3:42:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4678/10186 [3:08:31<3:41:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4678/10186 [3:08:31<3:41:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4679/10186 [3:08:32<3:41:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4679/10186 [3:08:32<3:41:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4680/10186 [3:08:38<3:41:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4680/10186 [3:08:38<3:41:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4681/10186 [3:08:39<3:41:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4681/10186 [3:08:39<3:41:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4682/10186 [3:08:40<3:41:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4682/10186 [3:08:40<3:41:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4683/10186 [3:08:41<3:41:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4683/10186 [3:08:41<3:41:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4684/10186 [3:08:48<3:41:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4684/10186 [3:08:48<3:41:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4685/10186 [3:08:49<3:41:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4685/10186 [3:08:49<3:41:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4686/10186 [3:08:50<3:41:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4686/10186 [3:08:50<3:41:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4687/10186 [3:08:51<3:41:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4687/10186 [3:08:51<3:41:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4688/10186 [3:08:57<3:41:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4688/10186 [3:08:57<3:41:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4689/10186 [3:08:58<3:41:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4689/10186 [3:08:58<3:41:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4690/10186 [3:08:59<3:41:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4690/10186 [3:08:59<3:41:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4691/10186 [3:09:00<3:41:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4691/10186 [3:09:00<3:41:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4692/10186 [3:09:07<3:41:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4692/10186 [3:09:07<3:41:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4693/10186 [3:09:08<3:41:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4693/10186 [3:09:08<3:41:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4694/10186 [3:09:09<3:41:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4694/10186 [3:09:09<3:41:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4695/10186 [3:09:10<3:41:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4695/10186 [3:09:10<3:41:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4696/10186 [3:09:16<3:41:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4696/10186 [3:09:16<3:41:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4697/10186 [3:09:17<3:41:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4697/10186 [3:09:17<3:41:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4698/10186 [3:09:18<3:41:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4698/10186 [3:09:18<3:41:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4699/10186 [3:09:19<3:41:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4699/10186 [3:09:19<3:41:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4700/10186 [3:09:26<3:41:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4700/10186 [3:09:26<3:41:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4701/10186 [3:09:27<3:41:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4701/10186 [3:09:27<3:41:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4702/10186 [3:09:28<3:40:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4702/10186 [3:09:28<3:40:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4703/10186 [3:09:29<3:40:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4703/10186 [3:09:29<3:40:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4704/10186 [3:09:36<3:40:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4704/10186 [3:09:36<3:40:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4705/10186 [3:09:37<3:40:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4705/10186 [3:09:37<3:40:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4706/10186 [3:09:38<3:40:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4706/10186 [3:09:38<3:40:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4707/10186 [3:09:39<3:40:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4707/10186 [3:09:39<3:40:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4708/10186 [3:09:45<3:40:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4708/10186 [3:09:45<3:40:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4709/10186 [3:09:46<3:40:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4709/10186 [3:09:46<3:40:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4710/10186 [3:09:47<3:40:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4710/10186 [3:09:47<3:40:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4711/10186 [3:09:48<3:40:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4711/10186 [3:09:48<3:40:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4712/10186 [3:09:55<3:40:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4712/10186 [3:09:55<3:40:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4713/10186 [3:09:56<3:40:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4713/10186 [3:09:56<3:40:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4714/10186 [3:09:57<3:40:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4714/10186 [3:09:57<3:40:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4715/10186 [3:09:58<3:40:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4715/10186 [3:09:58<3:40:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4716/10186 [3:10:04<3:40:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4716/10186 [3:10:04<3:40:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4717/10186 [3:10:05<3:40:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4717/10186 [3:10:05<3:40:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4718/10186 [3:10:06<3:40:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4718/10186 [3:10:06<3:40:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4719/10186 [3:10:07<3:40:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4719/10186 [3:10:07<3:40:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4720/10186 [3:10:14<3:40:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4720/10186 [3:10:14<3:40:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4721/10186 [3:10:15<3:40:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4721/10186 [3:10:15<3:40:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4722/10186 [3:10:16<3:40:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4722/10186 [3:10:16<3:40:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4723/10186 [3:10:17<3:40:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4723/10186 [3:10:17<3:40:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4724/10186 [3:10:23<3:40:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4724/10186 [3:10:23<3:40:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4725/10186 [3:10:24<3:40:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4725/10186 [3:10:24<3:40:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4726/10186 [3:10:25<3:40:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4726/10186 [3:10:25<3:40:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4727/10186 [3:10:26<3:39:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4727/10186 [3:10:26<3:39:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4728/10186 [3:10:33<3:39:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4728/10186 [3:10:33<3:39:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4729/10186 [3:10:34<3:39:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4729/10186 [3:10:34<3:39:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4730/10186 [3:10:35<3:39:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4730/10186 [3:10:35<3:39:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4731/10186 [3:10:36<3:39:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4731/10186 [3:10:36<3:39:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4732/10186 [3:10:43<3:39:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4732/10186 [3:10:43<3:39:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4733/10186 [3:10:44<3:39:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4733/10186 [3:10:44<3:39:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4734/10186 [3:10:45<3:39:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4734/10186 [3:10:45<3:39:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4735/10186 [3:10:46<3:39:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4735/10186 [3:10:46<3:39:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 4736/10186 [3:10:52<3:39:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  46%|▍| 4736/10186 [3:10:52<3:39:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4737/10186 [3:10:53<3:39:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4737/10186 [3:10:53<3:39:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4738/10186 [3:10:54<3:39:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4738/10186 [3:10:54<3:39:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4739/10186 [3:10:55<3:39:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4739/10186 [3:10:55<3:39:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4740/10186 [3:11:02<3:39:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4740/10186 [3:11:02<3:39:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4741/10186 [3:11:03<3:39:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4741/10186 [3:11:03<3:39:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4742/10186 [3:11:04<3:39:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4742/10186 [3:11:04<3:39:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4743/10186 [3:11:05<3:39:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4743/10186 [3:11:05<3:39:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4744/10186 [3:11:11<3:39:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4744/10186 [3:11:11<3:39:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4745/10186 [3:11:12<3:39:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4745/10186 [3:11:12<3:39:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4746/10186 [3:11:13<3:39:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4746/10186 [3:11:13<3:39:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4747/10186 [3:11:14<3:39:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4747/10186 [3:11:14<3:39:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4748/10186 [3:11:21<3:39:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4748/10186 [3:11:21<3:39:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4749/10186 [3:11:22<3:39:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4749/10186 [3:11:22<3:39:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4750/10186 [3:11:23<3:39:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4750/10186 [3:11:23<3:39:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4751/10186 [3:11:24<3:38:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4751/10186 [3:11:24<3:38:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4752/10186 [3:11:30<3:39:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4752/10186 [3:11:30<3:39:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4753/10186 [3:11:31<3:38:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4753/10186 [3:11:31<3:38:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4754/10186 [3:11:32<3:38:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4754/10186 [3:11:32<3:38:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4755/10186 [3:11:33<3:38:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4755/10186 [3:11:33<3:38:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4756/10186 [3:11:40<3:38:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4756/10186 [3:11:40<3:38:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4757/10186 [3:11:41<3:38:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4757/10186 [3:11:41<3:38:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4758/10186 [3:11:42<3:38:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4758/10186 [3:11:42<3:38:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4759/10186 [3:11:43<3:38:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4759/10186 [3:11:43<3:38:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4760/10186 [3:11:50<3:38:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4760/10186 [3:11:50<3:38:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4761/10186 [3:11:51<3:38:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4761/10186 [3:11:51<3:38:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4762/10186 [3:11:52<3:38:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4762/10186 [3:11:52<3:38:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4763/10186 [3:11:53<3:38:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4763/10186 [3:11:53<3:38:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4764/10186 [3:11:59<3:38:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4764/10186 [3:11:59<3:38:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4765/10186 [3:12:00<3:38:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4765/10186 [3:12:00<3:38:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4766/10186 [3:12:01<3:38:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4766/10186 [3:12:01<3:38:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4767/10186 [3:12:02<3:38:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4767/10186 [3:12:02<3:38:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4768/10186 [3:12:09<3:38:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4768/10186 [3:12:09<3:38:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4769/10186 [3:12:10<3:38:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4769/10186 [3:12:10<3:38:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4770/10186 [3:12:11<3:38:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4770/10186 [3:12:11<3:38:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4771/10186 [3:12:12<3:38:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4771/10186 [3:12:12<3:38:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4772/10186 [3:12:18<3:38:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4772/10186 [3:12:18<3:38:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4773/10186 [3:12:19<3:38:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4773/10186 [3:12:19<3:38:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4774/10186 [3:12:20<3:38:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4774/10186 [3:12:20<3:38:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4775/10186 [3:12:21<3:37:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4775/10186 [3:12:21<3:37:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4776/10186 [3:12:28<3:38:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4776/10186 [3:12:28<3:38:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4777/10186 [3:12:29<3:37:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4777/10186 [3:12:29<3:37:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4778/10186 [3:12:30<3:37:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4778/10186 [3:12:30<3:37:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4779/10186 [3:12:31<3:37:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4779/10186 [3:12:31<3:37:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4780/10186 [3:12:37<3:37:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4780/10186 [3:12:37<3:37:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4781/10186 [3:12:38<3:37:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4781/10186 [3:12:38<3:37:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4782/10186 [3:12:39<3:37:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4782/10186 [3:12:39<3:37:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4783/10186 [3:12:41<3:37:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4783/10186 [3:12:41<3:37:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4784/10186 [3:12:47<3:37:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4784/10186 [3:12:47<3:37:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4785/10186 [3:12:48<3:37:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4785/10186 [3:12:48<3:37:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4786/10186 [3:12:49<3:37:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4786/10186 [3:12:49<3:37:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4787/10186 [3:12:50<3:37:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4787/10186 [3:12:50<3:37:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4788/10186 [3:12:57<3:37:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4788/10186 [3:12:57<3:37:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4789/10186 [3:12:58<3:37:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4789/10186 [3:12:58<3:37:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4790/10186 [3:12:59<3:37:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4790/10186 [3:12:59<3:37:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4791/10186 [3:13:00<3:37:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4791/10186 [3:13:00<3:37:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4792/10186 [3:13:06<3:37:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4792/10186 [3:13:06<3:37:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4793/10186 [3:13:07<3:37:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4793/10186 [3:13:07<3:37:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4794/10186 [3:13:08<3:37:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4794/10186 [3:13:08<3:37:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4795/10186 [3:13:09<3:37:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4795/10186 [3:13:09<3:37:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4796/10186 [3:13:16<3:37:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4796/10186 [3:13:16<3:37:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4797/10186 [3:13:17<3:37:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4797/10186 [3:13:17<3:37:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4798/10186 [3:13:18<3:37:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4798/10186 [3:13:18<3:37:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4799/10186 [3:13:19<3:37:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4799/10186 [3:13:19<3:37:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4800/10186 [3:13:25<3:37:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4800/10186 [3:13:25<3:37:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4801/10186 [3:13:26<3:36:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4801/10186 [3:13:26<3:36:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4802/10186 [3:13:27<3:36:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4802/10186 [3:13:27<3:36:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4803/10186 [3:13:28<3:36:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4803/10186 [3:13:28<3:36:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4804/10186 [3:13:35<3:36:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4804/10186 [3:13:35<3:36:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4805/10186 [3:13:36<3:36:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4805/10186 [3:13:36<3:36:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4806/10186 [3:13:37<3:36:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4806/10186 [3:13:37<3:36:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4807/10186 [3:13:38<3:36:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4807/10186 [3:13:38<3:36:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4808/10186 [3:13:44<3:36:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4808/10186 [3:13:44<3:36:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4809/10186 [3:13:45<3:36:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4809/10186 [3:13:45<3:36:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4810/10186 [3:13:47<3:36:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4810/10186 [3:13:47<3:36:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4811/10186 [3:13:48<3:36:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4811/10186 [3:13:48<3:36:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4812/10186 [3:13:54<3:36:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4812/10186 [3:13:54<3:36:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4813/10186 [3:13:55<3:36:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4813/10186 [3:13:55<3:36:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4814/10186 [3:13:56<3:36:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4814/10186 [3:13:56<3:36:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4815/10186 [3:13:57<3:36:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4815/10186 [3:13:57<3:36:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4816/10186 [3:14:04<3:36:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4816/10186 [3:14:04<3:36:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4817/10186 [3:14:05<3:36:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4817/10186 [3:14:05<3:36:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4818/10186 [3:14:06<3:36:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4818/10186 [3:14:06<3:36:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4819/10186 [3:14:07<3:36:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4819/10186 [3:14:07<3:36:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4820/10186 [3:14:13<3:36:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4820/10186 [3:14:13<3:36:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4821/10186 [3:14:14<3:36:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4821/10186 [3:14:14<3:36:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4822/10186 [3:14:15<3:36:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4822/10186 [3:14:15<3:36:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4823/10186 [3:14:16<3:36:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4823/10186 [3:14:16<3:36:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4824/10186 [3:14:23<3:36:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4824/10186 [3:14:23<3:36:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4825/10186 [3:14:24<3:36:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4825/10186 [3:14:24<3:36:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4826/10186 [3:14:25<3:35:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4826/10186 [3:14:25<3:35:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4827/10186 [3:14:26<3:35:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4827/10186 [3:14:26<3:35:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4828/10186 [3:14:32<3:35:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4828/10186 [3:14:32<3:35:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4829/10186 [3:14:33<3:35:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4829/10186 [3:14:33<3:35:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4830/10186 [3:14:34<3:35:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4830/10186 [3:14:34<3:35:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4831/10186 [3:14:35<3:35:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4831/10186 [3:14:35<3:35:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4832/10186 [3:14:42<3:35:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4832/10186 [3:14:42<3:35:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4833/10186 [3:14:43<3:35:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4833/10186 [3:14:43<3:35:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4834/10186 [3:14:44<3:35:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4834/10186 [3:14:44<3:35:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4835/10186 [3:14:45<3:35:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4835/10186 [3:14:45<3:35:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4836/10186 [3:14:51<3:35:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4836/10186 [3:14:51<3:35:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4837/10186 [3:14:53<3:35:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4837/10186 [3:14:53<3:35:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 4838/10186 [3:14:54<3:35:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  47%|▍| 4838/10186 [3:14:54<3:35:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4839/10186 [3:14:55<3:35:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4839/10186 [3:14:55<3:35:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4840/10186 [3:15:01<3:35:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4840/10186 [3:15:01<3:35:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4841/10186 [3:15:02<3:35:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4841/10186 [3:15:02<3:35:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4842/10186 [3:15:03<3:35:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4842/10186 [3:15:03<3:35:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4843/10186 [3:15:04<3:35:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4843/10186 [3:15:04<3:35:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4844/10186 [3:15:11<3:35:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4844/10186 [3:15:11<3:35:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4845/10186 [3:15:12<3:35:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4845/10186 [3:15:12<3:35:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4846/10186 [3:15:13<3:35:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4846/10186 [3:15:13<3:35:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4847/10186 [3:15:14<3:35:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4847/10186 [3:15:14<3:35:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4848/10186 [3:15:20<3:35:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4848/10186 [3:15:20<3:35:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4849/10186 [3:15:21<3:35:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4849/10186 [3:15:21<3:35:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4850/10186 [3:15:22<3:34:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4850/10186 [3:15:22<3:34:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4851/10186 [3:15:23<3:34:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4851/10186 [3:15:23<3:34:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4852/10186 [3:15:30<3:34:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4852/10186 [3:15:30<3:34:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4853/10186 [3:15:31<3:34:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4853/10186 [3:15:31<3:34:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4854/10186 [3:15:32<3:34:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4854/10186 [3:15:32<3:34:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4855/10186 [3:15:33<3:34:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4855/10186 [3:15:33<3:34:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4856/10186 [3:15:39<3:34:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4856/10186 [3:15:39<3:34:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4857/10186 [3:15:40<3:34:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4857/10186 [3:15:40<3:34:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4858/10186 [3:15:41<3:34:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4858/10186 [3:15:41<3:34:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4859/10186 [3:15:42<3:34:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4859/10186 [3:15:42<3:34:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4860/10186 [3:15:49<3:34:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4860/10186 [3:15:49<3:34:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4861/10186 [3:15:50<3:34:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4861/10186 [3:15:50<3:34:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4862/10186 [3:15:51<3:34:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4862/10186 [3:15:51<3:34:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4863/10186 [3:15:52<3:34:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4863/10186 [3:15:52<3:34:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4864/10186 [3:15:59<3:34:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4864/10186 [3:15:59<3:34:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4865/10186 [3:16:00<3:34:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4865/10186 [3:16:00<3:34:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4866/10186 [3:16:01<3:34:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4866/10186 [3:16:01<3:34:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4867/10186 [3:16:02<3:34:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4867/10186 [3:16:02<3:34:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4868/10186 [3:16:08<3:34:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4868/10186 [3:16:08<3:34:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4869/10186 [3:16:09<3:34:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4869/10186 [3:16:09<3:34:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4870/10186 [3:16:10<3:34:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4870/10186 [3:16:10<3:34:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4871/10186 [3:16:11<3:34:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4871/10186 [3:16:11<3:34:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4872/10186 [3:16:18<3:34:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4872/10186 [3:16:18<3:34:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4873/10186 [3:16:19<3:34:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4873/10186 [3:16:19<3:34:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4874/10186 [3:16:20<3:33:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4874/10186 [3:16:20<3:33:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4875/10186 [3:16:21<3:33:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4875/10186 [3:16:21<3:33:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4876/10186 [3:16:27<3:33:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4876/10186 [3:16:27<3:33:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4877/10186 [3:16:28<3:33:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4877/10186 [3:16:28<3:33:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4878/10186 [3:16:29<3:33:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4878/10186 [3:16:29<3:33:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4879/10186 [3:16:30<3:33:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4879/10186 [3:16:30<3:33:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4880/10186 [3:16:37<3:33:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4880/10186 [3:16:37<3:33:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4881/10186 [3:16:38<3:33:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4881/10186 [3:16:38<3:33:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4882/10186 [3:16:39<3:33:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4882/10186 [3:16:39<3:33:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4883/10186 [3:16:40<3:33:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4883/10186 [3:16:40<3:33:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4884/10186 [3:16:46<3:33:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4884/10186 [3:16:46<3:33:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4885/10186 [3:16:47<3:33:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4885/10186 [3:16:47<3:33:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4886/10186 [3:16:48<3:33:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4886/10186 [3:16:48<3:33:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4887/10186 [3:16:50<3:33:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4887/10186 [3:16:50<3:33:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4888/10186 [3:16:56<3:33:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4888/10186 [3:16:56<3:33:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4889/10186 [3:16:57<3:33:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4889/10186 [3:16:57<3:33:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4890/10186 [3:16:58<3:33:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4890/10186 [3:16:58<3:33:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4891/10186 [3:16:59<3:33:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4891/10186 [3:16:59<3:33:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4892/10186 [3:17:06<3:33:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4892/10186 [3:17:06<3:33:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4893/10186 [3:17:07<3:33:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4893/10186 [3:17:07<3:33:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4894/10186 [3:17:08<3:33:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4894/10186 [3:17:08<3:33:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4895/10186 [3:17:09<3:33:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4895/10186 [3:17:09<3:33:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4896/10186 [3:17:15<3:33:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4896/10186 [3:17:15<3:33:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4897/10186 [3:17:16<3:33:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4897/10186 [3:17:16<3:33:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4898/10186 [3:17:17<3:33:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4898/10186 [3:17:17<3:33:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4899/10186 [3:17:18<3:32:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4899/10186 [3:17:18<3:32:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4900/10186 [3:17:25<3:32:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4900/10186 [3:17:25<3:32:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4901/10186 [3:17:26<3:32:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4901/10186 [3:17:26<3:32:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4902/10186 [3:17:27<3:32:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4902/10186 [3:17:27<3:32:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4903/10186 [3:17:28<3:32:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4903/10186 [3:17:28<3:32:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4904/10186 [3:17:34<3:32:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4904/10186 [3:17:34<3:32:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4905/10186 [3:17:35<3:32:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4905/10186 [3:17:35<3:32:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4906/10186 [3:17:36<3:32:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4906/10186 [3:17:36<3:32:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4907/10186 [3:17:37<3:32:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4907/10186 [3:17:37<3:32:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4908/10186 [3:17:44<3:32:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4908/10186 [3:17:44<3:32:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4909/10186 [3:17:45<3:32:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4909/10186 [3:17:45<3:32:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4910/10186 [3:17:46<3:32:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4910/10186 [3:17:46<3:32:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4911/10186 [3:17:47<3:32:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4911/10186 [3:17:47<3:32:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4912/10186 [3:17:53<3:32:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4912/10186 [3:17:53<3:32:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4913/10186 [3:17:54<3:32:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4913/10186 [3:17:54<3:32:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4914/10186 [3:17:55<3:32:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4914/10186 [3:17:55<3:32:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4915/10186 [3:17:57<3:32:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4915/10186 [3:17:57<3:32:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4916/10186 [3:18:03<3:32:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4916/10186 [3:18:03<3:32:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4917/10186 [3:18:04<3:32:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4917/10186 [3:18:04<3:32:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4918/10186 [3:18:05<3:32:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4918/10186 [3:18:05<3:32:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4919/10186 [3:18:06<3:32:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4919/10186 [3:18:06<3:32:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4920/10186 [3:18:13<3:32:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4920/10186 [3:18:13<3:32:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4921/10186 [3:18:14<3:32:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4921/10186 [3:18:14<3:32:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4922/10186 [3:18:15<3:32:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4922/10186 [3:18:15<3:32:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4923/10186 [3:18:16<3:31:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4923/10186 [3:18:16<3:31:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4924/10186 [3:18:22<3:31:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4924/10186 [3:18:22<3:31:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4925/10186 [3:18:23<3:31:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4925/10186 [3:18:23<3:31:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4926/10186 [3:18:24<3:31:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4926/10186 [3:18:24<3:31:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4927/10186 [3:18:25<3:31:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4927/10186 [3:18:25<3:31:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4928/10186 [3:18:32<3:31:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4928/10186 [3:18:32<3:31:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4929/10186 [3:18:33<3:31:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4929/10186 [3:18:33<3:31:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4930/10186 [3:18:34<3:31:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4930/10186 [3:18:34<3:31:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4931/10186 [3:18:35<3:31:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4931/10186 [3:18:35<3:31:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4932/10186 [3:18:41<3:31:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4932/10186 [3:18:41<3:31:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4933/10186 [3:18:42<3:31:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4933/10186 [3:18:42<3:31:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4934/10186 [3:18:43<3:31:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4934/10186 [3:18:43<3:31:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4935/10186 [3:18:44<3:31:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4935/10186 [3:18:44<3:31:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4936/10186 [3:18:51<3:31:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4936/10186 [3:18:51<3:31:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4937/10186 [3:18:52<3:31:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4937/10186 [3:18:52<3:31:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4938/10186 [3:18:53<3:31:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4938/10186 [3:18:53<3:31:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4939/10186 [3:18:54<3:31:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4939/10186 [3:18:54<3:31:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 4940/10186 [3:19:00<3:31:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  48%|▍| 4940/10186 [3:19:00<3:31:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 4941/10186 [3:19:01<3:31:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 4941/10186 [3:19:01<3:31:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 4942/10186 [3:19:03<3:31:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 4942/10186 [3:19:03<3:31:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 4943/10186 [3:19:04<3:31:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 4943/10186 [3:19:04<3:31:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 4944/10186 [3:19:10<3:31:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 4944/10186 [3:19:10<3:31:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 4945/10186 [3:19:11<3:31:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 4945/10186 [3:19:11<3:31:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 4946/10186 [3:19:12<3:31:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 4946/10186 [3:19:12<3:31:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 4947/10186 [3:19:13<3:30:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 4947/10186 [3:19:13<3:30:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 4948/10186 [3:19:20<3:31:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 4948/10186 [3:19:20<3:31:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 4949/10186 [3:19:21<3:30:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 4949/10186 [3:19:21<3:30:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 4950/10186 [3:19:22<3:30:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 4950/10186 [3:19:22<3:30:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 4951/10186 [3:19:23<3:30:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 4951/10186 [3:19:23<3:30:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 4952/10186 [3:19:29<3:30:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 4952/10186 [3:19:29<3:30:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 4953/10186 [3:19:30<3:30:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 4953/10186 [3:19:30<3:30:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 4954/10186 [3:19:31<3:30:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 4954/10186 [3:19:31<3:30:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 4955/10186 [3:19:32<3:30:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 4955/10186 [3:19:32<3:30:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 4956/10186 [3:19:39<3:30:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 4956/10186 [3:19:39<3:30:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 4957/10186 [3:19:40<3:30:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 4957/10186 [3:19:40<3:30:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 4958/10186 [3:19:41<3:30:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 4958/10186 [3:19:41<3:30:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 4959/10186 [3:19:42<3:30:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 4959/10186 [3:19:42<3:30:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 4960/10186 [3:19:48<3:30:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 4960/10186 [3:19:48<3:30:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 4961/10186 [3:19:49<3:30:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 4961/10186 [3:19:49<3:30:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 4962/10186 [3:19:50<3:30:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 4962/10186 [3:19:50<3:30:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 4963/10186 [3:19:51<3:30:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 4963/10186 [3:19:51<3:30:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 4964/10186 [3:19:58<3:30:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 4964/10186 [3:19:58<3:30:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 4965/10186 [3:19:59<3:30:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 4965/10186 [3:19:59<3:30:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 4966/10186 [3:20:00<3:30:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 4966/10186 [3:20:00<3:30:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 4967/10186 [3:20:01<3:30:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 4967/10186 [3:20:01<3:30:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 4968/10186 [3:20:08<3:30:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 4968/10186 [3:20:08<3:30:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 4969/10186 [3:20:09<3:30:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 4969/10186 [3:20:09<3:30:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 4970/10186 [3:20:10<3:30:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 4970/10186 [3:20:10<3:30:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 4971/10186 [3:20:11<3:30:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 4971/10186 [3:20:11<3:30:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 4972/10186 [3:20:17<3:30:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 4972/10186 [3:20:17<3:30:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 4973/10186 [3:20:18<3:29:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 4973/10186 [3:20:18<3:29:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 4974/10186 [3:20:19<3:29:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 4974/10186 [3:20:19<3:29:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 4975/10186 [3:20:20<3:29:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 4975/10186 [3:20:20<3:29:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 4976/10186 [3:20:27<3:29:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 4976/10186 [3:20:27<3:29:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 4977/10186 [3:20:28<3:29:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 4977/10186 [3:20:28<3:29:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 4978/10186 [3:20:29<3:29:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 4978/10186 [3:20:29<3:29:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 4979/10186 [3:20:30<3:29:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 4979/10186 [3:20:30<3:29:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 4980/10186 [3:20:36<3:29:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 4980/10186 [3:20:36<3:29:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 4981/10186 [3:20:37<3:29:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 4981/10186 [3:20:37<3:29:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 4982/10186 [3:20:38<3:29:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 4982/10186 [3:20:38<3:29:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 4983/10186 [3:20:39<3:29:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 4983/10186 [3:20:39<3:29:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 4984/10186 [3:20:46<3:29:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 4984/10186 [3:20:46<3:29:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 4985/10186 [3:20:47<3:29:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 4985/10186 [3:20:47<3:29:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 4986/10186 [3:20:48<3:29:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 4986/10186 [3:20:48<3:29:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 4987/10186 [3:20:49<3:29:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 4987/10186 [3:20:49<3:29:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 4988/10186 [3:20:55<3:29:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 4988/10186 [3:20:55<3:29:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 4989/10186 [3:20:56<3:29:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 4989/10186 [3:20:56<3:29:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 4990/10186 [3:20:58<3:29:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 4990/10186 [3:20:58<3:29:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 4991/10186 [3:20:59<3:29:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 4991/10186 [3:20:59<3:29:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 4992/10186 [3:21:05<3:29:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 4992/10186 [3:21:05<3:29:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 4993/10186 [3:21:06<3:29:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 4993/10186 [3:21:06<3:29:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 4994/10186 [3:21:07<3:29:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 4994/10186 [3:21:07<3:29:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 4995/10186 [3:21:08<3:29:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 4995/10186 [3:21:08<3:29:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 4996/10186 [3:21:15<3:29:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 4996/10186 [3:21:15<3:29:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 4997/10186 [3:21:16<3:29:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 4997/10186 [3:21:16<3:29:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 4998/10186 [3:21:17<3:28:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 4998/10186 [3:21:17<3:28:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 4999/10186 [3:21:18<3:28:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 4999/10186 [3:21:18<3:28:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 5000/10186 [3:21:24<3:28:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 5000/10186 [3:21:24<3:28:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 5001/10186 [3:21:50<3:29:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 5001/10186 [3:21:50<3:29:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 5002/10186 [3:21:51<3:29:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 5002/10186 [3:21:51<3:29:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 5003/10186 [3:21:52<3:29:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 5003/10186 [3:21:52<3:29:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 5004/10186 [3:21:58<3:29:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 5004/10186 [3:21:58<3:29:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 5005/10186 [3:21:59<3:29:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 5005/10186 [3:21:59<3:29:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 5006/10186 [3:22:00<3:29:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 5006/10186 [3:22:00<3:29:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 5007/10186 [3:22:01<3:28:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 5007/10186 [3:22:01<3:28:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 5008/10186 [3:22:08<3:29:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 5008/10186 [3:22:08<3:29:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 5009/10186 [3:22:09<3:28:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 5009/10186 [3:22:09<3:28:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 5010/10186 [3:22:10<3:28:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 5010/10186 [3:22:10<3:28:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 5011/10186 [3:22:11<3:28:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 5011/10186 [3:22:11<3:28:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 5012/10186 [3:22:17<3:28:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 5012/10186 [3:22:17<3:28:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 5013/10186 [3:22:18<3:28:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 5013/10186 [3:22:18<3:28:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 5014/10186 [3:22:19<3:28:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 5014/10186 [3:22:19<3:28:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 5015/10186 [3:22:21<3:28:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 5015/10186 [3:22:21<3:28:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 5016/10186 [3:22:27<3:28:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 5016/10186 [3:22:27<3:28:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 5017/10186 [3:22:28<3:28:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 5017/10186 [3:22:28<3:28:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 5018/10186 [3:22:29<3:28:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 5018/10186 [3:22:29<3:28:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 5019/10186 [3:22:30<3:28:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 5019/10186 [3:22:30<3:28:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 5020/10186 [3:22:37<3:28:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 5020/10186 [3:22:37<3:28:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 5021/10186 [3:22:38<3:28:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 5021/10186 [3:22:38<3:28:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 5022/10186 [3:22:39<3:28:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 5022/10186 [3:22:39<3:28:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 5023/10186 [3:22:40<3:28:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 5023/10186 [3:22:40<3:28:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 5024/10186 [3:22:46<3:28:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 5024/10186 [3:22:46<3:28:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 5025/10186 [3:22:47<3:28:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 5025/10186 [3:22:47<3:28:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 5026/10186 [3:22:48<3:28:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 5026/10186 [3:22:48<3:28:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 5027/10186 [3:22:49<3:28:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 5027/10186 [3:22:49<3:28:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 5028/10186 [3:22:56<3:28:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 5028/10186 [3:22:56<3:28:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 5029/10186 [3:22:57<3:28:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 5029/10186 [3:22:57<3:28:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 5030/10186 [3:22:58<3:28:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 5030/10186 [3:22:58<3:28:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 5031/10186 [3:22:59<3:27:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 5031/10186 [3:22:59<3:27:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 5032/10186 [3:23:05<3:28:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 5032/10186 [3:23:05<3:28:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 5033/10186 [3:23:06<3:27:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 5033/10186 [3:23:06<3:27:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 5034/10186 [3:23:07<3:27:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 5034/10186 [3:23:07<3:27:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 5035/10186 [3:23:08<3:27:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 5035/10186 [3:23:08<3:27:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 5036/10186 [3:23:15<3:27:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 5036/10186 [3:23:15<3:27:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 5037/10186 [3:23:16<3:27:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 5037/10186 [3:23:16<3:27:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 5038/10186 [3:23:17<3:27:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 5038/10186 [3:23:17<3:27:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 5039/10186 [3:23:18<3:27:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 5039/10186 [3:23:18<3:27:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 5040/10186 [3:23:24<3:27:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 5040/10186 [3:23:24<3:27:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 5041/10186 [3:23:25<3:27:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 5041/10186 [3:23:25<3:27:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 5042/10186 [3:23:26<3:27:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  49%|▍| 5042/10186 [3:23:26<3:27:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▍| 5043/10186 [3:23:28<3:27:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▍| 5043/10186 [3:23:28<3:27:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▍| 5044/10186 [3:23:34<3:27:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▍| 5044/10186 [3:23:34<3:27:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▍| 5045/10186 [3:23:35<3:27:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▍| 5045/10186 [3:23:35<3:27:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▍| 5046/10186 [3:23:36<3:27:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▍| 5046/10186 [3:23:36<3:27:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▍| 5047/10186 [3:23:37<3:27:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▍| 5047/10186 [3:23:37<3:27:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▍| 5048/10186 [3:23:44<3:27:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▍| 5048/10186 [3:23:44<3:27:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▍| 5049/10186 [3:23:45<3:27:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▍| 5049/10186 [3:23:45<3:27:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▍| 5050/10186 [3:23:46<3:27:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▍| 5050/10186 [3:23:46<3:27:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▍| 5051/10186 [3:23:47<3:27:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▍| 5051/10186 [3:23:47<3:27:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▍| 5052/10186 [3:23:53<3:27:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▍| 5052/10186 [3:23:53<3:27:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▍| 5053/10186 [3:23:54<3:27:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▍| 5053/10186 [3:23:54<3:27:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▍| 5054/10186 [3:23:55<3:27:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▍| 5054/10186 [3:23:55<3:27:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▍| 5055/10186 [3:23:56<3:27:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▍| 5055/10186 [3:23:56<3:27:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▍| 5056/10186 [3:24:03<3:27:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▍| 5056/10186 [3:24:03<3:27:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▍| 5057/10186 [3:24:04<3:26:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▍| 5057/10186 [3:24:04<3:26:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▍| 5058/10186 [3:24:05<3:26:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▍| 5058/10186 [3:24:05<3:26:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▍| 5059/10186 [3:24:06<3:26:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▍| 5059/10186 [3:24:06<3:26:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▍| 5060/10186 [3:24:12<3:26:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▍| 5060/10186 [3:24:12<3:26:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▍| 5061/10186 [3:24:13<3:26:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▍| 5061/10186 [3:24:13<3:26:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▍| 5062/10186 [3:24:14<3:26:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▍| 5062/10186 [3:24:14<3:26:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▍| 5063/10186 [3:24:15<3:26:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▍| 5063/10186 [3:24:15<3:26:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▍| 5064/10186 [3:24:22<3:26:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▍| 5064/10186 [3:24:22<3:26:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▍| 5065/10186 [3:24:23<3:26:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▍| 5065/10186 [3:24:23<3:26:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▍| 5066/10186 [3:24:24<3:26:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▍| 5066/10186 [3:24:24<3:26:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▍| 5067/10186 [3:24:25<3:26:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▍| 5067/10186 [3:24:25<3:26:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▍| 5068/10186 [3:24:31<3:26:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▍| 5068/10186 [3:24:31<3:26:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▍| 5069/10186 [3:24:32<3:26:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▍| 5069/10186 [3:24:32<3:26:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▍| 5070/10186 [3:24:33<3:26:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▍| 5070/10186 [3:24:33<3:26:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▍| 5071/10186 [3:24:35<3:26:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▍| 5071/10186 [3:24:35<3:26:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▍| 5072/10186 [3:24:41<3:26:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▍| 5072/10186 [3:24:41<3:26:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▍| 5073/10186 [3:24:42<3:26:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▍| 5073/10186 [3:24:42<3:26:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▍| 5074/10186 [3:24:43<3:26:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▍| 5074/10186 [3:24:43<3:26:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▍| 5075/10186 [3:24:44<3:26:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▍| 5075/10186 [3:24:44<3:26:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▍| 5076/10186 [3:24:51<3:26:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▍| 5076/10186 [3:24:51<3:26:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▍| 5077/10186 [3:24:52<3:26:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▍| 5077/10186 [3:24:52<3:26:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▍| 5078/10186 [3:24:53<3:26:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▍| 5078/10186 [3:24:53<3:26:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▍| 5079/10186 [3:24:54<3:26:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▍| 5079/10186 [3:24:54<3:26:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▍| 5080/10186 [3:25:00<3:26:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▍| 5080/10186 [3:25:00<3:26:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▍| 5081/10186 [3:25:01<3:25:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▍| 5081/10186 [3:25:01<3:25:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▍| 5082/10186 [3:25:02<3:25:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▍| 5082/10186 [3:25:02<3:25:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▍| 5083/10186 [3:25:03<3:25:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▍| 5083/10186 [3:25:03<3:25:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▍| 5084/10186 [3:25:10<3:25:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▍| 5084/10186 [3:25:10<3:25:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▍| 5085/10186 [3:25:11<3:25:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▍| 5085/10186 [3:25:11<3:25:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▍| 5086/10186 [3:25:12<3:25:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▍| 5086/10186 [3:25:12<3:25:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▍| 5087/10186 [3:25:13<3:25:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▍| 5087/10186 [3:25:13<3:25:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▍| 5088/10186 [3:25:19<3:25:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▍| 5088/10186 [3:25:19<3:25:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▍| 5089/10186 [3:25:20<3:25:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▍| 5089/10186 [3:25:20<3:25:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▍| 5090/10186 [3:25:21<3:25:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▍| 5090/10186 [3:25:21<3:25:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▍| 5091/10186 [3:25:22<3:25:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▍| 5091/10186 [3:25:22<3:25:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▍| 5092/10186 [3:25:29<3:25:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▍| 5092/10186 [3:25:29<3:25:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▌| 5093/10186 [3:25:30<3:25:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▌| 5093/10186 [3:25:30<3:25:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▌| 5094/10186 [3:25:31<3:25:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▌| 5094/10186 [3:25:31<3:25:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▌| 5095/10186 [3:25:32<3:25:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▌| 5095/10186 [3:25:32<3:25:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▌| 5096/10186 [3:25:38<3:25:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▌| 5096/10186 [3:25:38<3:25:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▌| 5097/10186 [3:25:39<3:25:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▌| 5097/10186 [3:25:39<3:25:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▌| 5098/10186 [3:25:41<3:25:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▌| 5098/10186 [3:25:41<3:25:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▌| 5099/10186 [3:25:42<3:25:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▌| 5099/10186 [3:25:42<3:25:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▌| 5100/10186 [3:25:48<3:25:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▌| 5100/10186 [3:25:48<3:25:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▌| 5101/10186 [3:25:49<3:25:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▌| 5101/10186 [3:25:49<3:25:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▌| 5102/10186 [3:25:50<3:25:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▌| 5102/10186 [3:25:50<3:25:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▌| 5103/10186 [3:25:51<3:25:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▌| 5103/10186 [3:25:51<3:25:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▌| 5104/10186 [3:25:58<3:25:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▌| 5104/10186 [3:25:58<3:25:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▌| 5105/10186 [3:25:59<3:25:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▌| 5105/10186 [3:25:59<3:25:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▌| 5106/10186 [3:26:00<3:24:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▌| 5106/10186 [3:26:00<3:24:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▌| 5107/10186 [3:26:01<3:24:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▌| 5107/10186 [3:26:01<3:24:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▌| 5108/10186 [3:26:07<3:24:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▌| 5108/10186 [3:26:07<3:24:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▌| 5109/10186 [3:26:08<3:24:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▌| 5109/10186 [3:26:08<3:24:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▌| 5110/10186 [3:26:09<3:24:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▌| 5110/10186 [3:26:09<3:24:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▌| 5111/10186 [3:26:10<3:24:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▌| 5111/10186 [3:26:10<3:24:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▌| 5112/10186 [3:26:17<3:24:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▌| 5112/10186 [3:26:17<3:24:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▌| 5113/10186 [3:26:18<3:24:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▌| 5113/10186 [3:26:18<3:24:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▌| 5114/10186 [3:26:19<3:24:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▌| 5114/10186 [3:26:19<3:24:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▌| 5115/10186 [3:26:20<3:24:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▌| 5115/10186 [3:26:20<3:24:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▌| 5116/10186 [3:26:26<3:24:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▌| 5116/10186 [3:26:26<3:24:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▌| 5117/10186 [3:26:27<3:24:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▌| 5117/10186 [3:26:27<3:24:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▌| 5118/10186 [3:26:28<3:24:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▌| 5118/10186 [3:26:28<3:24:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▌| 5119/10186 [3:26:29<3:24:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▌| 5119/10186 [3:26:29<3:24:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▌| 5120/10186 [3:26:36<3:24:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▌| 5120/10186 [3:26:36<3:24:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▌| 5121/10186 [3:26:37<3:24:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▌| 5121/10186 [3:26:37<3:24:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▌| 5122/10186 [3:26:38<3:24:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▌| 5122/10186 [3:26:38<3:24:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▌| 5123/10186 [3:26:39<3:24:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▌| 5123/10186 [3:26:39<3:24:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▌| 5124/10186 [3:26:45<3:24:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▌| 5124/10186 [3:26:45<3:24:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▌| 5125/10186 [3:26:46<3:24:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▌| 5125/10186 [3:26:46<3:24:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▌| 5126/10186 [3:26:47<3:24:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▌| 5126/10186 [3:26:47<3:24:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▌| 5127/10186 [3:26:49<3:24:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▌| 5127/10186 [3:26:49<3:24:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▌| 5128/10186 [3:26:55<3:24:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▌| 5128/10186 [3:26:55<3:24:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▌| 5129/10186 [3:26:56<3:24:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▌| 5129/10186 [3:26:56<3:24:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▌| 5130/10186 [3:26:57<3:23:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▌| 5130/10186 [3:26:57<3:23:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▌| 5131/10186 [3:26:58<3:23:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▌| 5131/10186 [3:26:58<3:23:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▌| 5132/10186 [3:27:05<3:23:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▌| 5132/10186 [3:27:05<3:23:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▌| 5133/10186 [3:27:06<3:23:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▌| 5133/10186 [3:27:06<3:23:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▌| 5134/10186 [3:27:07<3:23:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▌| 5134/10186 [3:27:07<3:23:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▌| 5135/10186 [3:27:08<3:23:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▌| 5135/10186 [3:27:08<3:23:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▌| 5136/10186 [3:27:14<3:23:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▌| 5136/10186 [3:27:14<3:23:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▌| 5137/10186 [3:27:15<3:23:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▌| 5137/10186 [3:27:15<3:23:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▌| 5138/10186 [3:27:16<3:23:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▌| 5138/10186 [3:27:16<3:23:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▌| 5139/10186 [3:27:17<3:23:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▌| 5139/10186 [3:27:17<3:23:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▌| 5140/10186 [3:27:24<3:23:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▌| 5140/10186 [3:27:24<3:23:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▌| 5141/10186 [3:27:25<3:23:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▌| 5141/10186 [3:27:25<3:23:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▌| 5142/10186 [3:27:26<3:23:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▌| 5142/10186 [3:27:26<3:23:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▌| 5143/10186 [3:27:27<3:23:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  50%|▌| 5143/10186 [3:27:27<3:23:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5144/10186 [3:27:33<3:23:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5144/10186 [3:27:33<3:23:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5145/10186 [3:27:34<3:23:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5145/10186 [3:27:34<3:23:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5146/10186 [3:27:35<3:23:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5146/10186 [3:27:35<3:23:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5147/10186 [3:27:36<3:23:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5147/10186 [3:27:36<3:23:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5148/10186 [3:27:43<3:23:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5148/10186 [3:27:43<3:23:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5149/10186 [3:27:44<3:23:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5149/10186 [3:27:44<3:23:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5150/10186 [3:27:45<3:23:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5150/10186 [3:27:45<3:23:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5151/10186 [3:27:46<3:23:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5151/10186 [3:27:46<3:23:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5152/10186 [3:27:52<3:23:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5152/10186 [3:27:52<3:23:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5153/10186 [3:27:53<3:23:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5153/10186 [3:27:53<3:23:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5154/10186 [3:27:54<3:22:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5154/10186 [3:27:54<3:22:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5155/10186 [3:27:56<3:22:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5155/10186 [3:27:56<3:22:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5156/10186 [3:28:02<3:22:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5156/10186 [3:28:02<3:22:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5157/10186 [3:28:03<3:22:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5157/10186 [3:28:03<3:22:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5158/10186 [3:28:04<3:22:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5158/10186 [3:28:04<3:22:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5159/10186 [3:28:05<3:22:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5159/10186 [3:28:05<3:22:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5160/10186 [3:28:12<3:22:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5160/10186 [3:28:12<3:22:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5161/10186 [3:28:13<3:22:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5161/10186 [3:28:13<3:22:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5162/10186 [3:28:14<3:22:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5162/10186 [3:28:14<3:22:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5163/10186 [3:28:15<3:22:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5163/10186 [3:28:15<3:22:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5164/10186 [3:28:21<3:22:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5164/10186 [3:28:21<3:22:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5165/10186 [3:28:22<3:22:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5165/10186 [3:28:22<3:22:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5166/10186 [3:28:23<3:22:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5166/10186 [3:28:23<3:22:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5167/10186 [3:28:24<3:22:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5167/10186 [3:28:24<3:22:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5168/10186 [3:28:31<3:22:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5168/10186 [3:28:31<3:22:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5169/10186 [3:28:32<3:22:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5169/10186 [3:28:32<3:22:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5170/10186 [3:28:33<3:22:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5170/10186 [3:28:33<3:22:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5171/10186 [3:28:34<3:22:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5171/10186 [3:28:34<3:22:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5172/10186 [3:28:40<3:22:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5172/10186 [3:28:40<3:22:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5173/10186 [3:28:41<3:22:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5173/10186 [3:28:41<3:22:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5174/10186 [3:28:42<3:22:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5174/10186 [3:28:42<3:22:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5175/10186 [3:28:43<3:22:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5175/10186 [3:28:43<3:22:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5176/10186 [3:28:50<3:22:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5176/10186 [3:28:50<3:22:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5177/10186 [3:28:51<3:22:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5177/10186 [3:28:51<3:22:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5178/10186 [3:28:52<3:22:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5178/10186 [3:28:52<3:22:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5179/10186 [3:28:53<3:21:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5179/10186 [3:28:53<3:21:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5180/10186 [3:28:59<3:21:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5180/10186 [3:28:59<3:21:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5181/10186 [3:29:00<3:21:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5181/10186 [3:29:00<3:21:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5182/10186 [3:29:01<3:21:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5182/10186 [3:29:01<3:21:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5183/10186 [3:29:03<3:21:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5183/10186 [3:29:03<3:21:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5184/10186 [3:29:09<3:21:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5184/10186 [3:29:09<3:21:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5185/10186 [3:29:10<3:21:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5185/10186 [3:29:10<3:21:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5186/10186 [3:29:11<3:21:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5186/10186 [3:29:11<3:21:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5187/10186 [3:29:12<3:21:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5187/10186 [3:29:12<3:21:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5188/10186 [3:29:19<3:21:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5188/10186 [3:29:19<3:21:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5189/10186 [3:29:20<3:21:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5189/10186 [3:29:20<3:21:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5190/10186 [3:29:21<3:21:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5190/10186 [3:29:21<3:21:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5191/10186 [3:29:22<3:21:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5191/10186 [3:29:22<3:21:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5192/10186 [3:29:28<3:21:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5192/10186 [3:29:28<3:21:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5193/10186 [3:29:29<3:21:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5193/10186 [3:29:29<3:21:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5194/10186 [3:29:30<3:21:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5194/10186 [3:29:30<3:21:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5195/10186 [3:29:31<3:21:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5195/10186 [3:29:31<3:21:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5196/10186 [3:29:38<3:21:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5196/10186 [3:29:38<3:21:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5197/10186 [3:29:39<3:21:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5197/10186 [3:29:39<3:21:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5198/10186 [3:29:40<3:21:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5198/10186 [3:29:40<3:21:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5199/10186 [3:29:41<3:21:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5199/10186 [3:29:41<3:21:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5200/10186 [3:29:47<3:21:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5200/10186 [3:29:47<3:21:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5201/10186 [3:29:48<3:21:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5201/10186 [3:29:48<3:21:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5202/10186 [3:29:49<3:21:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5202/10186 [3:29:49<3:21:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5203/10186 [3:29:50<3:20:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5203/10186 [3:29:50<3:20:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5204/10186 [3:29:57<3:20:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5204/10186 [3:29:57<3:20:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5205/10186 [3:29:58<3:20:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5205/10186 [3:29:58<3:20:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5206/10186 [3:29:59<3:20:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5206/10186 [3:29:59<3:20:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5207/10186 [3:30:00<3:20:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5207/10186 [3:30:00<3:20:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5208/10186 [3:30:06<3:20:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5208/10186 [3:30:06<3:20:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5209/10186 [3:30:07<3:20:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5209/10186 [3:30:07<3:20:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5210/10186 [3:30:08<3:20:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5210/10186 [3:30:08<3:20:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5211/10186 [3:30:10<3:20:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5211/10186 [3:30:10<3:20:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5212/10186 [3:30:16<3:20:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5212/10186 [3:30:16<3:20:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5213/10186 [3:30:17<3:20:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5213/10186 [3:30:17<3:20:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5214/10186 [3:30:18<3:20:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5214/10186 [3:30:18<3:20:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5215/10186 [3:30:19<3:20:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5215/10186 [3:30:19<3:20:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5216/10186 [3:30:26<3:20:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5216/10186 [3:30:26<3:20:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5217/10186 [3:30:27<3:20:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5217/10186 [3:30:27<3:20:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5218/10186 [3:30:28<3:20:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5218/10186 [3:30:28<3:20:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5219/10186 [3:30:29<3:20:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5219/10186 [3:30:29<3:20:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5220/10186 [3:30:35<3:20:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5220/10186 [3:30:35<3:20:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5221/10186 [3:30:36<3:20:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5221/10186 [3:30:36<3:20:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5222/10186 [3:30:37<3:20:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5222/10186 [3:30:37<3:20:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5223/10186 [3:30:38<3:20:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5223/10186 [3:30:38<3:20:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5224/10186 [3:30:45<3:20:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5224/10186 [3:30:45<3:20:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5225/10186 [3:30:46<3:20:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5225/10186 [3:30:46<3:20:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5226/10186 [3:30:47<3:20:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5226/10186 [3:30:47<3:20:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5227/10186 [3:30:48<3:19:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5227/10186 [3:30:48<3:19:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5228/10186 [3:30:54<3:20:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5228/10186 [3:30:54<3:20:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5229/10186 [3:30:55<3:19:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5229/10186 [3:30:55<3:19:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5230/10186 [3:30:56<3:19:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5230/10186 [3:30:56<3:19:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5231/10186 [3:30:57<3:19:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5231/10186 [3:30:57<3:19:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5232/10186 [3:31:04<3:19:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5232/10186 [3:31:04<3:19:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5233/10186 [3:31:05<3:19:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5233/10186 [3:31:05<3:19:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5234/10186 [3:31:06<3:19:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5234/10186 [3:31:06<3:19:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5235/10186 [3:31:07<3:19:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5235/10186 [3:31:07<3:19:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5236/10186 [3:31:13<3:19:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5236/10186 [3:31:13<3:19:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5237/10186 [3:31:14<3:19:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5237/10186 [3:31:14<3:19:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5238/10186 [3:31:15<3:19:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5238/10186 [3:31:15<3:19:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5239/10186 [3:31:17<3:19:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5239/10186 [3:31:17<3:19:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5240/10186 [3:31:23<3:19:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5240/10186 [3:31:23<3:19:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5241/10186 [3:31:24<3:19:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5241/10186 [3:31:24<3:19:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5242/10186 [3:31:25<3:19:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5242/10186 [3:31:25<3:19:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5243/10186 [3:31:26<3:19:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5243/10186 [3:31:26<3:19:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5244/10186 [3:31:33<3:19:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5244/10186 [3:31:33<3:19:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 5245/10186 [3:31:34<3:19:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  51%|▌| 5245/10186 [3:31:34<3:19:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5246/10186 [3:31:35<3:19:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5246/10186 [3:31:35<3:19:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5247/10186 [3:31:36<3:19:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5247/10186 [3:31:36<3:19:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5248/10186 [3:31:42<3:19:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5248/10186 [3:31:42<3:19:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5249/10186 [3:31:43<3:19:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5249/10186 [3:31:43<3:19:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5250/10186 [3:31:44<3:19:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5250/10186 [3:31:44<3:19:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5251/10186 [3:31:45<3:19:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5251/10186 [3:31:45<3:19:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5252/10186 [3:31:52<3:19:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5252/10186 [3:31:52<3:19:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5253/10186 [3:31:53<3:18:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5253/10186 [3:31:53<3:18:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5254/10186 [3:31:54<3:18:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5254/10186 [3:31:54<3:18:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5255/10186 [3:31:55<3:18:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5255/10186 [3:31:55<3:18:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5256/10186 [3:32:01<3:18:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5256/10186 [3:32:01<3:18:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5257/10186 [3:32:02<3:18:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5257/10186 [3:32:02<3:18:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5258/10186 [3:32:03<3:18:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5258/10186 [3:32:03<3:18:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5259/10186 [3:32:04<3:18:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5259/10186 [3:32:04<3:18:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5260/10186 [3:32:11<3:18:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5260/10186 [3:32:11<3:18:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5261/10186 [3:32:12<3:18:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5261/10186 [3:32:12<3:18:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5262/10186 [3:32:13<3:18:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5262/10186 [3:32:13<3:18:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5263/10186 [3:32:14<3:18:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5263/10186 [3:32:14<3:18:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5264/10186 [3:32:20<3:18:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5264/10186 [3:32:20<3:18:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5265/10186 [3:32:21<3:18:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5265/10186 [3:32:21<3:18:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5266/10186 [3:32:22<3:18:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5266/10186 [3:32:22<3:18:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5267/10186 [3:32:23<3:18:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5267/10186 [3:32:23<3:18:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5268/10186 [3:32:30<3:18:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5268/10186 [3:32:30<3:18:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5269/10186 [3:32:31<3:18:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5269/10186 [3:32:31<3:18:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5270/10186 [3:32:32<3:18:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5270/10186 [3:32:32<3:18:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5271/10186 [3:32:33<3:18:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5271/10186 [3:32:33<3:18:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5272/10186 [3:32:40<3:18:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5272/10186 [3:32:40<3:18:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5273/10186 [3:32:41<3:18:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5273/10186 [3:32:41<3:18:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5274/10186 [3:32:42<3:18:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5274/10186 [3:32:42<3:18:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5275/10186 [3:32:43<3:18:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5275/10186 [3:32:43<3:18:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5276/10186 [3:32:49<3:18:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5276/10186 [3:32:49<3:18:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5277/10186 [3:32:50<3:18:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5277/10186 [3:32:50<3:18:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5278/10186 [3:32:51<3:17:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5278/10186 [3:32:51<3:17:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5279/10186 [3:32:52<3:17:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5279/10186 [3:32:52<3:17:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5280/10186 [3:32:59<3:17:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5280/10186 [3:32:59<3:17:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5281/10186 [3:33:00<3:17:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5281/10186 [3:33:00<3:17:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5282/10186 [3:33:01<3:17:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5282/10186 [3:33:01<3:17:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5283/10186 [3:33:02<3:17:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5283/10186 [3:33:02<3:17:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5284/10186 [3:33:08<3:17:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5284/10186 [3:33:08<3:17:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5285/10186 [3:33:09<3:17:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5285/10186 [3:33:09<3:17:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5286/10186 [3:33:10<3:17:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5286/10186 [3:33:10<3:17:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5287/10186 [3:33:11<3:17:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5287/10186 [3:33:11<3:17:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5288/10186 [3:33:18<3:17:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5288/10186 [3:33:18<3:17:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5289/10186 [3:33:19<3:17:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5289/10186 [3:33:19<3:17:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5290/10186 [3:33:20<3:17:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5290/10186 [3:33:20<3:17:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5291/10186 [3:33:21<3:17:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5291/10186 [3:33:21<3:17:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5292/10186 [3:33:27<3:17:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5292/10186 [3:33:27<3:17:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5293/10186 [3:33:28<3:17:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5293/10186 [3:33:28<3:17:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5294/10186 [3:33:29<3:17:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5294/10186 [3:33:29<3:17:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5295/10186 [3:33:30<3:17:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5295/10186 [3:33:30<3:17:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5296/10186 [3:33:37<3:17:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5296/10186 [3:33:37<3:17:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5297/10186 [3:33:38<3:17:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5297/10186 [3:33:38<3:17:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5298/10186 [3:33:39<3:17:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5298/10186 [3:33:39<3:17:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5299/10186 [3:33:40<3:17:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5299/10186 [3:33:40<3:17:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5300/10186 [3:33:46<3:17:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5300/10186 [3:33:46<3:17:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5301/10186 [3:33:48<3:17:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5301/10186 [3:33:48<3:17:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5302/10186 [3:33:49<3:16:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5302/10186 [3:33:49<3:16:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5303/10186 [3:33:50<3:16:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5303/10186 [3:33:50<3:16:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5304/10186 [3:33:56<3:16:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5304/10186 [3:33:56<3:16:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5305/10186 [3:33:57<3:16:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5305/10186 [3:33:57<3:16:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5306/10186 [3:33:58<3:16:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5306/10186 [3:33:58<3:16:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5307/10186 [3:33:59<3:16:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5307/10186 [3:33:59<3:16:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5308/10186 [3:34:06<3:16:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5308/10186 [3:34:06<3:16:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5309/10186 [3:34:07<3:16:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5309/10186 [3:34:07<3:16:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5310/10186 [3:34:08<3:16:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5310/10186 [3:34:08<3:16:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5311/10186 [3:34:09<3:16:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5311/10186 [3:34:09<3:16:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5312/10186 [3:34:15<3:16:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5312/10186 [3:34:15<3:16:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5313/10186 [3:34:16<3:16:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5313/10186 [3:34:16<3:16:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5314/10186 [3:34:17<3:16:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5314/10186 [3:34:17<3:16:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5315/10186 [3:34:18<3:16:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5315/10186 [3:34:18<3:16:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5316/10186 [3:34:25<3:16:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5316/10186 [3:34:25<3:16:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5317/10186 [3:34:26<3:16:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5317/10186 [3:34:26<3:16:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5318/10186 [3:34:27<3:16:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5318/10186 [3:34:27<3:16:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5319/10186 [3:34:28<3:16:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5319/10186 [3:34:28<3:16:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5320/10186 [3:34:34<3:16:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5320/10186 [3:34:34<3:16:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5321/10186 [3:34:35<3:16:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5321/10186 [3:34:35<3:16:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5322/10186 [3:34:36<3:16:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5322/10186 [3:34:36<3:16:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5323/10186 [3:34:37<3:16:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5323/10186 [3:34:37<3:16:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5324/10186 [3:34:44<3:16:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5324/10186 [3:34:44<3:16:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5325/10186 [3:34:45<3:16:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5325/10186 [3:34:45<3:16:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5326/10186 [3:34:46<3:15:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5326/10186 [3:34:46<3:15:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5327/10186 [3:34:47<3:15:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5327/10186 [3:34:47<3:15:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5328/10186 [3:34:53<3:15:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5328/10186 [3:34:53<3:15:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5329/10186 [3:34:54<3:15:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5329/10186 [3:34:54<3:15:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5330/10186 [3:34:56<3:15:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5330/10186 [3:34:56<3:15:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5331/10186 [3:34:57<3:15:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5331/10186 [3:34:57<3:15:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5332/10186 [3:35:03<3:15:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5332/10186 [3:35:03<3:15:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5333/10186 [3:35:04<3:15:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5333/10186 [3:35:04<3:15:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5334/10186 [3:35:05<3:15:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5334/10186 [3:35:05<3:15:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5335/10186 [3:35:06<3:15:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5335/10186 [3:35:06<3:15:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5336/10186 [3:35:13<3:15:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5336/10186 [3:35:13<3:15:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5337/10186 [3:35:14<3:15:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5337/10186 [3:35:14<3:15:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5338/10186 [3:35:15<3:15:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5338/10186 [3:35:15<3:15:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5339/10186 [3:35:16<3:15:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5339/10186 [3:35:16<3:15:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5340/10186 [3:35:22<3:15:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5340/10186 [3:35:22<3:15:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5341/10186 [3:35:23<3:15:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5341/10186 [3:35:23<3:15:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5342/10186 [3:35:24<3:15:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5342/10186 [3:35:24<3:15:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5343/10186 [3:35:25<3:15:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5343/10186 [3:35:25<3:15:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5344/10186 [3:35:32<3:15:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5344/10186 [3:35:32<3:15:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5345/10186 [3:35:33<3:15:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5345/10186 [3:35:33<3:15:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5346/10186 [3:35:34<3:15:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5346/10186 [3:35:34<3:15:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 5347/10186 [3:35:35<3:15:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  52%|▌| 5347/10186 [3:35:35<3:15:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5348/10186 [3:35:41<3:15:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5348/10186 [3:35:41<3:15:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5349/10186 [3:35:42<3:15:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5349/10186 [3:35:42<3:15:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5350/10186 [3:35:43<3:15:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5350/10186 [3:35:43<3:15:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5351/10186 [3:35:44<3:14:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5351/10186 [3:35:44<3:14:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5352/10186 [3:35:51<3:14:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5352/10186 [3:35:51<3:14:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5353/10186 [3:35:52<3:14:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5353/10186 [3:35:52<3:14:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5354/10186 [3:35:53<3:14:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5354/10186 [3:35:53<3:14:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5355/10186 [3:35:54<3:14:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5355/10186 [3:35:54<3:14:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5356/10186 [3:36:00<3:14:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5356/10186 [3:36:00<3:14:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5357/10186 [3:36:01<3:14:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5357/10186 [3:36:01<3:14:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5358/10186 [3:36:03<3:14:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5358/10186 [3:36:03<3:14:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5359/10186 [3:36:04<3:14:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5359/10186 [3:36:04<3:14:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5360/10186 [3:36:10<3:14:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5360/10186 [3:36:10<3:14:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5361/10186 [3:36:11<3:14:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5361/10186 [3:36:11<3:14:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5362/10186 [3:36:12<3:14:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5362/10186 [3:36:12<3:14:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5363/10186 [3:36:13<3:14:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5363/10186 [3:36:13<3:14:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5364/10186 [3:36:20<3:14:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5364/10186 [3:36:20<3:14:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5365/10186 [3:36:21<3:14:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5365/10186 [3:36:21<3:14:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5366/10186 [3:36:22<3:14:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5366/10186 [3:36:22<3:14:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5367/10186 [3:36:23<3:14:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5367/10186 [3:36:23<3:14:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5368/10186 [3:36:29<3:14:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5368/10186 [3:36:29<3:14:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5369/10186 [3:36:30<3:14:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5369/10186 [3:36:30<3:14:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5370/10186 [3:36:31<3:14:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5370/10186 [3:36:31<3:14:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5371/10186 [3:36:32<3:14:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5371/10186 [3:36:32<3:14:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5372/10186 [3:36:39<3:14:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5372/10186 [3:36:39<3:14:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5373/10186 [3:36:40<3:14:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5373/10186 [3:36:40<3:14:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5374/10186 [3:36:41<3:14:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5374/10186 [3:36:41<3:14:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5375/10186 [3:36:42<3:13:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5375/10186 [3:36:42<3:13:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5376/10186 [3:36:48<3:13:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5376/10186 [3:36:48<3:13:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5377/10186 [3:36:49<3:13:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5377/10186 [3:36:49<3:13:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5378/10186 [3:36:50<3:13:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5378/10186 [3:36:50<3:13:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5379/10186 [3:36:51<3:13:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5379/10186 [3:36:51<3:13:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5380/10186 [3:36:58<3:13:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5380/10186 [3:36:58<3:13:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5381/10186 [3:36:59<3:13:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5381/10186 [3:36:59<3:13:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5382/10186 [3:37:00<3:13:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5382/10186 [3:37:00<3:13:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5383/10186 [3:37:01<3:13:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5383/10186 [3:37:01<3:13:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5384/10186 [3:37:07<3:13:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5384/10186 [3:37:07<3:13:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5385/10186 [3:37:08<3:13:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5385/10186 [3:37:08<3:13:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5386/10186 [3:37:09<3:13:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5386/10186 [3:37:09<3:13:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5387/10186 [3:37:11<3:13:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5387/10186 [3:37:11<3:13:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5388/10186 [3:37:17<3:13:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5388/10186 [3:37:17<3:13:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5389/10186 [3:37:18<3:13:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5389/10186 [3:37:18<3:13:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5390/10186 [3:37:19<3:13:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5390/10186 [3:37:19<3:13:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5391/10186 [3:37:20<3:13:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5391/10186 [3:37:20<3:13:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5392/10186 [3:37:27<3:13:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5392/10186 [3:37:27<3:13:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5393/10186 [3:37:28<3:13:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5393/10186 [3:37:28<3:13:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5394/10186 [3:37:29<3:13:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5394/10186 [3:37:29<3:13:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5395/10186 [3:37:30<3:13:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5395/10186 [3:37:30<3:13:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5396/10186 [3:37:36<3:13:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5396/10186 [3:37:36<3:13:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5397/10186 [3:37:37<3:13:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5397/10186 [3:37:37<3:13:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5398/10186 [3:37:38<3:13:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5398/10186 [3:37:38<3:13:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5399/10186 [3:37:39<3:12:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5399/10186 [3:37:39<3:12:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5400/10186 [3:37:46<3:13:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5400/10186 [3:37:46<3:13:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5401/10186 [3:37:47<3:12:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5401/10186 [3:37:47<3:12:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5402/10186 [3:37:48<3:12:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5402/10186 [3:37:48<3:12:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5403/10186 [3:37:49<3:12:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5403/10186 [3:37:49<3:12:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5404/10186 [3:37:55<3:12:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5404/10186 [3:37:55<3:12:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5405/10186 [3:37:56<3:12:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5405/10186 [3:37:56<3:12:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5406/10186 [3:37:57<3:12:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5406/10186 [3:37:57<3:12:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5407/10186 [3:37:58<3:12:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5407/10186 [3:37:58<3:12:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5408/10186 [3:38:05<3:12:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5408/10186 [3:38:05<3:12:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5409/10186 [3:38:06<3:12:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5409/10186 [3:38:06<3:12:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5410/10186 [3:38:07<3:12:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5410/10186 [3:38:07<3:12:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5411/10186 [3:38:08<3:12:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5411/10186 [3:38:08<3:12:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5412/10186 [3:38:14<3:12:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5412/10186 [3:38:14<3:12:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5413/10186 [3:38:15<3:12:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5413/10186 [3:38:15<3:12:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5414/10186 [3:38:16<3:12:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5414/10186 [3:38:16<3:12:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5415/10186 [3:38:17<3:12:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5415/10186 [3:38:17<3:12:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5416/10186 [3:38:24<3:12:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5416/10186 [3:38:24<3:12:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5417/10186 [3:38:25<3:12:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5417/10186 [3:38:25<3:12:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5418/10186 [3:38:26<3:12:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5418/10186 [3:38:26<3:12:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5419/10186 [3:38:27<3:12:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5419/10186 [3:38:27<3:12:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5420/10186 [3:38:34<3:12:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5420/10186 [3:38:34<3:12:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5421/10186 [3:38:35<3:12:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5421/10186 [3:38:35<3:12:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5422/10186 [3:38:36<3:12:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5422/10186 [3:38:36<3:12:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5423/10186 [3:38:37<3:12:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5423/10186 [3:38:37<3:12:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5424/10186 [3:38:43<3:12:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5424/10186 [3:38:43<3:12:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5425/10186 [3:38:44<3:11:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5425/10186 [3:38:44<3:11:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5426/10186 [3:38:45<3:11:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5426/10186 [3:38:45<3:11:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5427/10186 [3:38:46<3:11:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5427/10186 [3:38:46<3:11:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5428/10186 [3:38:53<3:11:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5428/10186 [3:38:53<3:11:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5429/10186 [3:38:54<3:11:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5429/10186 [3:38:54<3:11:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5430/10186 [3:38:55<3:11:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5430/10186 [3:38:55<3:11:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5431/10186 [3:38:56<3:11:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5431/10186 [3:38:56<3:11:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5432/10186 [3:39:02<3:11:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5432/10186 [3:39:02<3:11:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5433/10186 [3:39:03<3:11:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5433/10186 [3:39:03<3:11:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5434/10186 [3:39:04<3:11:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5434/10186 [3:39:04<3:11:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5435/10186 [3:39:05<3:11:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5435/10186 [3:39:05<3:11:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5436/10186 [3:39:12<3:11:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5436/10186 [3:39:12<3:11:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5437/10186 [3:39:13<3:11:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5437/10186 [3:39:13<3:11:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5438/10186 [3:39:14<3:11:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5438/10186 [3:39:14<3:11:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5439/10186 [3:39:15<3:11:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5439/10186 [3:39:15<3:11:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5440/10186 [3:39:21<3:11:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5440/10186 [3:39:21<3:11:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5441/10186 [3:39:22<3:11:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5441/10186 [3:39:22<3:11:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5442/10186 [3:39:23<3:11:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5442/10186 [3:39:23<3:11:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5443/10186 [3:39:24<3:11:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5443/10186 [3:39:24<3:11:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5444/10186 [3:39:31<3:11:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5444/10186 [3:39:31<3:11:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5445/10186 [3:39:32<3:11:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5445/10186 [3:39:32<3:11:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5446/10186 [3:39:33<3:11:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5446/10186 [3:39:33<3:11:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5447/10186 [3:39:34<3:11:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5447/10186 [3:39:34<3:11:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5448/10186 [3:39:41<3:11:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5448/10186 [3:39:41<3:11:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 5449/10186 [3:39:42<3:10:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  53%|▌| 5449/10186 [3:39:42<3:10:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5450/10186 [3:39:43<3:10:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5450/10186 [3:39:43<3:10:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5451/10186 [3:39:44<3:10:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5451/10186 [3:39:44<3:10:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5452/10186 [3:39:50<3:10:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5452/10186 [3:39:50<3:10:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5453/10186 [3:39:51<3:10:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5453/10186 [3:39:51<3:10:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5454/10186 [3:39:52<3:10:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5454/10186 [3:39:52<3:10:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5455/10186 [3:39:53<3:10:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5455/10186 [3:39:53<3:10:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5456/10186 [3:40:00<3:10:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5456/10186 [3:40:00<3:10:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5457/10186 [3:40:01<3:10:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5457/10186 [3:40:01<3:10:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5458/10186 [3:40:02<3:10:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5458/10186 [3:40:02<3:10:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5459/10186 [3:40:03<3:10:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5459/10186 [3:40:03<3:10:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5460/10186 [3:40:09<3:10:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5460/10186 [3:40:09<3:10:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5461/10186 [3:40:10<3:10:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5461/10186 [3:40:10<3:10:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5462/10186 [3:40:11<3:10:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5462/10186 [3:40:11<3:10:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5463/10186 [3:40:12<3:10:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5463/10186 [3:40:12<3:10:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5464/10186 [3:40:19<3:10:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5464/10186 [3:40:19<3:10:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5465/10186 [3:40:20<3:10:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5465/10186 [3:40:20<3:10:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5466/10186 [3:40:21<3:10:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5466/10186 [3:40:21<3:10:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5467/10186 [3:40:22<3:10:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5467/10186 [3:40:22<3:10:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5468/10186 [3:40:28<3:10:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5468/10186 [3:40:28<3:10:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5469/10186 [3:40:29<3:10:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5469/10186 [3:40:29<3:10:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5470/10186 [3:40:30<3:10:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5470/10186 [3:40:30<3:10:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5471/10186 [3:40:31<3:10:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5471/10186 [3:40:31<3:10:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5472/10186 [3:40:38<3:10:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5472/10186 [3:40:38<3:10:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5473/10186 [3:40:39<3:10:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5473/10186 [3:40:39<3:10:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5474/10186 [3:40:40<3:09:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5474/10186 [3:40:40<3:09:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5475/10186 [3:40:41<3:09:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5475/10186 [3:40:41<3:09:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5476/10186 [3:40:47<3:09:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5476/10186 [3:40:47<3:09:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5477/10186 [3:40:49<3:09:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5477/10186 [3:40:49<3:09:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5478/10186 [3:40:50<3:09:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5478/10186 [3:40:50<3:09:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5479/10186 [3:40:51<3:09:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5479/10186 [3:40:51<3:09:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5480/10186 [3:40:57<3:09:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5480/10186 [3:40:57<3:09:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5481/10186 [3:40:58<3:09:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5481/10186 [3:40:58<3:09:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5482/10186 [3:40:59<3:09:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5482/10186 [3:40:59<3:09:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5483/10186 [3:41:00<3:09:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5483/10186 [3:41:00<3:09:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5484/10186 [3:41:07<3:09:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5484/10186 [3:41:07<3:09:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5485/10186 [3:41:08<3:09:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5485/10186 [3:41:08<3:09:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5486/10186 [3:41:09<3:09:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5486/10186 [3:41:09<3:09:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5487/10186 [3:41:10<3:09:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5487/10186 [3:41:10<3:09:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5488/10186 [3:41:16<3:09:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5488/10186 [3:41:16<3:09:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5489/10186 [3:41:17<3:09:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5489/10186 [3:41:17<3:09:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5490/10186 [3:41:18<3:09:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5490/10186 [3:41:18<3:09:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5491/10186 [3:41:19<3:09:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5491/10186 [3:41:19<3:09:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5492/10186 [3:41:26<3:09:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5492/10186 [3:41:26<3:09:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5493/10186 [3:41:27<3:09:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5493/10186 [3:41:27<3:09:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5494/10186 [3:41:28<3:09:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5494/10186 [3:41:28<3:09:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5495/10186 [3:41:29<3:09:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5495/10186 [3:41:29<3:09:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5496/10186 [3:41:35<3:09:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5496/10186 [3:41:35<3:09:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5497/10186 [3:41:36<3:09:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5497/10186 [3:41:36<3:09:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5498/10186 [3:41:37<3:08:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5498/10186 [3:41:37<3:08:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5499/10186 [3:41:38<3:08:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5499/10186 [3:41:38<3:08:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5500/10186 [3:41:45<3:08:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5500/10186 [3:41:45<3:08:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5501/10186 [3:41:46<3:08:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5501/10186 [3:41:46<3:08:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5502/10186 [3:41:47<3:08:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5502/10186 [3:41:47<3:08:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5503/10186 [3:41:48<3:08:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5503/10186 [3:41:48<3:08:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5504/10186 [3:41:55<3:08:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5504/10186 [3:41:55<3:08:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5505/10186 [3:41:56<3:08:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5505/10186 [3:41:56<3:08:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5506/10186 [3:41:57<3:08:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5506/10186 [3:41:57<3:08:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5507/10186 [3:41:58<3:08:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5507/10186 [3:41:58<3:08:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5508/10186 [3:42:04<3:08:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5508/10186 [3:42:04<3:08:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5509/10186 [3:42:05<3:08:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5509/10186 [3:42:05<3:08:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5510/10186 [3:42:06<3:08:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5510/10186 [3:42:06<3:08:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5511/10186 [3:42:07<3:08:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5511/10186 [3:42:07<3:08:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5512/10186 [3:42:14<3:08:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5512/10186 [3:42:14<3:08:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5513/10186 [3:42:15<3:08:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5513/10186 [3:42:15<3:08:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5514/10186 [3:42:16<3:08:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5514/10186 [3:42:16<3:08:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5515/10186 [3:42:17<3:08:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5515/10186 [3:42:17<3:08:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5516/10186 [3:42:23<3:08:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5516/10186 [3:42:23<3:08:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5517/10186 [3:42:24<3:08:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5517/10186 [3:42:24<3:08:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5518/10186 [3:42:25<3:08:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5518/10186 [3:42:25<3:08:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5519/10186 [3:42:26<3:08:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5519/10186 [3:42:26<3:08:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5520/10186 [3:42:33<3:08:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5520/10186 [3:42:33<3:08:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5521/10186 [3:42:34<3:08:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5521/10186 [3:42:34<3:08:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5522/10186 [3:42:35<3:08:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5522/10186 [3:42:35<3:08:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5523/10186 [3:42:36<3:07:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5523/10186 [3:42:36<3:07:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5524/10186 [3:42:42<3:07:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5524/10186 [3:42:42<3:07:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5525/10186 [3:42:43<3:07:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5525/10186 [3:42:43<3:07:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5526/10186 [3:42:44<3:07:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5526/10186 [3:42:44<3:07:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5527/10186 [3:42:45<3:07:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5527/10186 [3:42:45<3:07:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5528/10186 [3:42:52<3:07:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5528/10186 [3:42:52<3:07:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5529/10186 [3:42:53<3:07:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5529/10186 [3:42:53<3:07:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5530/10186 [3:42:54<3:07:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5530/10186 [3:42:54<3:07:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5531/10186 [3:42:55<3:07:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5531/10186 [3:42:55<3:07:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5532/10186 [3:43:01<3:07:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5532/10186 [3:43:01<3:07:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5533/10186 [3:43:03<3:07:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5533/10186 [3:43:03<3:07:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5534/10186 [3:43:04<3:07:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5534/10186 [3:43:04<3:07:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5535/10186 [3:43:05<3:07:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5535/10186 [3:43:05<3:07:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5536/10186 [3:43:11<3:07:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5536/10186 [3:43:11<3:07:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5537/10186 [3:43:12<3:07:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5537/10186 [3:43:12<3:07:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5538/10186 [3:43:13<3:07:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5538/10186 [3:43:13<3:07:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5539/10186 [3:43:14<3:07:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5539/10186 [3:43:14<3:07:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5540/10186 [3:43:21<3:07:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5540/10186 [3:43:21<3:07:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5541/10186 [3:43:22<3:07:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5541/10186 [3:43:22<3:07:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5542/10186 [3:43:23<3:07:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5542/10186 [3:43:23<3:07:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5543/10186 [3:43:24<3:07:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5543/10186 [3:43:24<3:07:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5544/10186 [3:43:30<3:07:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5544/10186 [3:43:30<3:07:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5545/10186 [3:43:31<3:07:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5545/10186 [3:43:31<3:07:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5546/10186 [3:43:32<3:07:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5546/10186 [3:43:32<3:07:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5547/10186 [3:43:33<3:06:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5547/10186 [3:43:33<3:06:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5548/10186 [3:43:40<3:06:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5548/10186 [3:43:40<3:06:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5549/10186 [3:43:41<3:06:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5549/10186 [3:43:41<3:06:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5550/10186 [3:43:42<3:06:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5550/10186 [3:43:42<3:06:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 5551/10186 [3:43:43<3:06:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  54%|▌| 5551/10186 [3:43:43<3:06:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5552/10186 [3:43:49<3:06:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5552/10186 [3:43:49<3:06:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5553/10186 [3:43:50<3:06:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5553/10186 [3:43:50<3:06:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5554/10186 [3:43:51<3:06:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5554/10186 [3:43:51<3:06:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5555/10186 [3:43:52<3:06:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5555/10186 [3:43:52<3:06:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5556/10186 [3:43:59<3:06:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5556/10186 [3:43:59<3:06:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5557/10186 [3:44:00<3:06:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5557/10186 [3:44:00<3:06:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5558/10186 [3:44:01<3:06:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5558/10186 [3:44:01<3:06:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5559/10186 [3:44:02<3:06:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5559/10186 [3:44:02<3:06:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5560/10186 [3:44:08<3:06:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5560/10186 [3:44:08<3:06:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5561/10186 [3:44:09<3:06:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5561/10186 [3:44:09<3:06:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5562/10186 [3:44:11<3:06:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5562/10186 [3:44:11<3:06:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5563/10186 [3:44:12<3:06:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5563/10186 [3:44:12<3:06:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5564/10186 [3:44:18<3:06:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5564/10186 [3:44:18<3:06:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5565/10186 [3:44:19<3:06:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5565/10186 [3:44:19<3:06:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5566/10186 [3:44:20<3:06:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5566/10186 [3:44:20<3:06:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5567/10186 [3:44:21<3:06:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5567/10186 [3:44:21<3:06:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5568/10186 [3:44:28<3:06:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5568/10186 [3:44:28<3:06:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5569/10186 [3:44:29<3:06:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5569/10186 [3:44:29<3:06:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5570/10186 [3:44:30<3:06:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5570/10186 [3:44:30<3:06:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5571/10186 [3:44:31<3:05:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5571/10186 [3:44:31<3:05:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5572/10186 [3:44:37<3:06:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5572/10186 [3:44:37<3:06:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5573/10186 [3:44:38<3:05:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5573/10186 [3:44:38<3:05:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5574/10186 [3:44:39<3:05:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5574/10186 [3:44:39<3:05:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5575/10186 [3:44:40<3:05:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5575/10186 [3:44:40<3:05:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5576/10186 [3:44:47<3:05:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5576/10186 [3:44:47<3:05:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5577/10186 [3:44:48<3:05:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5577/10186 [3:44:48<3:05:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5578/10186 [3:44:49<3:05:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5578/10186 [3:44:49<3:05:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5579/10186 [3:44:50<3:05:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5579/10186 [3:44:50<3:05:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5580/10186 [3:44:56<3:05:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5580/10186 [3:44:56<3:05:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5581/10186 [3:44:57<3:05:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5581/10186 [3:44:57<3:05:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5582/10186 [3:44:58<3:05:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5582/10186 [3:44:58<3:05:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5583/10186 [3:44:59<3:05:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5583/10186 [3:44:59<3:05:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5584/10186 [3:45:06<3:05:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5584/10186 [3:45:06<3:05:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5585/10186 [3:45:07<3:05:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5585/10186 [3:45:07<3:05:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5586/10186 [3:45:08<3:05:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5586/10186 [3:45:08<3:05:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5587/10186 [3:45:09<3:05:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5587/10186 [3:45:09<3:05:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5588/10186 [3:45:15<3:05:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5588/10186 [3:45:15<3:05:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5589/10186 [3:45:16<3:05:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5589/10186 [3:45:16<3:05:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5590/10186 [3:45:18<3:05:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5590/10186 [3:45:18<3:05:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5591/10186 [3:45:19<3:05:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5591/10186 [3:45:19<3:05:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5592/10186 [3:45:25<3:05:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5592/10186 [3:45:25<3:05:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5593/10186 [3:45:26<3:05:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5593/10186 [3:45:26<3:05:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5594/10186 [3:45:27<3:05:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5594/10186 [3:45:27<3:05:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5595/10186 [3:45:28<3:05:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5595/10186 [3:45:28<3:05:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5596/10186 [3:45:35<3:05:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5596/10186 [3:45:35<3:05:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5597/10186 [3:45:36<3:04:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5597/10186 [3:45:36<3:04:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5598/10186 [3:45:37<3:04:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5598/10186 [3:45:37<3:04:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5599/10186 [3:45:38<3:04:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5599/10186 [3:45:38<3:04:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5600/10186 [3:45:44<3:04:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5600/10186 [3:45:44<3:04:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5601/10186 [3:45:45<3:04:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5601/10186 [3:45:45<3:04:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5602/10186 [3:45:46<3:04:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5602/10186 [3:45:46<3:04:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5603/10186 [3:45:47<3:04:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5603/10186 [3:45:47<3:04:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5604/10186 [3:45:54<3:04:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5604/10186 [3:45:54<3:04:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5605/10186 [3:45:55<3:04:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5605/10186 [3:45:55<3:04:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5606/10186 [3:45:56<3:04:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5606/10186 [3:45:56<3:04:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5607/10186 [3:45:57<3:04:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5607/10186 [3:45:57<3:04:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5608/10186 [3:46:03<3:04:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5608/10186 [3:46:03<3:04:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5609/10186 [3:46:04<3:04:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5609/10186 [3:46:04<3:04:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5610/10186 [3:46:05<3:04:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5610/10186 [3:46:05<3:04:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5611/10186 [3:46:06<3:04:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5611/10186 [3:46:06<3:04:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5612/10186 [3:46:13<3:04:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5612/10186 [3:46:13<3:04:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5613/10186 [3:46:14<3:04:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5613/10186 [3:46:14<3:04:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5614/10186 [3:46:15<3:04:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5614/10186 [3:46:15<3:04:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5615/10186 [3:46:16<3:04:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5615/10186 [3:46:16<3:04:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5616/10186 [3:46:22<3:04:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5616/10186 [3:46:22<3:04:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5617/10186 [3:46:23<3:04:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5617/10186 [3:46:23<3:04:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5618/10186 [3:46:24<3:04:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5618/10186 [3:46:24<3:04:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5619/10186 [3:46:26<3:04:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5619/10186 [3:46:26<3:04:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5620/10186 [3:46:32<3:04:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5620/10186 [3:46:32<3:04:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5621/10186 [3:46:33<3:03:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5621/10186 [3:46:33<3:03:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5622/10186 [3:46:34<3:03:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5622/10186 [3:46:34<3:03:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5623/10186 [3:46:35<3:03:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5623/10186 [3:46:35<3:03:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5624/10186 [3:46:42<3:03:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5624/10186 [3:46:42<3:03:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5625/10186 [3:46:43<3:03:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5625/10186 [3:46:43<3:03:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5626/10186 [3:46:44<3:03:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5626/10186 [3:46:44<3:03:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5627/10186 [3:46:45<3:03:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5627/10186 [3:46:45<3:03:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5628/10186 [3:46:51<3:03:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5628/10186 [3:46:51<3:03:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5629/10186 [3:46:52<3:03:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5629/10186 [3:46:52<3:03:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5630/10186 [3:46:53<3:03:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5630/10186 [3:46:53<3:03:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5631/10186 [3:46:54<3:03:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5631/10186 [3:46:54<3:03:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5632/10186 [3:47:01<3:03:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5632/10186 [3:47:01<3:03:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5633/10186 [3:47:02<3:03:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5633/10186 [3:47:02<3:03:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5634/10186 [3:47:03<3:03:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5634/10186 [3:47:03<3:03:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5635/10186 [3:47:04<3:03:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5635/10186 [3:47:04<3:03:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5636/10186 [3:47:10<3:03:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5636/10186 [3:47:10<3:03:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5637/10186 [3:47:11<3:03:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5637/10186 [3:47:11<3:03:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5638/10186 [3:47:12<3:03:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5638/10186 [3:47:12<3:03:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5639/10186 [3:47:13<3:03:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5639/10186 [3:47:13<3:03:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5640/10186 [3:47:20<3:03:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5640/10186 [3:47:20<3:03:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5641/10186 [3:47:21<3:03:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5641/10186 [3:47:21<3:03:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5642/10186 [3:47:22<3:03:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5642/10186 [3:47:22<3:03:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5643/10186 [3:47:23<3:03:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5643/10186 [3:47:23<3:03:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5644/10186 [3:47:29<3:03:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5644/10186 [3:47:29<3:03:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5645/10186 [3:47:30<3:03:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5645/10186 [3:47:30<3:03:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5646/10186 [3:47:32<3:02:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5646/10186 [3:47:32<3:02:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5647/10186 [3:47:33<3:02:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5647/10186 [3:47:33<3:02:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5648/10186 [3:47:39<3:02:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5648/10186 [3:47:39<3:02:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5649/10186 [3:47:40<3:02:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5649/10186 [3:47:40<3:02:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5650/10186 [3:47:41<3:02:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5650/10186 [3:47:41<3:02:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5651/10186 [3:47:42<3:02:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5651/10186 [3:47:42<3:02:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5652/10186 [3:47:49<3:02:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5652/10186 [3:47:49<3:02:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 5653/10186 [3:47:50<3:02:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  55%|▌| 5653/10186 [3:47:50<3:02:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5654/10186 [3:47:51<3:02:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5654/10186 [3:47:51<3:02:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5655/10186 [3:47:52<3:02:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5655/10186 [3:47:52<3:02:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5656/10186 [3:47:58<3:02:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5656/10186 [3:47:58<3:02:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5657/10186 [3:47:59<3:02:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5657/10186 [3:47:59<3:02:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5658/10186 [3:48:00<3:02:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5658/10186 [3:48:00<3:02:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5659/10186 [3:48:01<3:02:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5659/10186 [3:48:01<3:02:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5660/10186 [3:48:08<3:02:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5660/10186 [3:48:08<3:02:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5661/10186 [3:48:09<3:02:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5661/10186 [3:48:09<3:02:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5662/10186 [3:48:10<3:02:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5662/10186 [3:48:10<3:02:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5663/10186 [3:48:11<3:02:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5663/10186 [3:48:11<3:02:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5664/10186 [3:48:17<3:02:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5664/10186 [3:48:17<3:02:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5665/10186 [3:48:18<3:02:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5665/10186 [3:48:18<3:02:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5666/10186 [3:48:19<3:02:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5666/10186 [3:48:19<3:02:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5667/10186 [3:48:20<3:02:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5667/10186 [3:48:20<3:02:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5668/10186 [3:48:27<3:02:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5668/10186 [3:48:27<3:02:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5669/10186 [3:48:28<3:02:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5669/10186 [3:48:28<3:02:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5670/10186 [3:48:29<3:01:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5670/10186 [3:48:29<3:01:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5671/10186 [3:48:30<3:01:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5671/10186 [3:48:30<3:01:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5672/10186 [3:48:36<3:01:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5672/10186 [3:48:36<3:01:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5673/10186 [3:48:37<3:01:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5673/10186 [3:48:37<3:01:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5674/10186 [3:48:38<3:01:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5674/10186 [3:48:38<3:01:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5675/10186 [3:48:40<3:01:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5675/10186 [3:48:40<3:01:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5676/10186 [3:48:46<3:01:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5676/10186 [3:48:46<3:01:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5677/10186 [3:48:47<3:01:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5677/10186 [3:48:47<3:01:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5678/10186 [3:48:48<3:01:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5678/10186 [3:48:48<3:01:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5679/10186 [3:48:49<3:01:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5679/10186 [3:48:49<3:01:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5680/10186 [3:48:56<3:01:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5680/10186 [3:48:56<3:01:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5681/10186 [3:48:57<3:01:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5681/10186 [3:48:57<3:01:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5682/10186 [3:48:58<3:01:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5682/10186 [3:48:58<3:01:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5683/10186 [3:48:59<3:01:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5683/10186 [3:48:59<3:01:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5684/10186 [3:49:05<3:01:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5684/10186 [3:49:05<3:01:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5685/10186 [3:49:06<3:01:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5685/10186 [3:49:06<3:01:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5686/10186 [3:49:07<3:01:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5686/10186 [3:49:07<3:01:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5687/10186 [3:49:08<3:01:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5687/10186 [3:49:08<3:01:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5688/10186 [3:49:15<3:01:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5688/10186 [3:49:15<3:01:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5689/10186 [3:49:16<3:01:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5689/10186 [3:49:16<3:01:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5690/10186 [3:49:17<3:01:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5690/10186 [3:49:17<3:01:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5691/10186 [3:49:18<3:01:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5691/10186 [3:49:18<3:01:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5692/10186 [3:49:24<3:01:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5692/10186 [3:49:24<3:01:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5693/10186 [3:49:25<3:01:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5693/10186 [3:49:25<3:01:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5694/10186 [3:49:26<3:01:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5694/10186 [3:49:26<3:01:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5695/10186 [3:49:27<3:00:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5695/10186 [3:49:27<3:00:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5696/10186 [3:49:34<3:00:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5696/10186 [3:49:34<3:00:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5697/10186 [3:49:35<3:00:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5697/10186 [3:49:35<3:00:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5698/10186 [3:49:36<3:00:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5698/10186 [3:49:36<3:00:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5699/10186 [3:49:37<3:00:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5699/10186 [3:49:37<3:00:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5700/10186 [3:49:43<3:00:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5700/10186 [3:49:43<3:00:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5701/10186 [3:49:44<3:00:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5701/10186 [3:49:44<3:00:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5702/10186 [3:49:45<3:00:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5702/10186 [3:49:45<3:00:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5703/10186 [3:49:47<3:00:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5703/10186 [3:49:47<3:00:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5704/10186 [3:49:53<3:00:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5704/10186 [3:49:53<3:00:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5705/10186 [3:49:54<3:00:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5705/10186 [3:49:54<3:00:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5706/10186 [3:49:55<3:00:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5706/10186 [3:49:55<3:00:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5707/10186 [3:49:56<3:00:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5707/10186 [3:49:56<3:00:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5708/10186 [3:50:03<3:00:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5708/10186 [3:50:03<3:00:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5709/10186 [3:50:04<3:00:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5709/10186 [3:50:04<3:00:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5710/10186 [3:50:05<3:00:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5710/10186 [3:50:05<3:00:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5711/10186 [3:50:06<3:00:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5711/10186 [3:50:06<3:00:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5712/10186 [3:50:12<3:00:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5712/10186 [3:50:12<3:00:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5713/10186 [3:50:13<3:00:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5713/10186 [3:50:13<3:00:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5714/10186 [3:50:14<3:00:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5714/10186 [3:50:14<3:00:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5715/10186 [3:50:15<3:00:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5715/10186 [3:50:15<3:00:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5716/10186 [3:50:22<3:00:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5716/10186 [3:50:22<3:00:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5717/10186 [3:50:23<3:00:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5717/10186 [3:50:23<3:00:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5718/10186 [3:50:24<3:00:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5718/10186 [3:50:24<3:00:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5719/10186 [3:50:25<2:59:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5719/10186 [3:50:25<2:59:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5720/10186 [3:50:31<2:59:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5720/10186 [3:50:31<2:59:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5721/10186 [3:50:32<2:59:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5721/10186 [3:50:32<2:59:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5722/10186 [3:50:33<2:59:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5722/10186 [3:50:33<2:59:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5723/10186 [3:50:34<2:59:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5723/10186 [3:50:34<2:59:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5724/10186 [3:50:41<2:59:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5724/10186 [3:50:41<2:59:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5725/10186 [3:50:42<2:59:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5725/10186 [3:50:42<2:59:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5726/10186 [3:50:43<2:59:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5726/10186 [3:50:43<2:59:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5727/10186 [3:50:44<2:59:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5727/10186 [3:50:44<2:59:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5728/10186 [3:50:50<2:59:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5728/10186 [3:50:50<2:59:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5729/10186 [3:50:51<2:59:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5729/10186 [3:50:51<2:59:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5730/10186 [3:50:53<2:59:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5730/10186 [3:50:53<2:59:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5731/10186 [3:50:54<2:59:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5731/10186 [3:50:54<2:59:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5732/10186 [3:51:00<2:59:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5732/10186 [3:51:00<2:59:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5733/10186 [3:51:01<2:59:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5733/10186 [3:51:01<2:59:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5734/10186 [3:51:02<2:59:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5734/10186 [3:51:02<2:59:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5735/10186 [3:51:03<2:59:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5735/10186 [3:51:03<2:59:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5736/10186 [3:51:10<2:59:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5736/10186 [3:51:10<2:59:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5737/10186 [3:51:11<2:59:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5737/10186 [3:51:11<2:59:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5738/10186 [3:51:12<2:59:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5738/10186 [3:51:12<2:59:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5739/10186 [3:51:13<2:59:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5739/10186 [3:51:13<2:59:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5740/10186 [3:51:19<2:59:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5740/10186 [3:51:19<2:59:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5741/10186 [3:51:20<2:59:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5741/10186 [3:51:20<2:59:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5742/10186 [3:51:21<2:59:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5742/10186 [3:51:21<2:59:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5743/10186 [3:51:22<2:59:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5743/10186 [3:51:22<2:59:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5744/10186 [3:51:29<2:59:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5744/10186 [3:51:29<2:59:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5745/10186 [3:51:30<2:58:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5745/10186 [3:51:30<2:58:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5746/10186 [3:51:31<2:58:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5746/10186 [3:51:31<2:58:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5747/10186 [3:51:32<2:58:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5747/10186 [3:51:32<2:58:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5748/10186 [3:51:38<2:58:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5748/10186 [3:51:38<2:58:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5749/10186 [3:51:39<2:58:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5749/10186 [3:51:39<2:58:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5750/10186 [3:51:40<2:58:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5750/10186 [3:51:40<2:58:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5751/10186 [3:51:41<2:58:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5751/10186 [3:51:41<2:58:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5752/10186 [3:51:48<2:58:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5752/10186 [3:51:48<2:58:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5753/10186 [3:51:49<2:58:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5753/10186 [3:51:49<2:58:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5754/10186 [3:51:50<2:58:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5754/10186 [3:51:50<2:58:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 5755/10186 [3:51:51<2:58:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  56%|▌| 5755/10186 [3:51:51<2:58:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5756/10186 [3:51:57<2:58:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5756/10186 [3:51:57<2:58:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5757/10186 [3:51:58<2:58:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5757/10186 [3:51:58<2:58:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5758/10186 [3:51:59<2:58:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5758/10186 [3:51:59<2:58:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5759/10186 [3:52:01<2:58:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5759/10186 [3:52:01<2:58:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5760/10186 [3:52:07<2:58:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5760/10186 [3:52:07<2:58:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5761/10186 [3:52:08<2:58:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5761/10186 [3:52:08<2:58:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5762/10186 [3:52:09<2:58:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5762/10186 [3:52:09<2:58:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5763/10186 [3:52:10<2:58:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5763/10186 [3:52:10<2:58:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5764/10186 [3:52:17<2:58:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5764/10186 [3:52:17<2:58:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5765/10186 [3:52:18<2:58:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5765/10186 [3:52:18<2:58:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5766/10186 [3:52:19<2:58:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5766/10186 [3:52:19<2:58:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5767/10186 [3:52:20<2:58:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5767/10186 [3:52:20<2:58:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5768/10186 [3:52:26<2:58:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5768/10186 [3:52:26<2:58:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5769/10186 [3:52:27<2:57:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5769/10186 [3:52:27<2:57:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5770/10186 [3:52:28<2:57:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5770/10186 [3:52:28<2:57:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5771/10186 [3:52:29<2:57:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5771/10186 [3:52:29<2:57:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5772/10186 [3:52:36<2:57:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5772/10186 [3:52:36<2:57:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5773/10186 [3:52:37<2:57:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5773/10186 [3:52:37<2:57:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5774/10186 [3:52:38<2:57:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5774/10186 [3:52:38<2:57:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5775/10186 [3:52:39<2:57:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5775/10186 [3:52:39<2:57:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5776/10186 [3:52:45<2:57:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5776/10186 [3:52:45<2:57:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5777/10186 [3:52:46<2:57:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5777/10186 [3:52:46<2:57:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5778/10186 [3:52:47<2:57:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5778/10186 [3:52:47<2:57:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5779/10186 [3:52:48<2:57:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5779/10186 [3:52:48<2:57:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5780/10186 [3:52:55<2:57:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5780/10186 [3:52:55<2:57:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5781/10186 [3:52:56<2:57:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5781/10186 [3:52:56<2:57:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5782/10186 [3:52:57<2:57:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5782/10186 [3:52:57<2:57:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5783/10186 [3:52:58<2:57:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5783/10186 [3:52:58<2:57:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5784/10186 [3:53:04<2:57:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5784/10186 [3:53:04<2:57:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5785/10186 [3:53:05<2:57:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5785/10186 [3:53:05<2:57:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5786/10186 [3:53:07<2:57:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5786/10186 [3:53:07<2:57:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5787/10186 [3:53:08<2:57:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5787/10186 [3:53:08<2:57:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5788/10186 [3:53:14<2:57:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5788/10186 [3:53:14<2:57:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5789/10186 [3:53:15<2:57:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5789/10186 [3:53:15<2:57:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5790/10186 [3:53:16<2:57:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5790/10186 [3:53:16<2:57:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5791/10186 [3:53:17<2:57:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5791/10186 [3:53:17<2:57:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5792/10186 [3:53:24<2:57:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5792/10186 [3:53:24<2:57:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5793/10186 [3:53:25<2:57:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5793/10186 [3:53:25<2:57:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5794/10186 [3:53:26<2:56:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5794/10186 [3:53:26<2:56:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5795/10186 [3:53:27<2:56:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5795/10186 [3:53:27<2:56:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5796/10186 [3:53:33<2:56:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5796/10186 [3:53:33<2:56:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5797/10186 [3:53:34<2:56:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5797/10186 [3:53:34<2:56:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5798/10186 [3:53:35<2:56:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5798/10186 [3:53:35<2:56:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5799/10186 [3:53:36<2:56:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5799/10186 [3:53:36<2:56:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5800/10186 [3:53:43<2:56:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5800/10186 [3:53:43<2:56:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5801/10186 [3:53:44<2:56:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5801/10186 [3:53:44<2:56:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5802/10186 [3:53:45<2:56:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5802/10186 [3:53:45<2:56:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5803/10186 [3:53:46<2:56:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5803/10186 [3:53:46<2:56:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5804/10186 [3:53:52<2:56:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5804/10186 [3:53:52<2:56:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5805/10186 [3:53:53<2:56:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5805/10186 [3:53:53<2:56:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5806/10186 [3:53:54<2:56:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5806/10186 [3:53:54<2:56:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5807/10186 [3:53:55<2:56:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5807/10186 [3:53:55<2:56:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5808/10186 [3:54:02<2:56:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5808/10186 [3:54:02<2:56:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5809/10186 [3:54:03<2:56:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5809/10186 [3:54:03<2:56:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5810/10186 [3:54:04<2:56:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5810/10186 [3:54:04<2:56:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5811/10186 [3:54:05<2:56:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5811/10186 [3:54:05<2:56:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5812/10186 [3:54:11<2:56:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5812/10186 [3:54:11<2:56:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5813/10186 [3:54:12<2:56:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5813/10186 [3:54:12<2:56:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5814/10186 [3:54:13<2:56:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5814/10186 [3:54:13<2:56:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5815/10186 [3:54:15<2:56:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5815/10186 [3:54:15<2:56:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5816/10186 [3:54:21<2:56:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5816/10186 [3:54:21<2:56:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5817/10186 [3:54:22<2:56:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5817/10186 [3:54:22<2:56:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5818/10186 [3:54:23<2:55:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5818/10186 [3:54:23<2:55:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5819/10186 [3:54:24<2:55:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5819/10186 [3:54:24<2:55:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5820/10186 [3:54:31<2:55:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5820/10186 [3:54:31<2:55:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5821/10186 [3:54:32<2:55:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5821/10186 [3:54:32<2:55:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5822/10186 [3:54:33<2:55:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5822/10186 [3:54:33<2:55:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5823/10186 [3:54:34<2:55:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5823/10186 [3:54:34<2:55:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5824/10186 [3:54:40<2:55:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5824/10186 [3:54:40<2:55:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5825/10186 [3:54:41<2:55:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5825/10186 [3:54:41<2:55:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5826/10186 [3:54:42<2:55:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5826/10186 [3:54:42<2:55:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5827/10186 [3:54:43<2:55:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5827/10186 [3:54:43<2:55:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5828/10186 [3:54:50<2:55:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5828/10186 [3:54:50<2:55:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5829/10186 [3:54:51<2:55:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5829/10186 [3:54:51<2:55:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5830/10186 [3:54:52<2:55:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5830/10186 [3:54:52<2:55:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5831/10186 [3:54:53<2:55:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5831/10186 [3:54:53<2:55:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5832/10186 [3:54:59<2:55:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5832/10186 [3:54:59<2:55:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5833/10186 [3:55:00<2:55:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5833/10186 [3:55:00<2:55:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5834/10186 [3:55:01<2:55:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5834/10186 [3:55:01<2:55:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5835/10186 [3:55:02<2:55:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5835/10186 [3:55:02<2:55:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5836/10186 [3:55:09<2:55:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5836/10186 [3:55:09<2:55:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5837/10186 [3:55:10<2:55:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5837/10186 [3:55:10<2:55:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5838/10186 [3:55:11<2:55:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5838/10186 [3:55:11<2:55:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5839/10186 [3:55:12<2:55:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5839/10186 [3:55:12<2:55:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5840/10186 [3:55:18<2:55:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5840/10186 [3:55:18<2:55:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5841/10186 [3:55:19<2:55:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5841/10186 [3:55:19<2:55:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5842/10186 [3:55:20<2:55:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5842/10186 [3:55:20<2:55:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5843/10186 [3:55:22<2:54:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5843/10186 [3:55:22<2:54:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5844/10186 [3:55:28<2:54:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5844/10186 [3:55:28<2:54:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5845/10186 [3:55:29<2:54:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5845/10186 [3:55:29<2:54:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5846/10186 [3:55:30<2:54:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5846/10186 [3:55:30<2:54:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5847/10186 [3:55:31<2:54:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5847/10186 [3:55:31<2:54:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5848/10186 [3:55:38<2:54:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5848/10186 [3:55:38<2:54:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5849/10186 [3:55:39<2:54:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5849/10186 [3:55:39<2:54:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5850/10186 [3:55:40<2:54:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5850/10186 [3:55:40<2:54:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5851/10186 [3:55:41<2:54:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5851/10186 [3:55:41<2:54:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5852/10186 [3:55:47<2:54:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5852/10186 [3:55:47<2:54:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5853/10186 [3:55:48<2:54:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5853/10186 [3:55:48<2:54:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5854/10186 [3:55:49<2:54:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5854/10186 [3:55:49<2:54:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5855/10186 [3:55:50<2:54:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5855/10186 [3:55:50<2:54:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 5856/10186 [3:55:57<2:54:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  57%|▌| 5856/10186 [3:55:57<2:54:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5857/10186 [3:55:58<2:54:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5857/10186 [3:55:58<2:54:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5858/10186 [3:55:59<2:54:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5858/10186 [3:55:59<2:54:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5859/10186 [3:56:00<2:54:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5859/10186 [3:56:00<2:54:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5860/10186 [3:56:06<2:54:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5860/10186 [3:56:06<2:54:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5861/10186 [3:56:07<2:54:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5861/10186 [3:56:07<2:54:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5862/10186 [3:56:08<2:54:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5862/10186 [3:56:08<2:54:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5863/10186 [3:56:09<2:54:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5863/10186 [3:56:09<2:54:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5864/10186 [3:56:16<2:54:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5864/10186 [3:56:16<2:54:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5865/10186 [3:56:17<2:54:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5865/10186 [3:56:17<2:54:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5866/10186 [3:56:18<2:54:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5866/10186 [3:56:18<2:54:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5867/10186 [3:56:19<2:53:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5867/10186 [3:56:19<2:53:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5868/10186 [3:56:25<2:53:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5868/10186 [3:56:25<2:53:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5869/10186 [3:56:26<2:53:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5869/10186 [3:56:26<2:53:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5870/10186 [3:56:27<2:53:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5870/10186 [3:56:27<2:53:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5871/10186 [3:56:29<2:53:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5871/10186 [3:56:29<2:53:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5872/10186 [3:56:35<2:53:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5872/10186 [3:56:35<2:53:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5873/10186 [3:56:36<2:53:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5873/10186 [3:56:36<2:53:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5874/10186 [3:56:37<2:53:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5874/10186 [3:56:37<2:53:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5875/10186 [3:56:38<2:53:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5875/10186 [3:56:38<2:53:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5876/10186 [3:56:45<2:53:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5876/10186 [3:56:45<2:53:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5877/10186 [3:56:46<2:53:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5877/10186 [3:56:46<2:53:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5878/10186 [3:56:47<2:53:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5878/10186 [3:56:47<2:53:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5879/10186 [3:56:48<2:53:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5879/10186 [3:56:48<2:53:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5880/10186 [3:56:54<2:53:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5880/10186 [3:56:54<2:53:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5881/10186 [3:56:55<2:53:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5881/10186 [3:56:55<2:53:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5882/10186 [3:56:56<2:53:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5882/10186 [3:56:56<2:53:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5883/10186 [3:56:57<2:53:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5883/10186 [3:56:57<2:53:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5884/10186 [3:57:04<2:53:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5884/10186 [3:57:04<2:53:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5885/10186 [3:57:05<2:53:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5885/10186 [3:57:05<2:53:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5886/10186 [3:57:06<2:53:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5886/10186 [3:57:06<2:53:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5887/10186 [3:57:07<2:53:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5887/10186 [3:57:07<2:53:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5888/10186 [3:57:13<2:53:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5888/10186 [3:57:13<2:53:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5889/10186 [3:57:14<2:53:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5889/10186 [3:57:14<2:53:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5890/10186 [3:57:15<2:53:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5890/10186 [3:57:15<2:53:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5891/10186 [3:57:16<2:52:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5891/10186 [3:57:16<2:52:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5892/10186 [3:57:23<2:53:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5892/10186 [3:57:23<2:53:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5893/10186 [3:57:24<2:52:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5893/10186 [3:57:24<2:52:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5894/10186 [3:57:25<2:52:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5894/10186 [3:57:25<2:52:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5895/10186 [3:57:26<2:52:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5895/10186 [3:57:26<2:52:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5896/10186 [3:57:32<2:52:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5896/10186 [3:57:32<2:52:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5897/10186 [3:57:33<2:52:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5897/10186 [3:57:33<2:52:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5898/10186 [3:57:34<2:52:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5898/10186 [3:57:34<2:52:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5899/10186 [3:57:36<2:52:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5899/10186 [3:57:36<2:52:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5900/10186 [3:57:42<2:52:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5900/10186 [3:57:42<2:52:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5901/10186 [3:57:43<2:52:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5901/10186 [3:57:43<2:52:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5902/10186 [3:57:44<2:52:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5902/10186 [3:57:44<2:52:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5903/10186 [3:57:45<2:52:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5903/10186 [3:57:45<2:52:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5904/10186 [3:57:52<2:52:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5904/10186 [3:57:52<2:52:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5905/10186 [3:57:53<2:52:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5905/10186 [3:57:53<2:52:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5906/10186 [3:57:54<2:52:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5906/10186 [3:57:54<2:52:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5907/10186 [3:57:55<2:52:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5907/10186 [3:57:55<2:52:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5908/10186 [3:58:01<2:52:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5908/10186 [3:58:01<2:52:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5909/10186 [3:58:02<2:52:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5909/10186 [3:58:02<2:52:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5910/10186 [3:58:03<2:52:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5910/10186 [3:58:03<2:52:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5911/10186 [3:58:04<2:52:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5911/10186 [3:58:04<2:52:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5912/10186 [3:58:11<2:52:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5912/10186 [3:58:11<2:52:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5913/10186 [3:58:12<2:52:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5913/10186 [3:58:12<2:52:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5914/10186 [3:58:13<2:52:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5914/10186 [3:58:13<2:52:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5915/10186 [3:58:14<2:52:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5915/10186 [3:58:14<2:52:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5916/10186 [3:58:20<2:52:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5916/10186 [3:58:20<2:52:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5917/10186 [3:58:21<2:51:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5917/10186 [3:58:21<2:51:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5918/10186 [3:58:22<2:51:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5918/10186 [3:58:22<2:51:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5919/10186 [3:58:23<2:51:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5919/10186 [3:58:23<2:51:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5920/10186 [3:58:30<2:51:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5920/10186 [3:58:30<2:51:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5921/10186 [3:58:31<2:51:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5921/10186 [3:58:31<2:51:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5922/10186 [3:58:32<2:51:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5922/10186 [3:58:32<2:51:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5923/10186 [3:58:33<2:51:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5923/10186 [3:58:33<2:51:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5924/10186 [3:58:39<2:51:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5924/10186 [3:58:39<2:51:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5925/10186 [3:58:40<2:51:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5925/10186 [3:58:40<2:51:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5926/10186 [3:58:41<2:51:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5926/10186 [3:58:41<2:51:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5927/10186 [3:58:43<2:51:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5927/10186 [3:58:43<2:51:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5928/10186 [3:58:49<2:51:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5928/10186 [3:58:49<2:51:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5929/10186 [3:58:50<2:51:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5929/10186 [3:58:50<2:51:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5930/10186 [3:58:51<2:51:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5930/10186 [3:58:51<2:51:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5931/10186 [3:58:52<2:51:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5931/10186 [3:58:52<2:51:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5932/10186 [3:58:59<2:51:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5932/10186 [3:58:59<2:51:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5933/10186 [3:59:00<2:51:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5933/10186 [3:59:00<2:51:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5934/10186 [3:59:01<2:51:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5934/10186 [3:59:01<2:51:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5935/10186 [3:59:02<2:51:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5935/10186 [3:59:02<2:51:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5936/10186 [3:59:08<2:51:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5936/10186 [3:59:08<2:51:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5937/10186 [3:59:09<2:51:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5937/10186 [3:59:09<2:51:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5938/10186 [3:59:10<2:51:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5938/10186 [3:59:10<2:51:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5939/10186 [3:59:11<2:51:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5939/10186 [3:59:11<2:51:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5940/10186 [3:59:18<2:51:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5940/10186 [3:59:18<2:51:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5941/10186 [3:59:19<2:51:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5941/10186 [3:59:19<2:51:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5942/10186 [3:59:20<2:50:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5942/10186 [3:59:20<2:50:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5943/10186 [3:59:21<2:50:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5943/10186 [3:59:21<2:50:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5944/10186 [3:59:27<2:50:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5944/10186 [3:59:27<2:50:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5945/10186 [3:59:28<2:50:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5945/10186 [3:59:28<2:50:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5946/10186 [3:59:29<2:50:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5946/10186 [3:59:29<2:50:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5947/10186 [3:59:30<2:50:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5947/10186 [3:59:30<2:50:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5948/10186 [3:59:37<2:50:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5948/10186 [3:59:37<2:50:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5949/10186 [3:59:38<2:50:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5949/10186 [3:59:38<2:50:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5950/10186 [3:59:39<2:50:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5950/10186 [3:59:39<2:50:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5951/10186 [3:59:40<2:50:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5951/10186 [3:59:40<2:50:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5952/10186 [3:59:46<2:50:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5952/10186 [3:59:46<2:50:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5953/10186 [3:59:47<2:50:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5953/10186 [3:59:47<2:50:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5954/10186 [3:59:48<2:50:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5954/10186 [3:59:48<2:50:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5955/10186 [3:59:50<2:50:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5955/10186 [3:59:50<2:50:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5956/10186 [3:59:56<2:50:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5956/10186 [3:59:56<2:50:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5957/10186 [3:59:57<2:50:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5957/10186 [3:59:57<2:50:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 5958/10186 [3:59:58<2:50:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  58%|▌| 5958/10186 [3:59:58<2:50:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 5959/10186 [3:59:59<2:50:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 5959/10186 [3:59:59<2:50:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 5960/10186 [4:00:06<2:50:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 5960/10186 [4:00:06<2:50:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 5961/10186 [4:00:07<2:50:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 5961/10186 [4:00:07<2:50:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 5962/10186 [4:00:08<2:50:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 5962/10186 [4:00:08<2:50:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 5963/10186 [4:00:09<2:50:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 5963/10186 [4:00:09<2:50:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 5964/10186 [4:00:15<2:50:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 5964/10186 [4:00:15<2:50:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 5965/10186 [4:00:16<2:50:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 5965/10186 [4:00:16<2:50:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 5966/10186 [4:00:17<2:49:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 5966/10186 [4:00:17<2:49:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 5967/10186 [4:00:18<2:49:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 5967/10186 [4:00:18<2:49:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 5968/10186 [4:00:25<2:49:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 5968/10186 [4:00:25<2:49:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 5969/10186 [4:00:26<2:49:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 5969/10186 [4:00:26<2:49:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 5970/10186 [4:00:27<2:49:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 5970/10186 [4:00:27<2:49:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 5971/10186 [4:00:28<2:49:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 5971/10186 [4:00:28<2:49:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 5972/10186 [4:00:34<2:49:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 5972/10186 [4:00:34<2:49:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 5973/10186 [4:00:35<2:49:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 5973/10186 [4:00:35<2:49:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 5974/10186 [4:00:36<2:49:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 5974/10186 [4:00:36<2:49:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 5975/10186 [4:00:37<2:49:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 5975/10186 [4:00:37<2:49:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 5976/10186 [4:00:44<2:49:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 5976/10186 [4:00:44<2:49:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 5977/10186 [4:00:45<2:49:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 5977/10186 [4:00:45<2:49:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 5978/10186 [4:00:46<2:49:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 5978/10186 [4:00:46<2:49:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 5979/10186 [4:00:47<2:49:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 5979/10186 [4:00:47<2:49:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 5980/10186 [4:00:53<2:49:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 5980/10186 [4:00:53<2:49:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 5981/10186 [4:00:54<2:49:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 5981/10186 [4:00:54<2:49:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 5982/10186 [4:00:55<2:49:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 5982/10186 [4:00:55<2:49:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 5983/10186 [4:00:57<2:49:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 5983/10186 [4:00:57<2:49:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 5984/10186 [4:01:03<2:49:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 5984/10186 [4:01:03<2:49:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 5985/10186 [4:01:04<2:49:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 5985/10186 [4:01:04<2:49:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 5986/10186 [4:01:05<2:49:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 5986/10186 [4:01:05<2:49:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 5987/10186 [4:01:06<2:49:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 5987/10186 [4:01:06<2:49:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 5988/10186 [4:01:13<2:49:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 5988/10186 [4:01:13<2:49:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 5989/10186 [4:01:14<2:49:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 5989/10186 [4:01:14<2:49:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 5990/10186 [4:01:15<2:48:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 5990/10186 [4:01:15<2:48:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 5991/10186 [4:01:16<2:48:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 5991/10186 [4:01:16<2:48:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 5992/10186 [4:01:22<2:48:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 5992/10186 [4:01:22<2:48:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 5993/10186 [4:01:23<2:48:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 5993/10186 [4:01:23<2:48:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 5994/10186 [4:01:24<2:48:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 5994/10186 [4:01:24<2:48:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 5995/10186 [4:01:25<2:48:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 5995/10186 [4:01:25<2:48:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 5996/10186 [4:01:32<2:48:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 5996/10186 [4:01:32<2:48:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 5997/10186 [4:01:33<2:48:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 5997/10186 [4:01:33<2:48:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 5998/10186 [4:01:34<2:48:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 5998/10186 [4:01:34<2:48:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 5999/10186 [4:01:35<2:48:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 5999/10186 [4:01:35<2:48:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 6000/10186 [4:01:41<2:48:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 6000/10186 [4:01:41<2:48:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 6001/10186 [4:02:11<2:48:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 6001/10186 [4:02:11<2:48:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 6002/10186 [4:02:12<2:48:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 6002/10186 [4:02:12<2:48:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 6003/10186 [4:02:13<2:48:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 6003/10186 [4:02:13<2:48:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 6004/10186 [4:02:19<2:48:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 6004/10186 [4:02:19<2:48:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 6005/10186 [4:02:20<2:48:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 6005/10186 [4:02:20<2:48:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 6006/10186 [4:02:21<2:48:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 6006/10186 [4:02:21<2:48:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 6007/10186 [4:02:22<2:48:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 6007/10186 [4:02:22<2:48:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 6008/10186 [4:02:29<2:48:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 6008/10186 [4:02:29<2:48:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 6009/10186 [4:02:30<2:48:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 6009/10186 [4:02:30<2:48:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 6010/10186 [4:02:31<2:48:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 6010/10186 [4:02:31<2:48:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 6011/10186 [4:02:32<2:48:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 6011/10186 [4:02:32<2:48:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 6012/10186 [4:02:39<2:48:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 6012/10186 [4:02:39<2:48:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 6013/10186 [4:02:40<2:48:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 6013/10186 [4:02:40<2:48:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 6014/10186 [4:02:41<2:48:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 6014/10186 [4:02:41<2:48:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 6015/10186 [4:02:42<2:48:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 6015/10186 [4:02:42<2:48:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 6016/10186 [4:02:48<2:48:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 6016/10186 [4:02:48<2:48:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 6017/10186 [4:02:49<2:48:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 6017/10186 [4:02:49<2:48:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 6018/10186 [4:02:50<2:48:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 6018/10186 [4:02:50<2:48:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 6019/10186 [4:02:51<2:48:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 6019/10186 [4:02:51<2:48:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 6020/10186 [4:02:58<2:48:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 6020/10186 [4:02:58<2:48:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 6021/10186 [4:02:59<2:48:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 6021/10186 [4:02:59<2:48:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 6022/10186 [4:03:00<2:48:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 6022/10186 [4:03:00<2:48:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 6023/10186 [4:03:01<2:47:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 6023/10186 [4:03:01<2:47:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 6024/10186 [4:03:07<2:47:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 6024/10186 [4:03:07<2:47:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 6025/10186 [4:03:08<2:47:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 6025/10186 [4:03:08<2:47:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 6026/10186 [4:03:09<2:47:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 6026/10186 [4:03:09<2:47:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 6027/10186 [4:03:10<2:47:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 6027/10186 [4:03:10<2:47:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 6028/10186 [4:03:17<2:47:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 6028/10186 [4:03:17<2:47:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 6029/10186 [4:03:18<2:47:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 6029/10186 [4:03:18<2:47:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 6030/10186 [4:03:19<2:47:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 6030/10186 [4:03:19<2:47:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 6031/10186 [4:03:20<2:47:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 6031/10186 [4:03:20<2:47:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 6032/10186 [4:03:26<2:47:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 6032/10186 [4:03:26<2:47:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 6033/10186 [4:03:27<2:47:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 6033/10186 [4:03:27<2:47:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 6034/10186 [4:03:28<2:47:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 6034/10186 [4:03:28<2:47:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 6035/10186 [4:03:29<2:47:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 6035/10186 [4:03:29<2:47:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 6036/10186 [4:03:36<2:47:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 6036/10186 [4:03:36<2:47:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 6037/10186 [4:03:37<2:47:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 6037/10186 [4:03:37<2:47:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 6038/10186 [4:03:38<2:47:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 6038/10186 [4:03:38<2:47:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 6039/10186 [4:03:39<2:47:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 6039/10186 [4:03:39<2:47:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 6040/10186 [4:03:46<2:47:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 6040/10186 [4:03:46<2:47:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 6041/10186 [4:03:47<2:47:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 6041/10186 [4:03:47<2:47:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 6042/10186 [4:03:48<2:47:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 6042/10186 [4:03:48<2:47:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 6043/10186 [4:03:49<2:47:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 6043/10186 [4:03:49<2:47:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 6044/10186 [4:03:55<2:47:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 6044/10186 [4:03:55<2:47:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 6045/10186 [4:03:56<2:47:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 6045/10186 [4:03:56<2:47:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 6046/10186 [4:03:57<2:47:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 6046/10186 [4:03:57<2:47:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 6047/10186 [4:03:58<2:46:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 6047/10186 [4:03:58<2:46:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 6048/10186 [4:04:05<2:47:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 6048/10186 [4:04:05<2:47:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 6049/10186 [4:04:06<2:46:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 6049/10186 [4:04:06<2:46:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 6050/10186 [4:04:07<2:46:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 6050/10186 [4:04:07<2:46:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 6051/10186 [4:04:08<2:46:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 6051/10186 [4:04:08<2:46:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 6052/10186 [4:04:14<2:46:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 6052/10186 [4:04:14<2:46:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 6053/10186 [4:04:15<2:46:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 6053/10186 [4:04:15<2:46:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 6054/10186 [4:04:16<2:46:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 6054/10186 [4:04:16<2:46:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 6055/10186 [4:04:17<2:46:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 6055/10186 [4:04:17<2:46:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 6056/10186 [4:04:24<2:46:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 6056/10186 [4:04:24<2:46:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 6057/10186 [4:04:25<2:46:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 6057/10186 [4:04:25<2:46:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 6058/10186 [4:04:26<2:46:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 6058/10186 [4:04:26<2:46:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 6059/10186 [4:04:27<2:46:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 6059/10186 [4:04:27<2:46:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 6060/10186 [4:04:33<2:46:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  59%|▌| 6060/10186 [4:04:33<2:46:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6061/10186 [4:04:34<2:46:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6061/10186 [4:04:34<2:46:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6062/10186 [4:04:35<2:46:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6062/10186 [4:04:35<2:46:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6063/10186 [4:04:36<2:46:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6063/10186 [4:04:36<2:46:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6064/10186 [4:04:43<2:46:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6064/10186 [4:04:43<2:46:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6065/10186 [4:04:44<2:46:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6065/10186 [4:04:44<2:46:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6066/10186 [4:04:45<2:46:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6066/10186 [4:04:45<2:46:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6067/10186 [4:04:46<2:46:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6067/10186 [4:04:46<2:46:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6068/10186 [4:04:53<2:46:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6068/10186 [4:04:53<2:46:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6069/10186 [4:04:54<2:46:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6069/10186 [4:04:54<2:46:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6070/10186 [4:04:55<2:46:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6070/10186 [4:04:55<2:46:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6071/10186 [4:04:56<2:46:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6071/10186 [4:04:56<2:46:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6072/10186 [4:05:02<2:46:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6072/10186 [4:05:02<2:46:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6073/10186 [4:05:03<2:45:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6073/10186 [4:05:03<2:45:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6074/10186 [4:05:04<2:45:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6074/10186 [4:05:04<2:45:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6075/10186 [4:05:05<2:45:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6075/10186 [4:05:05<2:45:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6076/10186 [4:05:12<2:45:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6076/10186 [4:05:12<2:45:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6077/10186 [4:05:13<2:45:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6077/10186 [4:05:13<2:45:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6078/10186 [4:05:14<2:45:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6078/10186 [4:05:14<2:45:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6079/10186 [4:05:15<2:45:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6079/10186 [4:05:15<2:45:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6080/10186 [4:05:21<2:45:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6080/10186 [4:05:21<2:45:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6081/10186 [4:05:22<2:45:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6081/10186 [4:05:22<2:45:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6082/10186 [4:05:23<2:45:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6082/10186 [4:05:23<2:45:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6083/10186 [4:05:24<2:45:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6083/10186 [4:05:24<2:45:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6084/10186 [4:05:31<2:45:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6084/10186 [4:05:31<2:45:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6085/10186 [4:05:32<2:45:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6085/10186 [4:05:32<2:45:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6086/10186 [4:05:33<2:45:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6086/10186 [4:05:33<2:45:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6087/10186 [4:05:34<2:45:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6087/10186 [4:05:34<2:45:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6088/10186 [4:05:40<2:45:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6088/10186 [4:05:40<2:45:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6089/10186 [4:05:41<2:45:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6089/10186 [4:05:41<2:45:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6090/10186 [4:05:42<2:45:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6090/10186 [4:05:42<2:45:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6091/10186 [4:05:43<2:45:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6091/10186 [4:05:43<2:45:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6092/10186 [4:05:50<2:45:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6092/10186 [4:05:50<2:45:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6093/10186 [4:05:51<2:45:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6093/10186 [4:05:51<2:45:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6094/10186 [4:05:52<2:45:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6094/10186 [4:05:52<2:45:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6095/10186 [4:05:53<2:45:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6095/10186 [4:05:53<2:45:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6096/10186 [4:06:00<2:45:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6096/10186 [4:06:00<2:45:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6097/10186 [4:06:01<2:44:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6097/10186 [4:06:01<2:44:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6098/10186 [4:06:02<2:44:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6098/10186 [4:06:02<2:44:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6099/10186 [4:06:03<2:44:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6099/10186 [4:06:03<2:44:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6100/10186 [4:06:09<2:44:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6100/10186 [4:06:09<2:44:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6101/10186 [4:06:10<2:44:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6101/10186 [4:06:10<2:44:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6102/10186 [4:06:11<2:44:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6102/10186 [4:06:11<2:44:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6103/10186 [4:06:12<2:44:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6103/10186 [4:06:12<2:44:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6104/10186 [4:06:19<2:44:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6104/10186 [4:06:19<2:44:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6105/10186 [4:06:20<2:44:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6105/10186 [4:06:20<2:44:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6106/10186 [4:06:21<2:44:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6106/10186 [4:06:21<2:44:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6107/10186 [4:06:22<2:44:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6107/10186 [4:06:22<2:44:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6108/10186 [4:06:28<2:44:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6108/10186 [4:06:28<2:44:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6109/10186 [4:06:29<2:44:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6109/10186 [4:06:29<2:44:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6110/10186 [4:06:30<2:44:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6110/10186 [4:06:30<2:44:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6111/10186 [4:06:31<2:44:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6111/10186 [4:06:31<2:44:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6112/10186 [4:06:38<2:44:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6112/10186 [4:06:38<2:44:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6113/10186 [4:06:39<2:44:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6113/10186 [4:06:39<2:44:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6114/10186 [4:06:40<2:44:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6114/10186 [4:06:40<2:44:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6115/10186 [4:06:41<2:44:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6115/10186 [4:06:41<2:44:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6116/10186 [4:06:47<2:44:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6116/10186 [4:06:47<2:44:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6117/10186 [4:06:48<2:44:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6117/10186 [4:06:48<2:44:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6118/10186 [4:06:49<2:44:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6118/10186 [4:06:49<2:44:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6119/10186 [4:06:51<2:44:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6119/10186 [4:06:51<2:44:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6120/10186 [4:06:57<2:44:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6120/10186 [4:06:57<2:44:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6121/10186 [4:06:58<2:44:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6121/10186 [4:06:58<2:44:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6122/10186 [4:06:59<2:43:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6122/10186 [4:06:59<2:43:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6123/10186 [4:07:00<2:43:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6123/10186 [4:07:00<2:43:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6124/10186 [4:07:07<2:43:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6124/10186 [4:07:07<2:43:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6125/10186 [4:07:08<2:43:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6125/10186 [4:07:08<2:43:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6126/10186 [4:07:09<2:43:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6126/10186 [4:07:09<2:43:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6127/10186 [4:07:10<2:43:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6127/10186 [4:07:10<2:43:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6128/10186 [4:07:16<2:43:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6128/10186 [4:07:16<2:43:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6129/10186 [4:07:17<2:43:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6129/10186 [4:07:17<2:43:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6130/10186 [4:07:18<2:43:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6130/10186 [4:07:18<2:43:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6131/10186 [4:07:19<2:43:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6131/10186 [4:07:19<2:43:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6132/10186 [4:07:26<2:43:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6132/10186 [4:07:26<2:43:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6133/10186 [4:07:27<2:43:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6133/10186 [4:07:27<2:43:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6134/10186 [4:07:28<2:43:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6134/10186 [4:07:28<2:43:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6135/10186 [4:07:29<2:43:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6135/10186 [4:07:29<2:43:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6136/10186 [4:07:35<2:43:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6136/10186 [4:07:35<2:43:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6137/10186 [4:07:36<2:43:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6137/10186 [4:07:36<2:43:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6138/10186 [4:07:37<2:43:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6138/10186 [4:07:37<2:43:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6139/10186 [4:07:38<2:43:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6139/10186 [4:07:38<2:43:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6140/10186 [4:07:45<2:43:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6140/10186 [4:07:45<2:43:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6141/10186 [4:07:46<2:43:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6141/10186 [4:07:46<2:43:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6142/10186 [4:07:47<2:43:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6142/10186 [4:07:47<2:43:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6143/10186 [4:07:48<2:43:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6143/10186 [4:07:48<2:43:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6144/10186 [4:07:54<2:43:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6144/10186 [4:07:54<2:43:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6145/10186 [4:07:55<2:43:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6145/10186 [4:07:55<2:43:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6146/10186 [4:07:56<2:42:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6146/10186 [4:07:56<2:42:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6147/10186 [4:07:57<2:42:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6147/10186 [4:07:57<2:42:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6148/10186 [4:08:04<2:42:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6148/10186 [4:08:04<2:42:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6149/10186 [4:08:05<2:42:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6149/10186 [4:08:05<2:42:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6150/10186 [4:08:06<2:42:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6150/10186 [4:08:06<2:42:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6151/10186 [4:08:07<2:42:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6151/10186 [4:08:07<2:42:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6152/10186 [4:08:14<2:42:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6152/10186 [4:08:14<2:42:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6153/10186 [4:08:15<2:42:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6153/10186 [4:08:15<2:42:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6154/10186 [4:08:16<2:42:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6154/10186 [4:08:16<2:42:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6155/10186 [4:08:17<2:42:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6155/10186 [4:08:17<2:42:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6156/10186 [4:08:23<2:42:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6156/10186 [4:08:23<2:42:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6157/10186 [4:08:24<2:42:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6157/10186 [4:08:24<2:42:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6158/10186 [4:08:25<2:42:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6158/10186 [4:08:25<2:42:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6159/10186 [4:08:26<2:42:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6159/10186 [4:08:26<2:42:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6160/10186 [4:08:33<2:42:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6160/10186 [4:08:33<2:42:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6161/10186 [4:08:34<2:42:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6161/10186 [4:08:34<2:42:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 6162/10186 [4:08:35<2:42:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  60%|▌| 6162/10186 [4:08:35<2:42:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6163/10186 [4:08:36<2:42:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6163/10186 [4:08:36<2:42:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6164/10186 [4:08:42<2:42:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6164/10186 [4:08:42<2:42:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6165/10186 [4:08:43<2:42:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6165/10186 [4:08:43<2:42:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6166/10186 [4:08:44<2:42:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6166/10186 [4:08:44<2:42:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6167/10186 [4:08:45<2:42:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6167/10186 [4:08:45<2:42:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6168/10186 [4:08:52<2:42:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6168/10186 [4:08:52<2:42:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6169/10186 [4:08:53<2:42:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6169/10186 [4:08:53<2:42:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6170/10186 [4:08:54<2:42:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6170/10186 [4:08:54<2:42:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6171/10186 [4:08:55<2:41:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6171/10186 [4:08:55<2:41:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6172/10186 [4:09:01<2:41:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6172/10186 [4:09:01<2:41:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6173/10186 [4:09:02<2:41:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6173/10186 [4:09:02<2:41:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6174/10186 [4:09:03<2:41:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6174/10186 [4:09:03<2:41:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6175/10186 [4:09:05<2:41:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6175/10186 [4:09:05<2:41:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6176/10186 [4:09:11<2:41:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6176/10186 [4:09:11<2:41:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6177/10186 [4:09:12<2:41:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6177/10186 [4:09:12<2:41:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6178/10186 [4:09:13<2:41:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6178/10186 [4:09:13<2:41:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6179/10186 [4:09:14<2:41:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6179/10186 [4:09:14<2:41:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6180/10186 [4:09:21<2:41:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6180/10186 [4:09:21<2:41:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6181/10186 [4:09:22<2:41:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6181/10186 [4:09:22<2:41:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6182/10186 [4:09:23<2:41:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6182/10186 [4:09:23<2:41:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6183/10186 [4:09:24<2:41:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6183/10186 [4:09:24<2:41:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6184/10186 [4:09:30<2:41:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6184/10186 [4:09:30<2:41:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6185/10186 [4:09:31<2:41:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6185/10186 [4:09:31<2:41:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6186/10186 [4:09:32<2:41:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6186/10186 [4:09:32<2:41:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6187/10186 [4:09:33<2:41:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6187/10186 [4:09:33<2:41:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6188/10186 [4:09:40<2:41:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6188/10186 [4:09:40<2:41:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6189/10186 [4:09:41<2:41:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6189/10186 [4:09:41<2:41:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6190/10186 [4:09:42<2:41:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6190/10186 [4:09:42<2:41:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6191/10186 [4:09:43<2:41:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6191/10186 [4:09:43<2:41:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6192/10186 [4:09:49<2:41:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6192/10186 [4:09:49<2:41:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6193/10186 [4:09:50<2:41:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6193/10186 [4:09:50<2:41:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6194/10186 [4:09:51<2:41:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6194/10186 [4:09:51<2:41:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6195/10186 [4:09:52<2:40:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6195/10186 [4:09:52<2:40:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6196/10186 [4:09:59<2:40:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6196/10186 [4:09:59<2:40:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6197/10186 [4:10:00<2:40:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6197/10186 [4:10:00<2:40:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6198/10186 [4:10:01<2:40:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6198/10186 [4:10:01<2:40:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6199/10186 [4:10:02<2:40:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6199/10186 [4:10:02<2:40:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6200/10186 [4:10:08<2:40:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6200/10186 [4:10:08<2:40:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6201/10186 [4:10:09<2:40:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6201/10186 [4:10:09<2:40:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6202/10186 [4:10:10<2:40:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6202/10186 [4:10:10<2:40:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6203/10186 [4:10:12<2:40:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6203/10186 [4:10:12<2:40:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6204/10186 [4:10:18<2:40:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6204/10186 [4:10:18<2:40:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6205/10186 [4:10:19<2:40:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6205/10186 [4:10:19<2:40:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6206/10186 [4:10:20<2:40:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6206/10186 [4:10:20<2:40:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6207/10186 [4:10:21<2:40:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6207/10186 [4:10:21<2:40:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6208/10186 [4:10:28<2:40:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6208/10186 [4:10:28<2:40:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6209/10186 [4:10:29<2:40:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6209/10186 [4:10:29<2:40:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6210/10186 [4:10:30<2:40:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6210/10186 [4:10:30<2:40:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6211/10186 [4:10:31<2:40:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6211/10186 [4:10:31<2:40:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6212/10186 [4:10:37<2:40:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6212/10186 [4:10:37<2:40:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6213/10186 [4:10:38<2:40:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6213/10186 [4:10:38<2:40:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6214/10186 [4:10:39<2:40:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6214/10186 [4:10:39<2:40:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6215/10186 [4:10:40<2:40:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6215/10186 [4:10:40<2:40:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6216/10186 [4:10:47<2:40:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6216/10186 [4:10:47<2:40:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6217/10186 [4:10:48<2:40:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6217/10186 [4:10:48<2:40:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6218/10186 [4:10:49<2:40:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6218/10186 [4:10:49<2:40:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6219/10186 [4:10:50<2:40:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6219/10186 [4:10:50<2:40:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6220/10186 [4:10:56<2:40:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6220/10186 [4:10:56<2:40:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6221/10186 [4:10:57<2:39:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6221/10186 [4:10:57<2:39:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6222/10186 [4:10:58<2:39:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6222/10186 [4:10:58<2:39:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6223/10186 [4:10:59<2:39:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6223/10186 [4:10:59<2:39:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6224/10186 [4:11:06<2:39:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6224/10186 [4:11:06<2:39:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6225/10186 [4:11:07<2:39:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6225/10186 [4:11:07<2:39:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6226/10186 [4:11:08<2:39:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6226/10186 [4:11:08<2:39:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6227/10186 [4:11:09<2:39:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6227/10186 [4:11:09<2:39:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6228/10186 [4:11:15<2:39:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6228/10186 [4:11:15<2:39:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6229/10186 [4:11:16<2:39:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6229/10186 [4:11:16<2:39:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6230/10186 [4:11:17<2:39:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6230/10186 [4:11:17<2:39:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6231/10186 [4:11:19<2:39:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6231/10186 [4:11:19<2:39:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6232/10186 [4:11:25<2:39:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6232/10186 [4:11:25<2:39:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6233/10186 [4:11:26<2:39:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6233/10186 [4:11:26<2:39:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6234/10186 [4:11:27<2:39:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6234/10186 [4:11:27<2:39:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6235/10186 [4:11:28<2:39:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6235/10186 [4:11:28<2:39:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6236/10186 [4:11:35<2:39:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6236/10186 [4:11:35<2:39:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6237/10186 [4:11:36<2:39:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6237/10186 [4:11:36<2:39:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6238/10186 [4:11:37<2:39:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6238/10186 [4:11:37<2:39:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6239/10186 [4:11:38<2:39:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6239/10186 [4:11:38<2:39:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6240/10186 [4:11:44<2:39:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6240/10186 [4:11:44<2:39:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6241/10186 [4:11:45<2:39:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6241/10186 [4:11:45<2:39:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6242/10186 [4:11:46<2:39:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6242/10186 [4:11:46<2:39:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6243/10186 [4:11:47<2:39:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6243/10186 [4:11:47<2:39:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6244/10186 [4:11:54<2:39:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6244/10186 [4:11:54<2:39:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6245/10186 [4:11:55<2:38:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6245/10186 [4:11:55<2:38:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6246/10186 [4:11:56<2:38:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6246/10186 [4:11:56<2:38:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6247/10186 [4:11:57<2:38:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6247/10186 [4:11:57<2:38:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6248/10186 [4:12:03<2:38:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6248/10186 [4:12:03<2:38:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6249/10186 [4:12:04<2:38:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6249/10186 [4:12:04<2:38:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6250/10186 [4:12:05<2:38:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6250/10186 [4:12:05<2:38:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6251/10186 [4:12:06<2:38:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6251/10186 [4:12:06<2:38:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6252/10186 [4:12:13<2:38:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6252/10186 [4:12:13<2:38:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6253/10186 [4:12:14<2:38:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6253/10186 [4:12:14<2:38:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6254/10186 [4:12:15<2:38:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6254/10186 [4:12:15<2:38:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6255/10186 [4:12:16<2:38:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6255/10186 [4:12:16<2:38:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6256/10186 [4:12:22<2:38:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6256/10186 [4:12:22<2:38:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6257/10186 [4:12:23<2:38:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6257/10186 [4:12:23<2:38:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6258/10186 [4:12:24<2:38:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6258/10186 [4:12:24<2:38:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6259/10186 [4:12:25<2:38:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6259/10186 [4:12:25<2:38:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6260/10186 [4:12:32<2:38:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6260/10186 [4:12:32<2:38:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6261/10186 [4:12:33<2:38:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6261/10186 [4:12:33<2:38:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6262/10186 [4:12:34<2:38:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6262/10186 [4:12:34<2:38:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6263/10186 [4:12:35<2:38:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6263/10186 [4:12:35<2:38:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 6264/10186 [4:12:41<2:38:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  61%|▌| 6264/10186 [4:12:41<2:38:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6265/10186 [4:12:43<2:38:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6265/10186 [4:12:43<2:38:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6266/10186 [4:12:44<2:38:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6266/10186 [4:12:44<2:38:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6267/10186 [4:12:45<2:38:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6267/10186 [4:12:45<2:38:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6268/10186 [4:12:51<2:38:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6268/10186 [4:12:51<2:38:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6269/10186 [4:12:52<2:38:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6269/10186 [4:12:52<2:38:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6270/10186 [4:12:53<2:37:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6270/10186 [4:12:53<2:37:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6271/10186 [4:12:54<2:37:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6271/10186 [4:12:54<2:37:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6272/10186 [4:13:01<2:37:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6272/10186 [4:13:01<2:37:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6273/10186 [4:13:02<2:37:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6273/10186 [4:13:02<2:37:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6274/10186 [4:13:03<2:37:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6274/10186 [4:13:03<2:37:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6275/10186 [4:13:04<2:37:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6275/10186 [4:13:04<2:37:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6276/10186 [4:13:10<2:37:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6276/10186 [4:13:10<2:37:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6277/10186 [4:13:11<2:37:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6277/10186 [4:13:11<2:37:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6278/10186 [4:13:12<2:37:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6278/10186 [4:13:12<2:37:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6279/10186 [4:13:13<2:37:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6279/10186 [4:13:13<2:37:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6280/10186 [4:13:20<2:37:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6280/10186 [4:13:20<2:37:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6281/10186 [4:13:21<2:37:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6281/10186 [4:13:21<2:37:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6282/10186 [4:13:22<2:37:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6282/10186 [4:13:22<2:37:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6283/10186 [4:13:23<2:37:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6283/10186 [4:13:23<2:37:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6284/10186 [4:13:29<2:37:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6284/10186 [4:13:29<2:37:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6285/10186 [4:13:30<2:37:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6285/10186 [4:13:30<2:37:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6286/10186 [4:13:31<2:37:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6286/10186 [4:13:31<2:37:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6287/10186 [4:13:32<2:37:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6287/10186 [4:13:32<2:37:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6288/10186 [4:13:39<2:37:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6288/10186 [4:13:39<2:37:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6289/10186 [4:13:40<2:37:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6289/10186 [4:13:40<2:37:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6290/10186 [4:13:41<2:37:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6290/10186 [4:13:41<2:37:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6291/10186 [4:13:42<2:37:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6291/10186 [4:13:42<2:37:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6292/10186 [4:13:49<2:37:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6292/10186 [4:13:49<2:37:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6293/10186 [4:13:50<2:37:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6293/10186 [4:13:50<2:37:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6294/10186 [4:13:51<2:36:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6294/10186 [4:13:51<2:36:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6295/10186 [4:13:52<2:36:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6295/10186 [4:13:52<2:36:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6296/10186 [4:13:58<2:36:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6296/10186 [4:13:58<2:36:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6297/10186 [4:13:59<2:36:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6297/10186 [4:13:59<2:36:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6298/10186 [4:14:00<2:36:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6298/10186 [4:14:00<2:36:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6299/10186 [4:14:01<2:36:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6299/10186 [4:14:01<2:36:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6300/10186 [4:14:08<2:36:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6300/10186 [4:14:08<2:36:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6301/10186 [4:14:09<2:36:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6301/10186 [4:14:09<2:36:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6302/10186 [4:14:10<2:36:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6302/10186 [4:14:10<2:36:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6303/10186 [4:14:11<2:36:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6303/10186 [4:14:11<2:36:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6304/10186 [4:14:17<2:36:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6304/10186 [4:14:17<2:36:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6305/10186 [4:14:18<2:36:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6305/10186 [4:14:18<2:36:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6306/10186 [4:14:19<2:36:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6306/10186 [4:14:19<2:36:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6307/10186 [4:14:20<2:36:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6307/10186 [4:14:20<2:36:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6308/10186 [4:14:27<2:36:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6308/10186 [4:14:27<2:36:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6309/10186 [4:14:28<2:36:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6309/10186 [4:14:28<2:36:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6310/10186 [4:14:29<2:36:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6310/10186 [4:14:29<2:36:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6311/10186 [4:14:30<2:36:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6311/10186 [4:14:30<2:36:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6312/10186 [4:14:36<2:36:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6312/10186 [4:14:36<2:36:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6313/10186 [4:14:37<2:36:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6313/10186 [4:14:37<2:36:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6314/10186 [4:14:38<2:36:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6314/10186 [4:14:38<2:36:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6315/10186 [4:14:39<2:36:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6315/10186 [4:14:39<2:36:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6316/10186 [4:14:46<2:36:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6316/10186 [4:14:46<2:36:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6317/10186 [4:14:47<2:36:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6317/10186 [4:14:47<2:36:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6318/10186 [4:14:48<2:35:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6318/10186 [4:14:48<2:35:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6319/10186 [4:14:49<2:35:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6319/10186 [4:14:49<2:35:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6320/10186 [4:14:55<2:35:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6320/10186 [4:14:55<2:35:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6321/10186 [4:14:57<2:35:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6321/10186 [4:14:57<2:35:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6322/10186 [4:14:58<2:35:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6322/10186 [4:14:58<2:35:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6323/10186 [4:14:59<2:35:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6323/10186 [4:14:59<2:35:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6324/10186 [4:15:05<2:35:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6324/10186 [4:15:05<2:35:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6325/10186 [4:15:06<2:35:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6325/10186 [4:15:06<2:35:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6326/10186 [4:15:07<2:35:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6326/10186 [4:15:07<2:35:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6327/10186 [4:15:08<2:35:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6327/10186 [4:15:08<2:35:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6328/10186 [4:15:15<2:35:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6328/10186 [4:15:15<2:35:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6329/10186 [4:15:16<2:35:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6329/10186 [4:15:16<2:35:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6330/10186 [4:15:17<2:35:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6330/10186 [4:15:17<2:35:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6331/10186 [4:15:18<2:35:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6331/10186 [4:15:18<2:35:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6332/10186 [4:15:24<2:35:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6332/10186 [4:15:24<2:35:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6333/10186 [4:15:25<2:35:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6333/10186 [4:15:25<2:35:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6334/10186 [4:15:26<2:35:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6334/10186 [4:15:26<2:35:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6335/10186 [4:15:27<2:35:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6335/10186 [4:15:27<2:35:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6336/10186 [4:15:34<2:35:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6336/10186 [4:15:34<2:35:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6337/10186 [4:15:35<2:35:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6337/10186 [4:15:35<2:35:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6338/10186 [4:15:36<2:35:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6338/10186 [4:15:36<2:35:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6339/10186 [4:15:37<2:35:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6339/10186 [4:15:37<2:35:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6340/10186 [4:15:43<2:35:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6340/10186 [4:15:43<2:35:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6341/10186 [4:15:44<2:35:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6341/10186 [4:15:44<2:35:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6342/10186 [4:15:45<2:35:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6342/10186 [4:15:45<2:35:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6343/10186 [4:15:46<2:34:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6343/10186 [4:15:46<2:34:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6344/10186 [4:15:53<2:34:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6344/10186 [4:15:53<2:34:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6345/10186 [4:15:54<2:34:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6345/10186 [4:15:54<2:34:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6346/10186 [4:15:55<2:34:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6346/10186 [4:15:55<2:34:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6347/10186 [4:15:56<2:34:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6347/10186 [4:15:56<2:34:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6348/10186 [4:16:02<2:34:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6348/10186 [4:16:02<2:34:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6349/10186 [4:16:03<2:34:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6349/10186 [4:16:03<2:34:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6350/10186 [4:16:05<2:34:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6350/10186 [4:16:05<2:34:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6351/10186 [4:16:06<2:34:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6351/10186 [4:16:06<2:34:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6352/10186 [4:16:12<2:34:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6352/10186 [4:16:12<2:34:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6353/10186 [4:16:13<2:34:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6353/10186 [4:16:13<2:34:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6354/10186 [4:16:14<2:34:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6354/10186 [4:16:14<2:34:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6355/10186 [4:16:15<2:34:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6355/10186 [4:16:15<2:34:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6356/10186 [4:16:22<2:34:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6356/10186 [4:16:22<2:34:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6357/10186 [4:16:23<2:34:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6357/10186 [4:16:23<2:34:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6358/10186 [4:16:24<2:34:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6358/10186 [4:16:24<2:34:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6359/10186 [4:16:25<2:34:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6359/10186 [4:16:25<2:34:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6360/10186 [4:16:31<2:34:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6360/10186 [4:16:31<2:34:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6361/10186 [4:16:32<2:34:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6361/10186 [4:16:32<2:34:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6362/10186 [4:16:33<2:34:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6362/10186 [4:16:33<2:34:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6363/10186 [4:16:34<2:34:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6363/10186 [4:16:34<2:34:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6364/10186 [4:16:41<2:34:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6364/10186 [4:16:41<2:34:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6365/10186 [4:16:42<2:34:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6365/10186 [4:16:42<2:34:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 6366/10186 [4:16:43<2:34:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  62%|▌| 6366/10186 [4:16:43<2:34:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6367/10186 [4:16:44<2:33:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6367/10186 [4:16:44<2:33:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6368/10186 [4:16:50<2:33:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6368/10186 [4:16:50<2:33:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6369/10186 [4:16:51<2:33:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6369/10186 [4:16:51<2:33:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6370/10186 [4:16:52<2:33:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6370/10186 [4:16:52<2:33:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6371/10186 [4:16:53<2:33:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6371/10186 [4:16:53<2:33:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6372/10186 [4:17:00<2:33:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6372/10186 [4:17:00<2:33:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6373/10186 [4:17:01<2:33:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6373/10186 [4:17:01<2:33:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6374/10186 [4:17:02<2:33:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6374/10186 [4:17:02<2:33:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6375/10186 [4:17:03<2:33:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6375/10186 [4:17:03<2:33:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6376/10186 [4:17:09<2:33:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6376/10186 [4:17:09<2:33:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6377/10186 [4:17:10<2:33:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6377/10186 [4:17:10<2:33:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6378/10186 [4:17:12<2:33:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6378/10186 [4:17:12<2:33:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6379/10186 [4:17:13<2:33:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6379/10186 [4:17:13<2:33:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6380/10186 [4:17:19<2:33:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6380/10186 [4:17:19<2:33:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6381/10186 [4:17:20<2:33:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6381/10186 [4:17:20<2:33:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6382/10186 [4:17:21<2:33:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6382/10186 [4:17:21<2:33:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6383/10186 [4:17:22<2:33:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6383/10186 [4:17:22<2:33:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6384/10186 [4:17:29<2:33:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6384/10186 [4:17:29<2:33:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6385/10186 [4:17:30<2:33:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6385/10186 [4:17:30<2:33:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6386/10186 [4:17:31<2:33:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6386/10186 [4:17:31<2:33:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6387/10186 [4:17:32<2:33:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6387/10186 [4:17:32<2:33:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6388/10186 [4:17:38<2:33:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6388/10186 [4:17:38<2:33:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6389/10186 [4:17:39<2:33:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6389/10186 [4:17:39<2:33:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6390/10186 [4:17:40<2:33:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6390/10186 [4:17:40<2:33:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6391/10186 [4:17:41<2:33:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6391/10186 [4:17:41<2:33:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6392/10186 [4:17:48<2:33:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6392/10186 [4:17:48<2:33:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6393/10186 [4:17:49<2:32:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6393/10186 [4:17:49<2:32:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6394/10186 [4:17:50<2:32:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6394/10186 [4:17:50<2:32:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6395/10186 [4:17:51<2:32:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6395/10186 [4:17:51<2:32:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6396/10186 [4:17:57<2:32:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6396/10186 [4:17:57<2:32:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6397/10186 [4:17:58<2:32:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6397/10186 [4:17:58<2:32:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6398/10186 [4:17:59<2:32:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6398/10186 [4:17:59<2:32:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6399/10186 [4:18:00<2:32:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6399/10186 [4:18:00<2:32:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6400/10186 [4:18:07<2:32:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6400/10186 [4:18:07<2:32:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6401/10186 [4:18:08<2:32:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6401/10186 [4:18:08<2:32:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6402/10186 [4:18:09<2:32:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6402/10186 [4:18:09<2:32:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6403/10186 [4:18:10<2:32:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6403/10186 [4:18:10<2:32:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6404/10186 [4:18:16<2:32:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6404/10186 [4:18:16<2:32:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6405/10186 [4:18:17<2:32:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6405/10186 [4:18:17<2:32:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6406/10186 [4:18:19<2:32:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6406/10186 [4:18:19<2:32:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6407/10186 [4:18:20<2:32:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6407/10186 [4:18:20<2:32:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6408/10186 [4:18:26<2:32:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6408/10186 [4:18:26<2:32:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6409/10186 [4:18:27<2:32:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6409/10186 [4:18:27<2:32:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6410/10186 [4:18:28<2:32:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6410/10186 [4:18:28<2:32:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6411/10186 [4:18:29<2:32:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6411/10186 [4:18:29<2:32:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6412/10186 [4:18:36<2:32:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6412/10186 [4:18:36<2:32:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6413/10186 [4:18:37<2:32:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6413/10186 [4:18:37<2:32:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6414/10186 [4:18:38<2:32:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6414/10186 [4:18:38<2:32:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6415/10186 [4:18:39<2:32:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6415/10186 [4:18:39<2:32:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6416/10186 [4:18:45<2:32:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6416/10186 [4:18:45<2:32:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6417/10186 [4:18:46<2:31:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6417/10186 [4:18:46<2:31:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6418/10186 [4:18:47<2:31:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6418/10186 [4:18:47<2:31:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6419/10186 [4:18:48<2:31:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6419/10186 [4:18:48<2:31:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6420/10186 [4:18:55<2:31:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6420/10186 [4:18:55<2:31:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6421/10186 [4:18:56<2:31:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6421/10186 [4:18:56<2:31:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6422/10186 [4:18:57<2:31:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6422/10186 [4:18:57<2:31:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6423/10186 [4:18:58<2:31:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6423/10186 [4:18:58<2:31:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6424/10186 [4:19:04<2:31:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6424/10186 [4:19:04<2:31:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6425/10186 [4:19:05<2:31:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6425/10186 [4:19:05<2:31:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6426/10186 [4:19:06<2:31:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6426/10186 [4:19:06<2:31:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6427/10186 [4:19:07<2:31:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6427/10186 [4:19:07<2:31:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6428/10186 [4:19:14<2:31:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6428/10186 [4:19:14<2:31:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6429/10186 [4:19:15<2:31:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6429/10186 [4:19:15<2:31:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6430/10186 [4:19:16<2:31:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6430/10186 [4:19:16<2:31:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6431/10186 [4:19:17<2:31:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6431/10186 [4:19:17<2:31:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6432/10186 [4:19:23<2:31:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6432/10186 [4:19:23<2:31:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6433/10186 [4:19:24<2:31:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6433/10186 [4:19:24<2:31:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6434/10186 [4:19:26<2:31:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6434/10186 [4:19:26<2:31:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6435/10186 [4:19:27<2:31:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6435/10186 [4:19:27<2:31:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6436/10186 [4:19:33<2:31:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6436/10186 [4:19:33<2:31:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6437/10186 [4:19:34<2:31:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6437/10186 [4:19:34<2:31:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6438/10186 [4:19:35<2:31:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6438/10186 [4:19:35<2:31:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6439/10186 [4:19:36<2:31:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6439/10186 [4:19:36<2:31:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6440/10186 [4:19:43<2:31:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6440/10186 [4:19:43<2:31:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6441/10186 [4:19:44<2:31:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6441/10186 [4:19:44<2:31:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6442/10186 [4:19:45<2:30:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6442/10186 [4:19:45<2:30:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6443/10186 [4:19:46<2:30:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6443/10186 [4:19:46<2:30:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6444/10186 [4:19:52<2:30:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6444/10186 [4:19:52<2:30:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6445/10186 [4:19:53<2:30:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6445/10186 [4:19:53<2:30:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6446/10186 [4:19:54<2:30:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6446/10186 [4:19:54<2:30:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6447/10186 [4:19:55<2:30:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6447/10186 [4:19:55<2:30:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6448/10186 [4:20:02<2:30:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6448/10186 [4:20:02<2:30:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6449/10186 [4:20:03<2:30:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6449/10186 [4:20:03<2:30:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6450/10186 [4:20:04<2:30:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6450/10186 [4:20:04<2:30:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6451/10186 [4:20:05<2:30:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6451/10186 [4:20:05<2:30:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6452/10186 [4:20:11<2:30:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6452/10186 [4:20:11<2:30:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6453/10186 [4:20:12<2:30:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6453/10186 [4:20:12<2:30:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6454/10186 [4:20:13<2:30:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6454/10186 [4:20:13<2:30:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6455/10186 [4:20:14<2:30:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6455/10186 [4:20:14<2:30:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6456/10186 [4:20:21<2:30:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6456/10186 [4:20:21<2:30:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6457/10186 [4:20:22<2:30:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6457/10186 [4:20:22<2:30:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6458/10186 [4:20:23<2:30:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6458/10186 [4:20:23<2:30:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6459/10186 [4:20:24<2:30:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6459/10186 [4:20:24<2:30:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6460/10186 [4:20:30<2:30:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6460/10186 [4:20:30<2:30:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6461/10186 [4:20:31<2:30:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6461/10186 [4:20:31<2:30:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6462/10186 [4:20:33<2:30:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6462/10186 [4:20:33<2:30:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6463/10186 [4:20:34<2:30:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6463/10186 [4:20:34<2:30:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6464/10186 [4:20:40<2:30:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6464/10186 [4:20:40<2:30:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6465/10186 [4:20:41<2:30:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6465/10186 [4:20:41<2:30:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6466/10186 [4:20:42<2:29:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6466/10186 [4:20:42<2:29:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6467/10186 [4:20:43<2:29:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6467/10186 [4:20:43<2:29:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 6468/10186 [4:20:50<2:29:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  63%|▋| 6468/10186 [4:20:50<2:29:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6469/10186 [4:20:51<2:29:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6469/10186 [4:20:51<2:29:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6470/10186 [4:20:52<2:29:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6470/10186 [4:20:52<2:29:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6471/10186 [4:20:53<2:29:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6471/10186 [4:20:53<2:29:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6472/10186 [4:20:59<2:29:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6472/10186 [4:20:59<2:29:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6473/10186 [4:21:00<2:29:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6473/10186 [4:21:00<2:29:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6474/10186 [4:21:01<2:29:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6474/10186 [4:21:01<2:29:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6475/10186 [4:21:02<2:29:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6475/10186 [4:21:02<2:29:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6476/10186 [4:21:09<2:29:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6476/10186 [4:21:09<2:29:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6477/10186 [4:21:10<2:29:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6477/10186 [4:21:10<2:29:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6478/10186 [4:21:11<2:29:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6478/10186 [4:21:11<2:29:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6479/10186 [4:21:12<2:29:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6479/10186 [4:21:12<2:29:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6480/10186 [4:21:18<2:29:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6480/10186 [4:21:18<2:29:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6481/10186 [4:21:19<2:29:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6481/10186 [4:21:19<2:29:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6482/10186 [4:21:20<2:29:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6482/10186 [4:21:20<2:29:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6483/10186 [4:21:21<2:29:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6483/10186 [4:21:21<2:29:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6484/10186 [4:21:28<2:29:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6484/10186 [4:21:28<2:29:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6485/10186 [4:21:29<2:29:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6485/10186 [4:21:29<2:29:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6486/10186 [4:21:30<2:29:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6486/10186 [4:21:30<2:29:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6487/10186 [4:21:31<2:29:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6487/10186 [4:21:31<2:29:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6488/10186 [4:21:37<2:29:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6488/10186 [4:21:37<2:29:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6489/10186 [4:21:38<2:29:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6489/10186 [4:21:38<2:29:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6490/10186 [4:21:40<2:29:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6490/10186 [4:21:40<2:29:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6491/10186 [4:21:41<2:28:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6491/10186 [4:21:41<2:28:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6492/10186 [4:21:47<2:28:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6492/10186 [4:21:47<2:28:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6493/10186 [4:21:48<2:28:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6493/10186 [4:21:48<2:28:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6494/10186 [4:21:49<2:28:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6494/10186 [4:21:49<2:28:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6495/10186 [4:21:50<2:28:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6495/10186 [4:21:50<2:28:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6496/10186 [4:21:57<2:28:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6496/10186 [4:21:57<2:28:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6497/10186 [4:21:58<2:28:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6497/10186 [4:21:58<2:28:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6498/10186 [4:21:59<2:28:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6498/10186 [4:21:59<2:28:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6499/10186 [4:22:00<2:28:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6499/10186 [4:22:00<2:28:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6500/10186 [4:22:06<2:28:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6500/10186 [4:22:06<2:28:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6501/10186 [4:22:07<2:28:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6501/10186 [4:22:07<2:28:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6502/10186 [4:22:08<2:28:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6502/10186 [4:22:08<2:28:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6503/10186 [4:22:09<2:28:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6503/10186 [4:22:09<2:28:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6504/10186 [4:22:16<2:28:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6504/10186 [4:22:16<2:28:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6505/10186 [4:22:17<2:28:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6505/10186 [4:22:17<2:28:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6506/10186 [4:22:18<2:28:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6506/10186 [4:22:18<2:28:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6507/10186 [4:22:19<2:28:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6507/10186 [4:22:19<2:28:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6508/10186 [4:22:25<2:28:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6508/10186 [4:22:25<2:28:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6509/10186 [4:22:26<2:28:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6509/10186 [4:22:26<2:28:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6510/10186 [4:22:27<2:28:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6510/10186 [4:22:27<2:28:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6511/10186 [4:22:28<2:28:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6511/10186 [4:22:28<2:28:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6512/10186 [4:22:35<2:28:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6512/10186 [4:22:35<2:28:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6513/10186 [4:22:36<2:28:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6513/10186 [4:22:36<2:28:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6514/10186 [4:22:37<2:28:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6514/10186 [4:22:37<2:28:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6515/10186 [4:22:38<2:27:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6515/10186 [4:22:38<2:27:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6516/10186 [4:22:44<2:27:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6516/10186 [4:22:44<2:27:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6517/10186 [4:22:45<2:27:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6517/10186 [4:22:45<2:27:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6518/10186 [4:22:47<2:27:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6518/10186 [4:22:47<2:27:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6519/10186 [4:22:48<2:27:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6519/10186 [4:22:48<2:27:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6520/10186 [4:22:54<2:27:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6520/10186 [4:22:54<2:27:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6521/10186 [4:22:55<2:27:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6521/10186 [4:22:55<2:27:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6522/10186 [4:22:56<2:27:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6522/10186 [4:22:56<2:27:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6523/10186 [4:22:57<2:27:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6523/10186 [4:22:57<2:27:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6524/10186 [4:23:04<2:27:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6524/10186 [4:23:04<2:27:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6525/10186 [4:23:05<2:27:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6525/10186 [4:23:05<2:27:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6526/10186 [4:23:06<2:27:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6526/10186 [4:23:06<2:27:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6527/10186 [4:23:07<2:27:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6527/10186 [4:23:07<2:27:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6528/10186 [4:23:13<2:27:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6528/10186 [4:23:13<2:27:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6529/10186 [4:23:14<2:27:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6529/10186 [4:23:14<2:27:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6530/10186 [4:23:15<2:27:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6530/10186 [4:23:15<2:27:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6531/10186 [4:23:16<2:27:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6531/10186 [4:23:16<2:27:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6532/10186 [4:23:23<2:27:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6532/10186 [4:23:23<2:27:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6533/10186 [4:23:24<2:27:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6533/10186 [4:23:24<2:27:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6534/10186 [4:23:25<2:27:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6534/10186 [4:23:25<2:27:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6535/10186 [4:23:26<2:27:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6535/10186 [4:23:26<2:27:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6536/10186 [4:23:32<2:27:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6536/10186 [4:23:32<2:27:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6537/10186 [4:23:33<2:27:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6537/10186 [4:23:33<2:27:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6538/10186 [4:23:34<2:27:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6538/10186 [4:23:34<2:27:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6539/10186 [4:23:35<2:27:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6539/10186 [4:23:35<2:27:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6540/10186 [4:23:42<2:27:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6540/10186 [4:23:42<2:27:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6541/10186 [4:23:43<2:26:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6541/10186 [4:23:43<2:26:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6542/10186 [4:23:44<2:26:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6542/10186 [4:23:44<2:26:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6543/10186 [4:23:45<2:26:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6543/10186 [4:23:45<2:26:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6544/10186 [4:23:51<2:26:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6544/10186 [4:23:51<2:26:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6545/10186 [4:23:52<2:26:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6545/10186 [4:23:52<2:26:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6546/10186 [4:23:54<2:26:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6546/10186 [4:23:54<2:26:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6547/10186 [4:23:55<2:26:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6547/10186 [4:23:55<2:26:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6548/10186 [4:24:01<2:26:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6548/10186 [4:24:01<2:26:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6549/10186 [4:24:02<2:26:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6549/10186 [4:24:02<2:26:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6550/10186 [4:24:03<2:26:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6550/10186 [4:24:03<2:26:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6551/10186 [4:24:04<2:26:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6551/10186 [4:24:04<2:26:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6552/10186 [4:24:11<2:26:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6552/10186 [4:24:11<2:26:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6553/10186 [4:24:12<2:26:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6553/10186 [4:24:12<2:26:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6554/10186 [4:24:13<2:26:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6554/10186 [4:24:13<2:26:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6555/10186 [4:24:14<2:26:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6555/10186 [4:24:14<2:26:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6556/10186 [4:24:20<2:26:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6556/10186 [4:24:20<2:26:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6557/10186 [4:24:21<2:26:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6557/10186 [4:24:21<2:26:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6558/10186 [4:24:22<2:26:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6558/10186 [4:24:22<2:26:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6559/10186 [4:24:23<2:26:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6559/10186 [4:24:23<2:26:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6560/10186 [4:24:30<2:26:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6560/10186 [4:24:30<2:26:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6561/10186 [4:24:31<2:26:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6561/10186 [4:24:31<2:26:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6562/10186 [4:24:32<2:26:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6562/10186 [4:24:32<2:26:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6563/10186 [4:24:33<2:26:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6563/10186 [4:24:33<2:26:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6564/10186 [4:24:39<2:26:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6564/10186 [4:24:39<2:26:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6565/10186 [4:24:40<2:25:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6565/10186 [4:24:40<2:25:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6566/10186 [4:24:41<2:25:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6566/10186 [4:24:41<2:25:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6567/10186 [4:24:42<2:25:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6567/10186 [4:24:42<2:25:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6568/10186 [4:24:49<2:25:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6568/10186 [4:24:49<2:25:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 6569/10186 [4:24:50<2:25:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  64%|▋| 6569/10186 [4:24:50<2:25:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6570/10186 [4:24:51<2:25:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6570/10186 [4:24:51<2:25:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6571/10186 [4:24:52<2:25:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6571/10186 [4:24:52<2:25:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6572/10186 [4:24:58<2:25:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6572/10186 [4:24:58<2:25:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6573/10186 [4:24:59<2:25:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6573/10186 [4:24:59<2:25:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6574/10186 [4:25:01<2:25:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6574/10186 [4:25:01<2:25:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6575/10186 [4:25:02<2:25:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6575/10186 [4:25:02<2:25:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6576/10186 [4:25:08<2:25:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6576/10186 [4:25:08<2:25:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6577/10186 [4:25:09<2:25:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6577/10186 [4:25:09<2:25:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6578/10186 [4:25:10<2:25:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6578/10186 [4:25:10<2:25:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6579/10186 [4:25:11<2:25:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6579/10186 [4:25:11<2:25:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6580/10186 [4:25:18<2:25:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6580/10186 [4:25:18<2:25:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6581/10186 [4:25:19<2:25:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6581/10186 [4:25:19<2:25:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6582/10186 [4:25:20<2:25:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6582/10186 [4:25:20<2:25:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6583/10186 [4:25:21<2:25:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6583/10186 [4:25:21<2:25:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6584/10186 [4:25:27<2:25:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6584/10186 [4:25:27<2:25:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6585/10186 [4:25:28<2:25:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6585/10186 [4:25:28<2:25:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6586/10186 [4:25:29<2:25:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6586/10186 [4:25:29<2:25:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6587/10186 [4:25:30<2:25:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6587/10186 [4:25:30<2:25:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6588/10186 [4:25:37<2:25:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6588/10186 [4:25:37<2:25:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6589/10186 [4:25:38<2:25:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6589/10186 [4:25:38<2:25:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6590/10186 [4:25:39<2:24:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6590/10186 [4:25:39<2:24:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6591/10186 [4:25:40<2:24:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6591/10186 [4:25:40<2:24:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6592/10186 [4:25:46<2:24:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6592/10186 [4:25:46<2:24:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6593/10186 [4:25:47<2:24:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6593/10186 [4:25:47<2:24:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6594/10186 [4:25:48<2:24:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6594/10186 [4:25:48<2:24:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6595/10186 [4:25:49<2:24:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6595/10186 [4:25:49<2:24:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6596/10186 [4:25:56<2:24:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6596/10186 [4:25:56<2:24:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6597/10186 [4:25:57<2:24:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6597/10186 [4:25:57<2:24:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6598/10186 [4:25:58<2:24:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6598/10186 [4:25:58<2:24:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6599/10186 [4:25:59<2:24:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6599/10186 [4:25:59<2:24:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6600/10186 [4:26:05<2:24:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6600/10186 [4:26:05<2:24:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6601/10186 [4:26:06<2:24:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6601/10186 [4:26:06<2:24:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6602/10186 [4:26:07<2:24:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6602/10186 [4:26:07<2:24:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6603/10186 [4:26:09<2:24:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6603/10186 [4:26:09<2:24:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6604/10186 [4:26:15<2:24:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6604/10186 [4:26:15<2:24:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6605/10186 [4:26:16<2:24:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6605/10186 [4:26:16<2:24:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6606/10186 [4:26:17<2:24:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6606/10186 [4:26:17<2:24:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6607/10186 [4:26:18<2:24:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6607/10186 [4:26:18<2:24:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6608/10186 [4:26:25<2:24:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6608/10186 [4:26:25<2:24:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6609/10186 [4:26:26<2:24:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6609/10186 [4:26:26<2:24:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6610/10186 [4:26:27<2:24:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6610/10186 [4:26:27<2:24:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6611/10186 [4:26:28<2:24:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6611/10186 [4:26:28<2:24:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6612/10186 [4:26:34<2:24:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6612/10186 [4:26:34<2:24:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6613/10186 [4:26:35<2:24:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6613/10186 [4:26:35<2:24:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6614/10186 [4:26:36<2:23:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6614/10186 [4:26:36<2:23:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6615/10186 [4:26:37<2:23:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6615/10186 [4:26:37<2:23:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6616/10186 [4:26:44<2:23:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6616/10186 [4:26:44<2:23:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6617/10186 [4:26:45<2:23:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6617/10186 [4:26:45<2:23:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6618/10186 [4:26:46<2:23:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6618/10186 [4:26:46<2:23:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6619/10186 [4:26:47<2:23:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6619/10186 [4:26:47<2:23:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6620/10186 [4:26:53<2:23:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6620/10186 [4:26:53<2:23:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6621/10186 [4:26:54<2:23:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6621/10186 [4:26:54<2:23:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6622/10186 [4:26:55<2:23:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6622/10186 [4:26:55<2:23:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6623/10186 [4:26:56<2:23:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6623/10186 [4:26:56<2:23:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6624/10186 [4:27:03<2:23:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6624/10186 [4:27:03<2:23:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6625/10186 [4:27:04<2:23:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6625/10186 [4:27:04<2:23:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6626/10186 [4:27:05<2:23:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6626/10186 [4:27:05<2:23:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6627/10186 [4:27:06<2:23:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6627/10186 [4:27:06<2:23:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6628/10186 [4:27:12<2:23:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6628/10186 [4:27:12<2:23:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6629/10186 [4:27:13<2:23:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6629/10186 [4:27:13<2:23:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6630/10186 [4:27:14<2:23:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6630/10186 [4:27:14<2:23:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6631/10186 [4:27:16<2:23:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6631/10186 [4:27:16<2:23:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6632/10186 [4:27:22<2:23:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6632/10186 [4:27:22<2:23:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6633/10186 [4:27:23<2:23:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6633/10186 [4:27:23<2:23:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6634/10186 [4:27:24<2:23:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6634/10186 [4:27:24<2:23:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6635/10186 [4:27:25<2:23:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6635/10186 [4:27:25<2:23:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6636/10186 [4:27:32<2:23:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6636/10186 [4:27:32<2:23:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6637/10186 [4:27:33<2:23:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6637/10186 [4:27:33<2:23:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6638/10186 [4:27:34<2:23:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6638/10186 [4:27:34<2:23:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6639/10186 [4:27:35<2:22:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6639/10186 [4:27:35<2:22:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6640/10186 [4:27:41<2:22:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6640/10186 [4:27:41<2:22:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6641/10186 [4:27:42<2:22:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6641/10186 [4:27:42<2:22:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6642/10186 [4:27:43<2:22:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6642/10186 [4:27:43<2:22:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6643/10186 [4:27:44<2:22:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6643/10186 [4:27:44<2:22:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6644/10186 [4:27:51<2:22:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6644/10186 [4:27:51<2:22:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6645/10186 [4:27:52<2:22:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6645/10186 [4:27:52<2:22:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6646/10186 [4:27:53<2:22:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6646/10186 [4:27:53<2:22:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6647/10186 [4:27:54<2:22:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6647/10186 [4:27:54<2:22:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6648/10186 [4:28:00<2:22:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6648/10186 [4:28:00<2:22:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6649/10186 [4:28:01<2:22:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6649/10186 [4:28:01<2:22:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6650/10186 [4:28:02<2:22:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6650/10186 [4:28:02<2:22:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6651/10186 [4:28:03<2:22:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6651/10186 [4:28:03<2:22:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6652/10186 [4:28:10<2:22:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6652/10186 [4:28:10<2:22:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6653/10186 [4:28:11<2:22:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6653/10186 [4:28:11<2:22:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6654/10186 [4:28:12<2:22:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6654/10186 [4:28:12<2:22:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6655/10186 [4:28:13<2:22:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6655/10186 [4:28:13<2:22:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6656/10186 [4:28:19<2:22:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6656/10186 [4:28:19<2:22:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6657/10186 [4:28:20<2:22:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6657/10186 [4:28:20<2:22:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6658/10186 [4:28:21<2:22:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6658/10186 [4:28:21<2:22:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6659/10186 [4:28:22<2:22:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6659/10186 [4:28:22<2:22:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6660/10186 [4:28:29<2:22:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6660/10186 [4:28:29<2:22:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6661/10186 [4:28:30<2:22:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6661/10186 [4:28:30<2:22:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6662/10186 [4:28:31<2:22:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6662/10186 [4:28:31<2:22:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6663/10186 [4:28:32<2:21:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6663/10186 [4:28:32<2:21:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6664/10186 [4:28:39<2:21:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6664/10186 [4:28:39<2:21:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6665/10186 [4:28:40<2:21:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6665/10186 [4:28:40<2:21:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6666/10186 [4:28:41<2:21:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6666/10186 [4:28:41<2:21:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6667/10186 [4:28:42<2:21:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6667/10186 [4:28:42<2:21:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6668/10186 [4:28:48<2:21:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6668/10186 [4:28:48<2:21:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6669/10186 [4:28:49<2:21:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6669/10186 [4:28:49<2:21:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6670/10186 [4:28:50<2:21:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6670/10186 [4:28:50<2:21:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 6671/10186 [4:28:51<2:21:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  65%|▋| 6671/10186 [4:28:51<2:21:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6672/10186 [4:28:58<2:21:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6672/10186 [4:28:58<2:21:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6673/10186 [4:28:59<2:21:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6673/10186 [4:28:59<2:21:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6674/10186 [4:29:00<2:21:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6674/10186 [4:29:00<2:21:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6675/10186 [4:29:01<2:21:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6675/10186 [4:29:01<2:21:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6676/10186 [4:29:07<2:21:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6676/10186 [4:29:07<2:21:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6677/10186 [4:29:08<2:21:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6677/10186 [4:29:08<2:21:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6678/10186 [4:29:09<2:21:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6678/10186 [4:29:09<2:21:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6679/10186 [4:29:10<2:21:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6679/10186 [4:29:10<2:21:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6680/10186 [4:29:17<2:21:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6680/10186 [4:29:17<2:21:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6681/10186 [4:29:18<2:21:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6681/10186 [4:29:18<2:21:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6682/10186 [4:29:19<2:21:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6682/10186 [4:29:19<2:21:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6683/10186 [4:29:20<2:21:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6683/10186 [4:29:20<2:21:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6684/10186 [4:29:26<2:21:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6684/10186 [4:29:26<2:21:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6685/10186 [4:29:27<2:21:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6685/10186 [4:29:27<2:21:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6686/10186 [4:29:28<2:21:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6686/10186 [4:29:28<2:21:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6687/10186 [4:29:29<2:21:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6687/10186 [4:29:29<2:21:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6688/10186 [4:29:36<2:21:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6688/10186 [4:29:36<2:21:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6689/10186 [4:29:37<2:20:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6689/10186 [4:29:37<2:20:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6690/10186 [4:29:38<2:20:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6690/10186 [4:29:38<2:20:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6691/10186 [4:29:39<2:20:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6691/10186 [4:29:39<2:20:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6692/10186 [4:29:46<2:20:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6692/10186 [4:29:46<2:20:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6693/10186 [4:29:47<2:20:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6693/10186 [4:29:47<2:20:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6694/10186 [4:29:48<2:20:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6694/10186 [4:29:48<2:20:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6695/10186 [4:29:49<2:20:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6695/10186 [4:29:49<2:20:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6696/10186 [4:29:55<2:20:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6696/10186 [4:29:55<2:20:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6697/10186 [4:29:56<2:20:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6697/10186 [4:29:56<2:20:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6698/10186 [4:29:57<2:20:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6698/10186 [4:29:57<2:20:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6699/10186 [4:29:58<2:20:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6699/10186 [4:29:58<2:20:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6700/10186 [4:30:05<2:20:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6700/10186 [4:30:05<2:20:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6701/10186 [4:30:06<2:20:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6701/10186 [4:30:06<2:20:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6702/10186 [4:30:07<2:20:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6702/10186 [4:30:07<2:20:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6703/10186 [4:30:08<2:20:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6703/10186 [4:30:08<2:20:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6704/10186 [4:30:14<2:20:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6704/10186 [4:30:14<2:20:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6705/10186 [4:30:15<2:20:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6705/10186 [4:30:15<2:20:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6706/10186 [4:30:16<2:20:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6706/10186 [4:30:16<2:20:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6707/10186 [4:30:17<2:20:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6707/10186 [4:30:17<2:20:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6708/10186 [4:30:24<2:20:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6708/10186 [4:30:24<2:20:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6709/10186 [4:30:25<2:20:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6709/10186 [4:30:25<2:20:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6710/10186 [4:30:26<2:20:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6710/10186 [4:30:26<2:20:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6711/10186 [4:30:27<2:20:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6711/10186 [4:30:27<2:20:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6712/10186 [4:30:33<2:20:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6712/10186 [4:30:33<2:20:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6713/10186 [4:30:34<2:19:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6713/10186 [4:30:34<2:19:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6714/10186 [4:30:35<2:19:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6714/10186 [4:30:35<2:19:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6715/10186 [4:30:37<2:19:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6715/10186 [4:30:37<2:19:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6716/10186 [4:30:43<2:19:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6716/10186 [4:30:43<2:19:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6717/10186 [4:30:44<2:19:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6717/10186 [4:30:44<2:19:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6718/10186 [4:30:45<2:19:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6718/10186 [4:30:45<2:19:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6719/10186 [4:30:46<2:19:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6719/10186 [4:30:46<2:19:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6720/10186 [4:30:53<2:19:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6720/10186 [4:30:53<2:19:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6721/10186 [4:30:54<2:19:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6721/10186 [4:30:54<2:19:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6722/10186 [4:30:55<2:19:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6722/10186 [4:30:55<2:19:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6723/10186 [4:30:56<2:19:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6723/10186 [4:30:56<2:19:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6724/10186 [4:31:02<2:19:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6724/10186 [4:31:02<2:19:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6725/10186 [4:31:03<2:19:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6725/10186 [4:31:03<2:19:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6726/10186 [4:31:04<2:19:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6726/10186 [4:31:04<2:19:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6727/10186 [4:31:05<2:19:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6727/10186 [4:31:05<2:19:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6728/10186 [4:31:12<2:19:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6728/10186 [4:31:12<2:19:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6729/10186 [4:31:13<2:19:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6729/10186 [4:31:13<2:19:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6730/10186 [4:31:14<2:19:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6730/10186 [4:31:14<2:19:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6731/10186 [4:31:15<2:19:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6731/10186 [4:31:15<2:19:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6732/10186 [4:31:21<2:19:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6732/10186 [4:31:21<2:19:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6733/10186 [4:31:22<2:19:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6733/10186 [4:31:22<2:19:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6734/10186 [4:31:23<2:19:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6734/10186 [4:31:23<2:19:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6735/10186 [4:31:24<2:19:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6735/10186 [4:31:24<2:19:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6736/10186 [4:31:31<2:19:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6736/10186 [4:31:31<2:19:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6737/10186 [4:31:32<2:19:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6737/10186 [4:31:32<2:19:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6738/10186 [4:31:33<2:18:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6738/10186 [4:31:33<2:18:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6739/10186 [4:31:34<2:18:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6739/10186 [4:31:34<2:18:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6740/10186 [4:31:40<2:18:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6740/10186 [4:31:40<2:18:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6741/10186 [4:31:41<2:18:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6741/10186 [4:31:41<2:18:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6742/10186 [4:31:42<2:18:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6742/10186 [4:31:42<2:18:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6743/10186 [4:31:44<2:18:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6743/10186 [4:31:44<2:18:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6744/10186 [4:31:50<2:18:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6744/10186 [4:31:50<2:18:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6745/10186 [4:31:51<2:18:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6745/10186 [4:31:51<2:18:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6746/10186 [4:31:52<2:18:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6746/10186 [4:31:52<2:18:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6747/10186 [4:31:53<2:18:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6747/10186 [4:31:53<2:18:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6748/10186 [4:32:00<2:18:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6748/10186 [4:32:00<2:18:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6749/10186 [4:32:01<2:18:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6749/10186 [4:32:01<2:18:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6750/10186 [4:32:02<2:18:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6750/10186 [4:32:02<2:18:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6751/10186 [4:32:03<2:18:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6751/10186 [4:32:03<2:18:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6752/10186 [4:32:09<2:18:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6752/10186 [4:32:09<2:18:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6753/10186 [4:32:10<2:18:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6753/10186 [4:32:10<2:18:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6754/10186 [4:32:11<2:18:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6754/10186 [4:32:11<2:18:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6755/10186 [4:32:12<2:18:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6755/10186 [4:32:12<2:18:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6756/10186 [4:32:19<2:18:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6756/10186 [4:32:19<2:18:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6757/10186 [4:32:20<2:18:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6757/10186 [4:32:20<2:18:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6758/10186 [4:32:21<2:18:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6758/10186 [4:32:21<2:18:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6759/10186 [4:32:22<2:18:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6759/10186 [4:32:22<2:18:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6760/10186 [4:32:28<2:18:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6760/10186 [4:32:28<2:18:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6761/10186 [4:32:29<2:18:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6761/10186 [4:32:29<2:18:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6762/10186 [4:32:30<2:17:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6762/10186 [4:32:30<2:17:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6763/10186 [4:32:31<2:17:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6763/10186 [4:32:31<2:17:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6764/10186 [4:32:38<2:17:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6764/10186 [4:32:38<2:17:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6765/10186 [4:32:39<2:17:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6765/10186 [4:32:39<2:17:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6766/10186 [4:32:40<2:17:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6766/10186 [4:32:40<2:17:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6767/10186 [4:32:41<2:17:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6767/10186 [4:32:41<2:17:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6768/10186 [4:32:47<2:17:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6768/10186 [4:32:47<2:17:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6769/10186 [4:32:48<2:17:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6769/10186 [4:32:48<2:17:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6770/10186 [4:32:49<2:17:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6770/10186 [4:32:49<2:17:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6771/10186 [4:32:50<2:17:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6771/10186 [4:32:50<2:17:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6772/10186 [4:32:57<2:17:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6772/10186 [4:32:57<2:17:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 6773/10186 [4:32:58<2:17:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  66%|▋| 6773/10186 [4:32:58<2:17:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6774/10186 [4:32:59<2:17:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6774/10186 [4:32:59<2:17:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6775/10186 [4:33:00<2:17:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6775/10186 [4:33:00<2:17:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6776/10186 [4:33:07<2:17:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6776/10186 [4:33:07<2:17:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6777/10186 [4:33:08<2:17:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6777/10186 [4:33:08<2:17:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6778/10186 [4:33:09<2:17:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6778/10186 [4:33:09<2:17:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6779/10186 [4:33:10<2:17:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6779/10186 [4:33:10<2:17:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6780/10186 [4:33:16<2:17:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6780/10186 [4:33:16<2:17:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6781/10186 [4:33:17<2:17:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6781/10186 [4:33:17<2:17:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6782/10186 [4:33:18<2:17:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6782/10186 [4:33:18<2:17:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6783/10186 [4:33:19<2:17:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6783/10186 [4:33:19<2:17:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6784/10186 [4:33:26<2:17:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6784/10186 [4:33:26<2:17:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6785/10186 [4:33:27<2:17:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6785/10186 [4:33:27<2:17:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6786/10186 [4:33:28<2:17:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6786/10186 [4:33:28<2:17:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6787/10186 [4:33:29<2:16:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6787/10186 [4:33:29<2:16:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6788/10186 [4:33:35<2:16:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6788/10186 [4:33:35<2:16:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6789/10186 [4:33:36<2:16:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6789/10186 [4:33:36<2:16:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6790/10186 [4:33:37<2:16:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6790/10186 [4:33:37<2:16:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6791/10186 [4:33:38<2:16:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6791/10186 [4:33:38<2:16:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6792/10186 [4:33:45<2:16:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6792/10186 [4:33:45<2:16:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6793/10186 [4:33:46<2:16:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6793/10186 [4:33:46<2:16:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6794/10186 [4:33:47<2:16:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6794/10186 [4:33:47<2:16:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6795/10186 [4:33:48<2:16:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6795/10186 [4:33:48<2:16:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6796/10186 [4:33:54<2:16:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6796/10186 [4:33:54<2:16:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6797/10186 [4:33:55<2:16:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6797/10186 [4:33:55<2:16:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6798/10186 [4:33:56<2:16:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6798/10186 [4:33:56<2:16:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6799/10186 [4:33:57<2:16:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6799/10186 [4:33:57<2:16:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6800/10186 [4:34:04<2:16:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6800/10186 [4:34:04<2:16:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6801/10186 [4:34:05<2:16:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6801/10186 [4:34:05<2:16:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6802/10186 [4:34:06<2:16:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6802/10186 [4:34:06<2:16:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6803/10186 [4:34:07<2:16:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6803/10186 [4:34:07<2:16:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6804/10186 [4:34:13<2:16:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6804/10186 [4:34:13<2:16:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6805/10186 [4:34:15<2:16:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6805/10186 [4:34:15<2:16:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6806/10186 [4:34:16<2:16:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6806/10186 [4:34:16<2:16:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6807/10186 [4:34:17<2:16:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6807/10186 [4:34:17<2:16:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6808/10186 [4:34:23<2:16:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6808/10186 [4:34:23<2:16:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6809/10186 [4:34:24<2:16:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6809/10186 [4:34:24<2:16:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6810/10186 [4:34:25<2:16:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6810/10186 [4:34:25<2:16:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6811/10186 [4:34:26<2:15:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6811/10186 [4:34:26<2:15:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6812/10186 [4:34:33<2:15:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6812/10186 [4:34:33<2:15:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6813/10186 [4:34:34<2:15:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6813/10186 [4:34:34<2:15:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6814/10186 [4:34:35<2:15:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6814/10186 [4:34:35<2:15:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6815/10186 [4:34:36<2:15:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6815/10186 [4:34:36<2:15:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6816/10186 [4:34:42<2:15:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6816/10186 [4:34:42<2:15:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6817/10186 [4:34:43<2:15:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6817/10186 [4:34:43<2:15:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6818/10186 [4:34:44<2:15:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6818/10186 [4:34:44<2:15:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6819/10186 [4:34:45<2:15:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6819/10186 [4:34:45<2:15:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6820/10186 [4:34:52<2:15:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6820/10186 [4:34:52<2:15:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6821/10186 [4:34:53<2:15:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6821/10186 [4:34:53<2:15:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6822/10186 [4:34:54<2:15:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6822/10186 [4:34:54<2:15:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6823/10186 [4:34:55<2:15:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6823/10186 [4:34:55<2:15:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6824/10186 [4:35:01<2:15:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6824/10186 [4:35:01<2:15:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6825/10186 [4:35:02<2:15:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6825/10186 [4:35:02<2:15:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6826/10186 [4:35:03<2:15:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6826/10186 [4:35:03<2:15:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6827/10186 [4:35:04<2:15:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6827/10186 [4:35:04<2:15:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6828/10186 [4:35:11<2:15:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6828/10186 [4:35:11<2:15:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6829/10186 [4:35:12<2:15:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6829/10186 [4:35:12<2:15:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6830/10186 [4:35:13<2:15:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6830/10186 [4:35:13<2:15:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6831/10186 [4:35:14<2:15:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6831/10186 [4:35:14<2:15:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6832/10186 [4:35:21<2:15:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6832/10186 [4:35:21<2:15:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6833/10186 [4:35:22<2:15:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6833/10186 [4:35:22<2:15:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6834/10186 [4:35:23<2:15:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6834/10186 [4:35:23<2:15:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6835/10186 [4:35:24<2:15:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6835/10186 [4:35:24<2:15:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6836/10186 [4:35:30<2:15:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6836/10186 [4:35:30<2:15:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6837/10186 [4:35:31<2:14:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6837/10186 [4:35:31<2:14:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6838/10186 [4:35:32<2:14:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6838/10186 [4:35:32<2:14:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6839/10186 [4:35:33<2:14:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6839/10186 [4:35:33<2:14:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6840/10186 [4:35:40<2:14:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6840/10186 [4:35:40<2:14:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6841/10186 [4:35:41<2:14:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6841/10186 [4:35:41<2:14:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6842/10186 [4:35:42<2:14:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6842/10186 [4:35:42<2:14:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6843/10186 [4:35:43<2:14:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6843/10186 [4:35:43<2:14:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6844/10186 [4:35:49<2:14:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6844/10186 [4:35:49<2:14:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6845/10186 [4:35:50<2:14:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6845/10186 [4:35:50<2:14:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6846/10186 [4:35:51<2:14:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6846/10186 [4:35:51<2:14:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6847/10186 [4:35:52<2:14:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6847/10186 [4:35:52<2:14:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6848/10186 [4:35:59<2:14:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6848/10186 [4:35:59<2:14:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6849/10186 [4:36:00<2:14:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6849/10186 [4:36:00<2:14:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6850/10186 [4:36:01<2:14:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6850/10186 [4:36:01<2:14:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6851/10186 [4:36:02<2:14:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6851/10186 [4:36:02<2:14:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6852/10186 [4:36:08<2:14:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6852/10186 [4:36:08<2:14:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6853/10186 [4:36:09<2:14:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6853/10186 [4:36:09<2:14:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6854/10186 [4:36:10<2:14:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6854/10186 [4:36:10<2:14:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6855/10186 [4:36:11<2:14:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6855/10186 [4:36:11<2:14:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6856/10186 [4:36:18<2:14:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6856/10186 [4:36:18<2:14:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6857/10186 [4:36:19<2:14:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6857/10186 [4:36:19<2:14:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6858/10186 [4:36:20<2:14:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6858/10186 [4:36:20<2:14:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6859/10186 [4:36:21<2:14:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6859/10186 [4:36:21<2:14:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6860/10186 [4:36:28<2:14:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6860/10186 [4:36:28<2:14:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6861/10186 [4:36:29<2:13:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6861/10186 [4:36:29<2:13:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6862/10186 [4:36:30<2:13:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6862/10186 [4:36:30<2:13:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6863/10186 [4:36:31<2:13:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6863/10186 [4:36:31<2:13:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6864/10186 [4:36:37<2:13:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6864/10186 [4:36:37<2:13:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6865/10186 [4:36:38<2:13:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6865/10186 [4:36:38<2:13:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6866/10186 [4:36:39<2:13:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6866/10186 [4:36:39<2:13:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6867/10186 [4:36:40<2:13:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6867/10186 [4:36:40<2:13:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6868/10186 [4:36:47<2:13:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6868/10186 [4:36:47<2:13:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6869/10186 [4:36:48<2:13:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6869/10186 [4:36:48<2:13:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6870/10186 [4:36:49<2:13:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6870/10186 [4:36:49<2:13:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6871/10186 [4:36:50<2:13:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6871/10186 [4:36:50<2:13:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6872/10186 [4:36:56<2:13:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6872/10186 [4:36:56<2:13:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6873/10186 [4:36:57<2:13:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6873/10186 [4:36:57<2:13:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6874/10186 [4:36:58<2:13:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6874/10186 [4:36:58<2:13:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 6875/10186 [4:36:59<2:13:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  67%|▋| 6875/10186 [4:36:59<2:13:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6876/10186 [4:37:06<2:13:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6876/10186 [4:37:06<2:13:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6877/10186 [4:37:07<2:13:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6877/10186 [4:37:07<2:13:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6878/10186 [4:37:08<2:13:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6878/10186 [4:37:08<2:13:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6879/10186 [4:37:09<2:13:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6879/10186 [4:37:09<2:13:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6880/10186 [4:37:15<2:13:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6880/10186 [4:37:15<2:13:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6881/10186 [4:37:16<2:13:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6881/10186 [4:37:16<2:13:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6882/10186 [4:37:17<2:13:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6882/10186 [4:37:17<2:13:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6883/10186 [4:37:19<2:13:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6883/10186 [4:37:19<2:13:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6884/10186 [4:37:25<2:13:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6884/10186 [4:37:25<2:13:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6885/10186 [4:37:26<2:13:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6885/10186 [4:37:26<2:13:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6886/10186 [4:37:27<2:12:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6886/10186 [4:37:27<2:12:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6887/10186 [4:37:28<2:12:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6887/10186 [4:37:28<2:12:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6888/10186 [4:37:35<2:12:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6888/10186 [4:37:35<2:12:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6889/10186 [4:37:36<2:12:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6889/10186 [4:37:36<2:12:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6890/10186 [4:37:37<2:12:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6890/10186 [4:37:37<2:12:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6891/10186 [4:37:38<2:12:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6891/10186 [4:37:38<2:12:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6892/10186 [4:37:44<2:12:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6892/10186 [4:37:44<2:12:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6893/10186 [4:37:45<2:12:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6893/10186 [4:37:45<2:12:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6894/10186 [4:37:46<2:12:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6894/10186 [4:37:46<2:12:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6895/10186 [4:37:47<2:12:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6895/10186 [4:37:47<2:12:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6896/10186 [4:37:54<2:12:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6896/10186 [4:37:54<2:12:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6897/10186 [4:37:55<2:12:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6897/10186 [4:37:55<2:12:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6898/10186 [4:37:56<2:12:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6898/10186 [4:37:56<2:12:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6899/10186 [4:37:57<2:12:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6899/10186 [4:37:57<2:12:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6900/10186 [4:38:03<2:12:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6900/10186 [4:38:03<2:12:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6901/10186 [4:38:04<2:12:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6901/10186 [4:38:04<2:12:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6902/10186 [4:38:05<2:12:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6902/10186 [4:38:05<2:12:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6903/10186 [4:38:06<2:12:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6903/10186 [4:38:06<2:12:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6904/10186 [4:38:13<2:12:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6904/10186 [4:38:13<2:12:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6905/10186 [4:38:14<2:12:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6905/10186 [4:38:14<2:12:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6906/10186 [4:38:15<2:12:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6906/10186 [4:38:15<2:12:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6907/10186 [4:38:16<2:12:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6907/10186 [4:38:16<2:12:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6908/10186 [4:38:22<2:12:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6908/10186 [4:38:22<2:12:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6909/10186 [4:38:23<2:12:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6909/10186 [4:38:23<2:12:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6910/10186 [4:38:24<2:11:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6910/10186 [4:38:24<2:11:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6911/10186 [4:38:26<2:11:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6911/10186 [4:38:26<2:11:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6912/10186 [4:38:32<2:11:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6912/10186 [4:38:32<2:11:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6913/10186 [4:38:33<2:11:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6913/10186 [4:38:33<2:11:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6914/10186 [4:38:34<2:11:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6914/10186 [4:38:34<2:11:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6915/10186 [4:38:35<2:11:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6915/10186 [4:38:35<2:11:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6916/10186 [4:38:42<2:11:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6916/10186 [4:38:42<2:11:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6917/10186 [4:38:43<2:11:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6917/10186 [4:38:43<2:11:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6918/10186 [4:38:44<2:11:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6918/10186 [4:38:44<2:11:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6919/10186 [4:38:45<2:11:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6919/10186 [4:38:45<2:11:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6920/10186 [4:38:51<2:11:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6920/10186 [4:38:51<2:11:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6921/10186 [4:38:52<2:11:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6921/10186 [4:38:52<2:11:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6922/10186 [4:38:53<2:11:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6922/10186 [4:38:53<2:11:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6923/10186 [4:38:54<2:11:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6923/10186 [4:38:54<2:11:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6924/10186 [4:39:01<2:11:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6924/10186 [4:39:01<2:11:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6925/10186 [4:39:02<2:11:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6925/10186 [4:39:02<2:11:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6926/10186 [4:39:03<2:11:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6926/10186 [4:39:03<2:11:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6927/10186 [4:39:04<2:11:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6927/10186 [4:39:04<2:11:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6928/10186 [4:39:10<2:11:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6928/10186 [4:39:10<2:11:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6929/10186 [4:39:11<2:11:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6929/10186 [4:39:11<2:11:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6930/10186 [4:39:12<2:11:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6930/10186 [4:39:12<2:11:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6931/10186 [4:39:13<2:11:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6931/10186 [4:39:13<2:11:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6932/10186 [4:39:20<2:11:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6932/10186 [4:39:20<2:11:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6933/10186 [4:39:21<2:11:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6933/10186 [4:39:21<2:11:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6934/10186 [4:39:22<2:11:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6934/10186 [4:39:22<2:11:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6935/10186 [4:39:23<2:10:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6935/10186 [4:39:23<2:10:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6936/10186 [4:39:29<2:10:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6936/10186 [4:39:29<2:10:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6937/10186 [4:39:30<2:10:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6937/10186 [4:39:30<2:10:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6938/10186 [4:39:31<2:10:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6938/10186 [4:39:31<2:10:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6939/10186 [4:39:33<2:10:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6939/10186 [4:39:33<2:10:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6940/10186 [4:39:39<2:10:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6940/10186 [4:39:39<2:10:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6941/10186 [4:39:40<2:10:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6941/10186 [4:39:40<2:10:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6942/10186 [4:39:41<2:10:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6942/10186 [4:39:41<2:10:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6943/10186 [4:39:42<2:10:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6943/10186 [4:39:42<2:10:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6944/10186 [4:39:49<2:10:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6944/10186 [4:39:49<2:10:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6945/10186 [4:39:50<2:10:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6945/10186 [4:39:50<2:10:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6946/10186 [4:39:51<2:10:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6946/10186 [4:39:51<2:10:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6947/10186 [4:39:52<2:10:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6947/10186 [4:39:52<2:10:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6948/10186 [4:39:58<2:10:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6948/10186 [4:39:58<2:10:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6949/10186 [4:39:59<2:10:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6949/10186 [4:39:59<2:10:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6950/10186 [4:40:00<2:10:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6950/10186 [4:40:00<2:10:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6951/10186 [4:40:01<2:10:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6951/10186 [4:40:01<2:10:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6952/10186 [4:40:08<2:10:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6952/10186 [4:40:08<2:10:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6953/10186 [4:40:09<2:10:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6953/10186 [4:40:09<2:10:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6954/10186 [4:40:10<2:10:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6954/10186 [4:40:10<2:10:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6955/10186 [4:40:11<2:10:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6955/10186 [4:40:11<2:10:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6956/10186 [4:40:17<2:10:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6956/10186 [4:40:17<2:10:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6957/10186 [4:40:18<2:10:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6957/10186 [4:40:18<2:10:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6958/10186 [4:40:19<2:10:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6958/10186 [4:40:19<2:10:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6959/10186 [4:40:20<2:10:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6959/10186 [4:40:20<2:10:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6960/10186 [4:40:27<2:09:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6960/10186 [4:40:27<2:09:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6961/10186 [4:40:28<2:09:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6961/10186 [4:40:28<2:09:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6962/10186 [4:40:29<2:09:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6962/10186 [4:40:29<2:09:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6963/10186 [4:40:30<2:09:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6963/10186 [4:40:30<2:09:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6964/10186 [4:40:36<2:09:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6964/10186 [4:40:36<2:09:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6965/10186 [4:40:37<2:09:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6965/10186 [4:40:37<2:09:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6966/10186 [4:40:38<2:09:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6966/10186 [4:40:38<2:09:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6967/10186 [4:40:40<2:09:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6967/10186 [4:40:40<2:09:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6968/10186 [4:40:46<2:09:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6968/10186 [4:40:46<2:09:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6969/10186 [4:40:47<2:09:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6969/10186 [4:40:47<2:09:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6970/10186 [4:40:48<2:09:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6970/10186 [4:40:48<2:09:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6971/10186 [4:40:49<2:09:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6971/10186 [4:40:49<2:09:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6972/10186 [4:40:56<2:09:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6972/10186 [4:40:56<2:09:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6973/10186 [4:40:57<2:09:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6973/10186 [4:40:57<2:09:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6974/10186 [4:40:58<2:09:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6974/10186 [4:40:58<2:09:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6975/10186 [4:40:59<2:09:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6975/10186 [4:40:59<2:09:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6976/10186 [4:41:05<2:09:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6976/10186 [4:41:05<2:09:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 6977/10186 [4:41:06<2:09:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  68%|▋| 6977/10186 [4:41:06<2:09:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 6978/10186 [4:41:07<2:09:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 6978/10186 [4:41:07<2:09:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 6979/10186 [4:41:08<2:09:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 6979/10186 [4:41:08<2:09:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 6980/10186 [4:41:15<2:09:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 6980/10186 [4:41:15<2:09:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 6981/10186 [4:41:16<2:09:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 6981/10186 [4:41:16<2:09:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 6982/10186 [4:41:17<2:09:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 6982/10186 [4:41:17<2:09:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 6983/10186 [4:41:18<2:09:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 6983/10186 [4:41:18<2:09:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 6984/10186 [4:41:24<2:09:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 6984/10186 [4:41:24<2:09:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 6985/10186 [4:41:25<2:08:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 6985/10186 [4:41:25<2:08:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 6986/10186 [4:41:26<2:08:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 6986/10186 [4:41:26<2:08:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 6987/10186 [4:41:27<2:08:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 6987/10186 [4:41:27<2:08:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 6988/10186 [4:41:34<2:08:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 6988/10186 [4:41:34<2:08:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 6989/10186 [4:41:35<2:08:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 6989/10186 [4:41:35<2:08:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 6990/10186 [4:41:36<2:08:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 6990/10186 [4:41:36<2:08:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 6991/10186 [4:41:37<2:08:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 6991/10186 [4:41:37<2:08:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 6992/10186 [4:41:43<2:08:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 6992/10186 [4:41:43<2:08:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 6993/10186 [4:41:44<2:08:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 6993/10186 [4:41:44<2:08:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 6994/10186 [4:41:45<2:08:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 6994/10186 [4:41:45<2:08:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 6995/10186 [4:41:47<2:08:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 6995/10186 [4:41:47<2:08:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 6996/10186 [4:41:53<2:08:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 6996/10186 [4:41:53<2:08:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 6997/10186 [4:41:54<2:08:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 6997/10186 [4:41:54<2:08:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 6998/10186 [4:41:55<2:08:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 6998/10186 [4:41:55<2:08:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 6999/10186 [4:41:56<2:08:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 6999/10186 [4:41:56<2:08:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7000/10186 [4:42:03<2:08:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 7000/10186 [4:42:03<2:08:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7001/10186 [4:42:29<2:08:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 7001/10186 [4:42:29<2:08:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7002/10186 [4:42:30<2:08:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 7002/10186 [4:42:30<2:08:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7003/10186 [4:42:31<2:08:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 7003/10186 [4:42:31<2:08:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7004/10186 [4:42:37<2:08:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 7004/10186 [4:42:37<2:08:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7005/10186 [4:42:38<2:08:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 7005/10186 [4:42:38<2:08:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7006/10186 [4:42:39<2:08:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 7006/10186 [4:42:39<2:08:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7007/10186 [4:42:40<2:08:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 7007/10186 [4:42:40<2:08:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7008/10186 [4:42:47<2:08:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 7008/10186 [4:42:47<2:08:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7009/10186 [4:42:48<2:08:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 7009/10186 [4:42:48<2:08:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7010/10186 [4:42:49<2:08:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 7010/10186 [4:42:49<2:08:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7011/10186 [4:42:50<2:08:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 7011/10186 [4:42:50<2:08:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7012/10186 [4:42:56<2:08:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 7012/10186 [4:42:56<2:08:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7013/10186 [4:42:57<2:08:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 7013/10186 [4:42:57<2:08:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7014/10186 [4:42:58<2:07:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 7014/10186 [4:42:58<2:07:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7015/10186 [4:42:59<2:07:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7015/10186 [4:42:59<2:07:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7016/10186 [4:43:06<2:07:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 7016/10186 [4:43:06<2:07:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7017/10186 [4:43:07<2:07:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 7017/10186 [4:43:07<2:07:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7018/10186 [4:43:08<2:07:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 7018/10186 [4:43:08<2:07:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7019/10186 [4:43:09<2:07:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 7019/10186 [4:43:09<2:07:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7020/10186 [4:43:15<2:07:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 7020/10186 [4:43:15<2:07:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7021/10186 [4:43:16<2:07:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 7021/10186 [4:43:16<2:07:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7022/10186 [4:43:18<2:07:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 7022/10186 [4:43:18<2:07:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7023/10186 [4:43:19<2:07:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 7023/10186 [4:43:19<2:07:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7024/10186 [4:43:25<2:07:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 7024/10186 [4:43:25<2:07:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7025/10186 [4:43:26<2:07:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 7025/10186 [4:43:26<2:07:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7026/10186 [4:43:27<2:07:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 7026/10186 [4:43:27<2:07:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7027/10186 [4:43:28<2:07:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 7027/10186 [4:43:28<2:07:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7028/10186 [4:43:35<2:07:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 7028/10186 [4:43:35<2:07:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7029/10186 [4:43:36<2:07:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 7029/10186 [4:43:36<2:07:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7030/10186 [4:43:37<2:07:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 7030/10186 [4:43:37<2:07:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7031/10186 [4:43:38<2:07:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 7031/10186 [4:43:38<2:07:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7032/10186 [4:43:44<2:07:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 7032/10186 [4:43:44<2:07:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7033/10186 [4:43:45<2:07:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 7033/10186 [4:43:45<2:07:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7034/10186 [4:43:46<2:07:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 7034/10186 [4:43:46<2:07:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7035/10186 [4:43:47<2:07:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 7035/10186 [4:43:47<2:07:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7036/10186 [4:43:54<2:07:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 7036/10186 [4:43:54<2:07:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7037/10186 [4:43:55<2:07:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 7037/10186 [4:43:55<2:07:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7038/10186 [4:43:56<2:07:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 7038/10186 [4:43:56<2:07:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7039/10186 [4:43:57<2:06:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 7039/10186 [4:43:57<2:06:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7040/10186 [4:44:03<2:06:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 7040/10186 [4:44:03<2:06:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7041/10186 [4:44:04<2:06:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 7041/10186 [4:44:04<2:06:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7042/10186 [4:44:05<2:06:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 7042/10186 [4:44:05<2:06:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7043/10186 [4:44:06<2:06:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 7043/10186 [4:44:06<2:06:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7044/10186 [4:44:13<2:06:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 7044/10186 [4:44:13<2:06:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7045/10186 [4:44:14<2:06:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 7045/10186 [4:44:14<2:06:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7046/10186 [4:44:15<2:06:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 7046/10186 [4:44:15<2:06:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7047/10186 [4:44:16<2:06:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 7047/10186 [4:44:16<2:06:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7048/10186 [4:44:22<2:06:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 7048/10186 [4:44:22<2:06:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7049/10186 [4:44:23<2:06:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 7049/10186 [4:44:23<2:06:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7050/10186 [4:44:25<2:06:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 7050/10186 [4:44:25<2:06:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7051/10186 [4:44:26<2:06:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 7051/10186 [4:44:26<2:06:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7052/10186 [4:44:32<2:06:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 7052/10186 [4:44:32<2:06:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7053/10186 [4:44:33<2:06:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 7053/10186 [4:44:33<2:06:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7054/10186 [4:44:34<2:06:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 7054/10186 [4:44:34<2:06:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7055/10186 [4:44:35<2:06:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 7055/10186 [4:44:35<2:06:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7056/10186 [4:44:42<2:06:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 7056/10186 [4:44:42<2:06:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7057/10186 [4:44:43<2:06:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 7057/10186 [4:44:43<2:06:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7058/10186 [4:44:44<2:06:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 7058/10186 [4:44:44<2:06:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7059/10186 [4:44:45<2:06:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 7059/10186 [4:44:45<2:06:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7060/10186 [4:44:51<2:06:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 7060/10186 [4:44:51<2:06:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7061/10186 [4:44:52<2:06:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 7061/10186 [4:44:52<2:06:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7062/10186 [4:44:53<2:06:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 7062/10186 [4:44:53<2:06:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7063/10186 [4:44:54<2:05:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 7063/10186 [4:44:54<2:05:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7064/10186 [4:45:01<2:05:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7064/10186 [4:45:01<2:05:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7065/10186 [4:45:02<2:05:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 7065/10186 [4:45:02<2:05:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7066/10186 [4:45:03<2:05:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 7066/10186 [4:45:03<2:05:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7067/10186 [4:45:04<2:05:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 7067/10186 [4:45:04<2:05:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7068/10186 [4:45:10<2:05:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 7068/10186 [4:45:10<2:05:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7069/10186 [4:45:11<2:05:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 7069/10186 [4:45:11<2:05:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7070/10186 [4:45:12<2:05:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 7070/10186 [4:45:12<2:05:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7071/10186 [4:45:13<2:05:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 7071/10186 [4:45:13<2:05:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7072/10186 [4:45:20<2:05:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 7072/10186 [4:45:20<2:05:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7073/10186 [4:45:21<2:05:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7073/10186 [4:45:21<2:05:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7074/10186 [4:45:22<2:05:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 7074/10186 [4:45:22<2:05:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7075/10186 [4:45:23<2:05:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 7075/10186 [4:45:23<2:05:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7076/10186 [4:45:29<2:05:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 7076/10186 [4:45:29<2:05:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7077/10186 [4:45:31<2:05:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 7077/10186 [4:45:31<2:05:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7078/10186 [4:45:32<2:05:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 7078/10186 [4:45:32<2:05:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 7079/10186 [4:45:33<2:05:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  69%|▋| 7079/10186 [4:45:33<2:05:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7080/10186 [4:45:39<2:05:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7080/10186 [4:45:39<2:05:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7081/10186 [4:45:40<2:05:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7081/10186 [4:45:40<2:05:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7082/10186 [4:45:41<2:05:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7082/10186 [4:45:41<2:05:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7083/10186 [4:45:42<2:05:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7083/10186 [4:45:42<2:05:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7084/10186 [4:45:49<2:05:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7084/10186 [4:45:49<2:05:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7085/10186 [4:45:50<2:05:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7085/10186 [4:45:50<2:05:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7086/10186 [4:45:51<2:05:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7086/10186 [4:45:51<2:05:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7087/10186 [4:45:52<2:05:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7087/10186 [4:45:52<2:05:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7088/10186 [4:45:58<2:04:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7088/10186 [4:45:58<2:04:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7089/10186 [4:45:59<2:04:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7089/10186 [4:45:59<2:04:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7090/10186 [4:46:00<2:04:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7090/10186 [4:46:00<2:04:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7091/10186 [4:46:01<2:04:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7091/10186 [4:46:01<2:04:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7092/10186 [4:46:08<2:04:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7092/10186 [4:46:08<2:04:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7093/10186 [4:46:09<2:04:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7093/10186 [4:46:09<2:04:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7094/10186 [4:46:10<2:04:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7094/10186 [4:46:10<2:04:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7095/10186 [4:46:11<2:04:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7095/10186 [4:46:11<2:04:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7096/10186 [4:46:17<2:04:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7096/10186 [4:46:17<2:04:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7097/10186 [4:46:18<2:04:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7097/10186 [4:46:18<2:04:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7098/10186 [4:46:19<2:04:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7098/10186 [4:46:19<2:04:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7099/10186 [4:46:20<2:04:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7099/10186 [4:46:20<2:04:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7100/10186 [4:46:27<2:04:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7100/10186 [4:46:27<2:04:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7101/10186 [4:46:28<2:04:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7101/10186 [4:46:28<2:04:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7102/10186 [4:46:29<2:04:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7102/10186 [4:46:29<2:04:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7103/10186 [4:46:30<2:04:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7103/10186 [4:46:30<2:04:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7104/10186 [4:46:36<2:04:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7104/10186 [4:46:36<2:04:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7105/10186 [4:46:37<2:04:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7105/10186 [4:46:37<2:04:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7106/10186 [4:46:39<2:04:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7106/10186 [4:46:39<2:04:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7107/10186 [4:46:40<2:04:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7107/10186 [4:46:40<2:04:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7108/10186 [4:46:46<2:04:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7108/10186 [4:46:46<2:04:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7109/10186 [4:46:47<2:04:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7109/10186 [4:46:47<2:04:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7110/10186 [4:46:48<2:04:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7110/10186 [4:46:48<2:04:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7111/10186 [4:46:49<2:04:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7111/10186 [4:46:49<2:04:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7112/10186 [4:46:56<2:04:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7112/10186 [4:46:56<2:04:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7113/10186 [4:46:57<2:03:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7113/10186 [4:46:57<2:03:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7114/10186 [4:46:58<2:03:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7114/10186 [4:46:58<2:03:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7115/10186 [4:46:59<2:03:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7115/10186 [4:46:59<2:03:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7116/10186 [4:47:05<2:03:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7116/10186 [4:47:05<2:03:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7117/10186 [4:47:06<2:03:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7117/10186 [4:47:06<2:03:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7118/10186 [4:47:07<2:03:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7118/10186 [4:47:07<2:03:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7119/10186 [4:47:08<2:03:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7119/10186 [4:47:08<2:03:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7120/10186 [4:47:15<2:03:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7120/10186 [4:47:15<2:03:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7121/10186 [4:47:16<2:03:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7121/10186 [4:47:16<2:03:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7122/10186 [4:47:17<2:03:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7122/10186 [4:47:17<2:03:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7123/10186 [4:47:18<2:03:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7123/10186 [4:47:18<2:03:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7124/10186 [4:47:24<2:03:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7124/10186 [4:47:24<2:03:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7125/10186 [4:47:25<2:03:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7125/10186 [4:47:25<2:03:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7126/10186 [4:47:26<2:03:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7126/10186 [4:47:26<2:03:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7127/10186 [4:47:27<2:03:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7127/10186 [4:47:27<2:03:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7128/10186 [4:47:34<2:03:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7128/10186 [4:47:34<2:03:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7129/10186 [4:47:35<2:03:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7129/10186 [4:47:35<2:03:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7130/10186 [4:47:36<2:03:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7130/10186 [4:47:36<2:03:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7131/10186 [4:47:37<2:03:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7131/10186 [4:47:37<2:03:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7132/10186 [4:47:43<2:03:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7132/10186 [4:47:43<2:03:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7133/10186 [4:47:44<2:03:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7133/10186 [4:47:44<2:03:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7134/10186 [4:47:45<2:03:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7134/10186 [4:47:45<2:03:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7135/10186 [4:47:47<2:03:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7135/10186 [4:47:47<2:03:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7136/10186 [4:47:53<2:03:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7136/10186 [4:47:53<2:03:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7137/10186 [4:47:54<2:02:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7137/10186 [4:47:54<2:02:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7138/10186 [4:47:55<2:02:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7138/10186 [4:47:55<2:02:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7139/10186 [4:47:56<2:02:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7139/10186 [4:47:56<2:02:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7140/10186 [4:48:03<2:02:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7140/10186 [4:48:03<2:02:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7141/10186 [4:48:04<2:02:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7141/10186 [4:48:04<2:02:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7142/10186 [4:48:05<2:02:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7142/10186 [4:48:05<2:02:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7143/10186 [4:48:06<2:02:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7143/10186 [4:48:06<2:02:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7144/10186 [4:48:12<2:02:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7144/10186 [4:48:12<2:02:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7145/10186 [4:48:13<2:02:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7145/10186 [4:48:13<2:02:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7146/10186 [4:48:14<2:02:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7146/10186 [4:48:14<2:02:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7147/10186 [4:48:15<2:02:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7147/10186 [4:48:15<2:02:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7148/10186 [4:48:22<2:02:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7148/10186 [4:48:22<2:02:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7149/10186 [4:48:23<2:02:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7149/10186 [4:48:23<2:02:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7150/10186 [4:48:24<2:02:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7150/10186 [4:48:24<2:02:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7151/10186 [4:48:25<2:02:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7151/10186 [4:48:25<2:02:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7152/10186 [4:48:31<2:02:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7152/10186 [4:48:31<2:02:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7153/10186 [4:48:32<2:02:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7153/10186 [4:48:32<2:02:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7154/10186 [4:48:33<2:02:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7154/10186 [4:48:33<2:02:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7155/10186 [4:48:34<2:02:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7155/10186 [4:48:34<2:02:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7156/10186 [4:48:41<2:02:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7156/10186 [4:48:41<2:02:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7157/10186 [4:48:42<2:02:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7157/10186 [4:48:42<2:02:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7158/10186 [4:48:43<2:02:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7158/10186 [4:48:43<2:02:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7159/10186 [4:48:44<2:02:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7159/10186 [4:48:44<2:02:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7160/10186 [4:48:50<2:02:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7160/10186 [4:48:50<2:02:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7161/10186 [4:48:51<2:02:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7161/10186 [4:48:51<2:02:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7162/10186 [4:48:53<2:01:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7162/10186 [4:48:53<2:01:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7163/10186 [4:48:54<2:01:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7163/10186 [4:48:54<2:01:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7164/10186 [4:49:00<2:01:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7164/10186 [4:49:00<2:01:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7165/10186 [4:49:01<2:01:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7165/10186 [4:49:01<2:01:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7166/10186 [4:49:02<2:01:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7166/10186 [4:49:02<2:01:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7167/10186 [4:49:03<2:01:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7167/10186 [4:49:03<2:01:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7168/10186 [4:49:10<2:01:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7168/10186 [4:49:10<2:01:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7169/10186 [4:49:11<2:01:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7169/10186 [4:49:11<2:01:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7170/10186 [4:49:12<2:01:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7170/10186 [4:49:12<2:01:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7171/10186 [4:49:13<2:01:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7171/10186 [4:49:13<2:01:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7172/10186 [4:49:19<2:01:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7172/10186 [4:49:19<2:01:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7173/10186 [4:49:20<2:01:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7173/10186 [4:49:20<2:01:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7174/10186 [4:49:21<2:01:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7174/10186 [4:49:21<2:01:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7175/10186 [4:49:22<2:01:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7175/10186 [4:49:22<2:01:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7176/10186 [4:49:29<2:01:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7176/10186 [4:49:29<2:01:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7177/10186 [4:49:30<2:01:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7177/10186 [4:49:30<2:01:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7178/10186 [4:49:31<2:01:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7178/10186 [4:49:31<2:01:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7179/10186 [4:49:32<2:01:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7179/10186 [4:49:32<2:01:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7180/10186 [4:49:38<2:01:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  70%|▋| 7180/10186 [4:49:38<2:01:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7181/10186 [4:49:39<2:01:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 7181/10186 [4:49:39<2:01:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7182/10186 [4:49:40<2:01:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7182/10186 [4:49:40<2:01:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7183/10186 [4:49:41<2:01:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7183/10186 [4:49:41<2:01:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7184/10186 [4:49:48<2:01:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7184/10186 [4:49:48<2:01:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7185/10186 [4:49:49<2:01:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7185/10186 [4:49:49<2:01:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7186/10186 [4:49:50<2:01:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7186/10186 [4:49:50<2:01:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7187/10186 [4:49:51<2:00:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7187/10186 [4:49:51<2:00:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7188/10186 [4:49:57<2:00:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7188/10186 [4:49:57<2:00:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7189/10186 [4:49:58<2:00:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7189/10186 [4:49:58<2:00:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7190/10186 [4:49:59<2:00:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7190/10186 [4:49:59<2:00:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7191/10186 [4:50:01<2:00:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7191/10186 [4:50:01<2:00:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7192/10186 [4:50:07<2:00:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7192/10186 [4:50:07<2:00:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7193/10186 [4:50:08<2:00:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7193/10186 [4:50:08<2:00:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7194/10186 [4:50:09<2:00:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7194/10186 [4:50:09<2:00:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7195/10186 [4:50:10<2:00:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7195/10186 [4:50:10<2:00:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7196/10186 [4:50:17<2:00:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7196/10186 [4:50:17<2:00:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7197/10186 [4:50:18<2:00:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7197/10186 [4:50:18<2:00:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7198/10186 [4:50:19<2:00:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7198/10186 [4:50:19<2:00:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7199/10186 [4:50:20<2:00:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7199/10186 [4:50:20<2:00:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7200/10186 [4:50:26<2:00:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7200/10186 [4:50:26<2:00:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7201/10186 [4:50:27<2:00:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7201/10186 [4:50:27<2:00:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7202/10186 [4:50:28<2:00:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7202/10186 [4:50:28<2:00:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7203/10186 [4:50:29<2:00:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7203/10186 [4:50:29<2:00:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7204/10186 [4:50:36<2:00:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7204/10186 [4:50:36<2:00:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7205/10186 [4:50:37<2:00:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7205/10186 [4:50:37<2:00:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7206/10186 [4:50:38<2:00:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7206/10186 [4:50:38<2:00:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7207/10186 [4:50:39<2:00:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7207/10186 [4:50:39<2:00:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7208/10186 [4:50:45<2:00:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7208/10186 [4:50:45<2:00:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7209/10186 [4:50:46<2:00:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7209/10186 [4:50:46<2:00:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7210/10186 [4:50:47<2:00:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7210/10186 [4:50:47<2:00:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7211/10186 [4:50:48<1:59:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7211/10186 [4:50:48<1:59:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7212/10186 [4:50:55<1:59:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7212/10186 [4:50:55<1:59:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7213/10186 [4:50:56<1:59:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7213/10186 [4:50:56<1:59:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7214/10186 [4:50:57<1:59:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7214/10186 [4:50:57<1:59:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7215/10186 [4:50:58<1:59:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7215/10186 [4:50:58<1:59:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7216/10186 [4:51:04<1:59:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7216/10186 [4:51:04<1:59:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7217/10186 [4:51:05<1:59:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7217/10186 [4:51:05<1:59:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7218/10186 [4:51:07<1:59:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7218/10186 [4:51:07<1:59:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7219/10186 [4:51:08<1:59:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7219/10186 [4:51:08<1:59:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7220/10186 [4:51:14<1:59:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7220/10186 [4:51:14<1:59:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7221/10186 [4:51:15<1:59:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7221/10186 [4:51:15<1:59:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7222/10186 [4:51:16<1:59:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7222/10186 [4:51:16<1:59:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7223/10186 [4:51:17<1:59:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7223/10186 [4:51:17<1:59:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7224/10186 [4:51:24<1:59:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7224/10186 [4:51:24<1:59:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7225/10186 [4:51:25<1:59:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7225/10186 [4:51:25<1:59:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7226/10186 [4:51:26<1:59:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7226/10186 [4:51:26<1:59:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7227/10186 [4:51:27<1:59:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7227/10186 [4:51:27<1:59:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7228/10186 [4:51:33<1:59:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7228/10186 [4:51:33<1:59:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7229/10186 [4:51:34<1:59:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7229/10186 [4:51:34<1:59:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7230/10186 [4:51:35<1:59:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7230/10186 [4:51:35<1:59:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7231/10186 [4:51:36<1:59:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7231/10186 [4:51:36<1:59:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7232/10186 [4:51:43<1:59:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7232/10186 [4:51:43<1:59:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7233/10186 [4:51:44<1:59:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7233/10186 [4:51:44<1:59:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7234/10186 [4:51:45<1:59:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7234/10186 [4:51:45<1:59:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7235/10186 [4:51:46<1:59:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7235/10186 [4:51:46<1:59:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7236/10186 [4:51:52<1:58:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7236/10186 [4:51:52<1:58:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7237/10186 [4:51:53<1:58:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7237/10186 [4:51:53<1:58:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7238/10186 [4:51:54<1:58:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7238/10186 [4:51:54<1:58:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7239/10186 [4:51:55<1:58:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7239/10186 [4:51:55<1:58:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7240/10186 [4:52:02<1:58:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7240/10186 [4:52:02<1:58:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7241/10186 [4:52:03<1:58:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7241/10186 [4:52:03<1:58:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7242/10186 [4:52:04<1:58:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7242/10186 [4:52:04<1:58:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7243/10186 [4:52:05<1:58:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7243/10186 [4:52:05<1:58:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7244/10186 [4:52:11<1:58:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7244/10186 [4:52:11<1:58:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7245/10186 [4:52:13<1:58:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7245/10186 [4:52:13<1:58:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7246/10186 [4:52:14<1:58:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7246/10186 [4:52:14<1:58:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7247/10186 [4:52:15<1:58:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7247/10186 [4:52:15<1:58:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7248/10186 [4:52:21<1:58:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7248/10186 [4:52:21<1:58:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7249/10186 [4:52:22<1:58:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7249/10186 [4:52:22<1:58:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7250/10186 [4:52:23<1:58:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7250/10186 [4:52:23<1:58:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7251/10186 [4:52:24<1:58:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7251/10186 [4:52:24<1:58:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7252/10186 [4:52:31<1:58:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7252/10186 [4:52:31<1:58:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7253/10186 [4:52:32<1:58:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7253/10186 [4:52:32<1:58:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7254/10186 [4:52:33<1:58:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7254/10186 [4:52:33<1:58:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7255/10186 [4:52:34<1:58:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7255/10186 [4:52:34<1:58:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7256/10186 [4:52:40<1:58:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7256/10186 [4:52:40<1:58:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7257/10186 [4:52:41<1:58:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7257/10186 [4:52:41<1:58:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7258/10186 [4:52:42<1:58:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7258/10186 [4:52:42<1:58:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7259/10186 [4:52:43<1:58:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7259/10186 [4:52:43<1:58:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7260/10186 [4:52:50<1:58:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7260/10186 [4:52:50<1:58:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7261/10186 [4:52:51<1:57:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7261/10186 [4:52:51<1:57:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7262/10186 [4:52:52<1:57:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7262/10186 [4:52:52<1:57:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7263/10186 [4:52:53<1:57:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7263/10186 [4:52:53<1:57:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7264/10186 [4:52:59<1:57:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7264/10186 [4:52:59<1:57:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7265/10186 [4:53:00<1:57:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7265/10186 [4:53:00<1:57:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7266/10186 [4:53:01<1:57:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7266/10186 [4:53:01<1:57:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7267/10186 [4:53:02<1:57:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7267/10186 [4:53:02<1:57:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7268/10186 [4:53:09<1:57:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7268/10186 [4:53:09<1:57:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7269/10186 [4:53:10<1:57:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7269/10186 [4:53:10<1:57:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7270/10186 [4:53:11<1:57:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7270/10186 [4:53:11<1:57:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7271/10186 [4:53:12<1:57:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7271/10186 [4:53:12<1:57:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7272/10186 [4:53:18<1:57:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7272/10186 [4:53:18<1:57:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7273/10186 [4:53:19<1:57:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7273/10186 [4:53:19<1:57:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7274/10186 [4:53:21<1:57:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7274/10186 [4:53:21<1:57:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7275/10186 [4:53:22<1:57:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7275/10186 [4:53:22<1:57:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7276/10186 [4:53:28<1:57:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7276/10186 [4:53:28<1:57:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7277/10186 [4:53:29<1:57:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7277/10186 [4:53:29<1:57:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7278/10186 [4:53:30<1:57:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7278/10186 [4:53:30<1:57:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7279/10186 [4:53:31<1:57:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7279/10186 [4:53:31<1:57:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7280/10186 [4:53:38<1:57:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7280/10186 [4:53:38<1:57:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7281/10186 [4:53:39<1:57:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7281/10186 [4:53:39<1:57:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 7282/10186 [4:53:40<1:57:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  71%|▋| 7282/10186 [4:53:40<1:57:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7283/10186 [4:53:41<1:57:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7283/10186 [4:53:41<1:57:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7284/10186 [4:53:47<1:57:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7284/10186 [4:53:47<1:57:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7285/10186 [4:53:48<1:57:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7285/10186 [4:53:48<1:57:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7286/10186 [4:53:49<1:56:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7286/10186 [4:53:49<1:56:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7287/10186 [4:53:50<1:56:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7287/10186 [4:53:50<1:56:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7288/10186 [4:53:57<1:56:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7288/10186 [4:53:57<1:56:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7289/10186 [4:53:58<1:56:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7289/10186 [4:53:58<1:56:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7290/10186 [4:53:59<1:56:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7290/10186 [4:53:59<1:56:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7291/10186 [4:54:00<1:56:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7291/10186 [4:54:00<1:56:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7292/10186 [4:54:06<1:56:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7292/10186 [4:54:06<1:56:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7293/10186 [4:54:07<1:56:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7293/10186 [4:54:07<1:56:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7294/10186 [4:54:08<1:56:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7294/10186 [4:54:08<1:56:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7295/10186 [4:54:09<1:56:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7295/10186 [4:54:09<1:56:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7296/10186 [4:54:16<1:56:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7296/10186 [4:54:16<1:56:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7297/10186 [4:54:17<1:56:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7297/10186 [4:54:17<1:56:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7298/10186 [4:54:18<1:56:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7298/10186 [4:54:18<1:56:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7299/10186 [4:54:19<1:56:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7299/10186 [4:54:19<1:56:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7300/10186 [4:54:25<1:56:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7300/10186 [4:54:25<1:56:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7301/10186 [4:54:26<1:56:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7301/10186 [4:54:26<1:56:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7302/10186 [4:54:28<1:56:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7302/10186 [4:54:28<1:56:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7303/10186 [4:54:29<1:56:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7303/10186 [4:54:29<1:56:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7304/10186 [4:54:35<1:56:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7304/10186 [4:54:35<1:56:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7305/10186 [4:54:36<1:56:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7305/10186 [4:54:36<1:56:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7306/10186 [4:54:37<1:56:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7306/10186 [4:54:37<1:56:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7307/10186 [4:54:38<1:56:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7307/10186 [4:54:38<1:56:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7308/10186 [4:54:45<1:56:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7308/10186 [4:54:45<1:56:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7309/10186 [4:54:46<1:56:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7309/10186 [4:54:46<1:56:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7310/10186 [4:54:47<1:55:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7310/10186 [4:54:47<1:55:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7311/10186 [4:54:48<1:55:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7311/10186 [4:54:48<1:55:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7312/10186 [4:54:54<1:55:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7312/10186 [4:54:54<1:55:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7313/10186 [4:54:55<1:55:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7313/10186 [4:54:55<1:55:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7314/10186 [4:54:56<1:55:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7314/10186 [4:54:56<1:55:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7315/10186 [4:54:57<1:55:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7315/10186 [4:54:57<1:55:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7316/10186 [4:55:04<1:55:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7316/10186 [4:55:04<1:55:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7317/10186 [4:55:05<1:55:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7317/10186 [4:55:05<1:55:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7318/10186 [4:55:06<1:55:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7318/10186 [4:55:06<1:55:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7319/10186 [4:55:07<1:55:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7319/10186 [4:55:07<1:55:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7320/10186 [4:55:13<1:55:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7320/10186 [4:55:13<1:55:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7321/10186 [4:55:14<1:55:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7321/10186 [4:55:14<1:55:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7322/10186 [4:55:15<1:55:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7322/10186 [4:55:15<1:55:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7323/10186 [4:55:16<1:55:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7323/10186 [4:55:16<1:55:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7324/10186 [4:55:23<1:55:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7324/10186 [4:55:23<1:55:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7325/10186 [4:55:24<1:55:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7325/10186 [4:55:24<1:55:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7326/10186 [4:55:25<1:55:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7326/10186 [4:55:25<1:55:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7327/10186 [4:55:26<1:55:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7327/10186 [4:55:26<1:55:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7328/10186 [4:55:32<1:55:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7328/10186 [4:55:32<1:55:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7329/10186 [4:55:33<1:55:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7329/10186 [4:55:33<1:55:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7330/10186 [4:55:35<1:55:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7330/10186 [4:55:35<1:55:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7331/10186 [4:55:36<1:55:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7331/10186 [4:55:36<1:55:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7332/10186 [4:55:42<1:55:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7332/10186 [4:55:42<1:55:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7333/10186 [4:55:43<1:55:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7333/10186 [4:55:43<1:55:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7334/10186 [4:55:44<1:55:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7334/10186 [4:55:44<1:55:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7335/10186 [4:55:45<1:54:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7335/10186 [4:55:45<1:54:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7336/10186 [4:55:52<1:54:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7336/10186 [4:55:52<1:54:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7337/10186 [4:55:53<1:54:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7337/10186 [4:55:53<1:54:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7338/10186 [4:55:54<1:54:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7338/10186 [4:55:54<1:54:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7339/10186 [4:55:55<1:54:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7339/10186 [4:55:55<1:54:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7340/10186 [4:56:01<1:54:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7340/10186 [4:56:01<1:54:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7341/10186 [4:56:02<1:54:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7341/10186 [4:56:02<1:54:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7342/10186 [4:56:03<1:54:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7342/10186 [4:56:03<1:54:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7343/10186 [4:56:04<1:54:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7343/10186 [4:56:04<1:54:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7344/10186 [4:56:11<1:54:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7344/10186 [4:56:11<1:54:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7345/10186 [4:56:12<1:54:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7345/10186 [4:56:12<1:54:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7346/10186 [4:56:13<1:54:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7346/10186 [4:56:13<1:54:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7347/10186 [4:56:14<1:54:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7347/10186 [4:56:14<1:54:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7348/10186 [4:56:20<1:54:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7348/10186 [4:56:20<1:54:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7349/10186 [4:56:21<1:54:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7349/10186 [4:56:21<1:54:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7350/10186 [4:56:22<1:54:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7350/10186 [4:56:22<1:54:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7351/10186 [4:56:23<1:54:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7351/10186 [4:56:23<1:54:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7352/10186 [4:56:30<1:54:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7352/10186 [4:56:30<1:54:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7353/10186 [4:56:31<1:54:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7353/10186 [4:56:31<1:54:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7354/10186 [4:56:32<1:54:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7354/10186 [4:56:32<1:54:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7355/10186 [4:56:33<1:54:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7355/10186 [4:56:33<1:54:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7356/10186 [4:56:39<1:54:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7356/10186 [4:56:39<1:54:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7357/10186 [4:56:41<1:54:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7357/10186 [4:56:41<1:54:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7358/10186 [4:56:42<1:54:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7358/10186 [4:56:42<1:54:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7359/10186 [4:56:43<1:53:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7359/10186 [4:56:43<1:53:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7360/10186 [4:56:49<1:53:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7360/10186 [4:56:49<1:53:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7361/10186 [4:56:50<1:53:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7361/10186 [4:56:50<1:53:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7362/10186 [4:56:51<1:53:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7362/10186 [4:56:51<1:53:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7363/10186 [4:56:52<1:53:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7363/10186 [4:56:52<1:53:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7364/10186 [4:56:59<1:53:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7364/10186 [4:56:59<1:53:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7365/10186 [4:57:00<1:53:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7365/10186 [4:57:00<1:53:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7366/10186 [4:57:01<1:53:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7366/10186 [4:57:01<1:53:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7367/10186 [4:57:02<1:53:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7367/10186 [4:57:02<1:53:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7368/10186 [4:57:08<1:53:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7368/10186 [4:57:08<1:53:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7369/10186 [4:57:09<1:53:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7369/10186 [4:57:09<1:53:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7370/10186 [4:57:10<1:53:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7370/10186 [4:57:10<1:53:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7371/10186 [4:57:11<1:53:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7371/10186 [4:57:11<1:53:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7372/10186 [4:57:18<1:53:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7372/10186 [4:57:18<1:53:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7373/10186 [4:57:19<1:53:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7373/10186 [4:57:19<1:53:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7374/10186 [4:57:20<1:53:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7374/10186 [4:57:20<1:53:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7375/10186 [4:57:21<1:53:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7375/10186 [4:57:21<1:53:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7376/10186 [4:57:27<1:53:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7376/10186 [4:57:27<1:53:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7377/10186 [4:57:28<1:53:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7377/10186 [4:57:28<1:53:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7378/10186 [4:57:29<1:53:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7378/10186 [4:57:29<1:53:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7379/10186 [4:57:30<1:53:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7379/10186 [4:57:30<1:53:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7380/10186 [4:57:37<1:53:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7380/10186 [4:57:37<1:53:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7381/10186 [4:57:38<1:53:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7381/10186 [4:57:38<1:53:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7382/10186 [4:57:39<1:53:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7382/10186 [4:57:39<1:53:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7383/10186 [4:57:40<1:53:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7383/10186 [4:57:40<1:53:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 7384/10186 [4:57:46<1:52:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  72%|▋| 7384/10186 [4:57:46<1:52:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7385/10186 [4:57:47<1:52:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7385/10186 [4:57:47<1:52:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7386/10186 [4:57:49<1:52:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7386/10186 [4:57:49<1:52:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7387/10186 [4:57:50<1:52:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7387/10186 [4:57:50<1:52:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7388/10186 [4:57:56<1:52:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7388/10186 [4:57:56<1:52:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7389/10186 [4:57:57<1:52:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7389/10186 [4:57:57<1:52:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7390/10186 [4:57:58<1:52:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7390/10186 [4:57:58<1:52:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7391/10186 [4:57:59<1:52:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7391/10186 [4:57:59<1:52:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7392/10186 [4:58:06<1:52:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7392/10186 [4:58:06<1:52:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7393/10186 [4:58:07<1:52:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7393/10186 [4:58:07<1:52:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7394/10186 [4:58:08<1:52:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7394/10186 [4:58:08<1:52:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7395/10186 [4:58:09<1:52:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7395/10186 [4:58:09<1:52:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7396/10186 [4:58:15<1:52:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7396/10186 [4:58:15<1:52:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7397/10186 [4:58:16<1:52:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7397/10186 [4:58:16<1:52:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7398/10186 [4:58:17<1:52:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7398/10186 [4:58:17<1:52:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7399/10186 [4:58:18<1:52:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7399/10186 [4:58:18<1:52:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7400/10186 [4:58:25<1:52:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7400/10186 [4:58:25<1:52:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7401/10186 [4:58:26<1:52:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7401/10186 [4:58:26<1:52:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7402/10186 [4:58:27<1:52:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7402/10186 [4:58:27<1:52:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7403/10186 [4:58:28<1:52:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7403/10186 [4:58:28<1:52:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7404/10186 [4:58:34<1:52:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7404/10186 [4:58:34<1:52:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7405/10186 [4:58:35<1:52:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7405/10186 [4:58:35<1:52:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7406/10186 [4:58:36<1:52:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7406/10186 [4:58:36<1:52:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7407/10186 [4:58:37<1:52:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7407/10186 [4:58:37<1:52:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7408/10186 [4:58:44<1:52:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7408/10186 [4:58:44<1:52:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7409/10186 [4:58:45<1:51:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7409/10186 [4:58:45<1:51:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7410/10186 [4:58:46<1:51:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7410/10186 [4:58:46<1:51:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7411/10186 [4:58:47<1:51:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7411/10186 [4:58:47<1:51:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7412/10186 [4:58:53<1:51:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7412/10186 [4:58:53<1:51:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7413/10186 [4:58:55<1:51:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7413/10186 [4:58:55<1:51:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7414/10186 [4:58:56<1:51:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7414/10186 [4:58:56<1:51:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7415/10186 [4:58:57<1:51:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7415/10186 [4:58:57<1:51:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7416/10186 [4:59:03<1:51:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7416/10186 [4:59:03<1:51:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7417/10186 [4:59:04<1:51:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7417/10186 [4:59:04<1:51:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7418/10186 [4:59:05<1:51:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7418/10186 [4:59:05<1:51:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7419/10186 [4:59:06<1:51:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7419/10186 [4:59:06<1:51:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7420/10186 [4:59:13<1:51:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7420/10186 [4:59:13<1:51:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7421/10186 [4:59:14<1:51:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7421/10186 [4:59:14<1:51:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7422/10186 [4:59:15<1:51:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7422/10186 [4:59:15<1:51:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7423/10186 [4:59:16<1:51:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7423/10186 [4:59:16<1:51:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7424/10186 [4:59:22<1:51:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7424/10186 [4:59:22<1:51:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7425/10186 [4:59:23<1:51:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7425/10186 [4:59:23<1:51:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7426/10186 [4:59:24<1:51:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7426/10186 [4:59:24<1:51:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7427/10186 [4:59:25<1:51:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7427/10186 [4:59:25<1:51:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7428/10186 [4:59:32<1:51:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7428/10186 [4:59:32<1:51:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7429/10186 [4:59:33<1:51:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7429/10186 [4:59:33<1:51:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7430/10186 [4:59:34<1:51:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7430/10186 [4:59:34<1:51:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7431/10186 [4:59:35<1:51:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7431/10186 [4:59:35<1:51:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7432/10186 [4:59:41<1:51:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7432/10186 [4:59:41<1:51:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7433/10186 [4:59:42<1:51:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7433/10186 [4:59:42<1:51:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7434/10186 [4:59:43<1:50:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7434/10186 [4:59:43<1:50:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7435/10186 [4:59:44<1:50:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7435/10186 [4:59:44<1:50:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7436/10186 [4:59:51<1:50:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7436/10186 [4:59:51<1:50:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7437/10186 [4:59:52<1:50:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7437/10186 [4:59:52<1:50:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7438/10186 [4:59:53<1:50:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7438/10186 [4:59:53<1:50:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7439/10186 [4:59:54<1:50:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7439/10186 [4:59:54<1:50:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7440/10186 [5:00:00<1:50:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7440/10186 [5:00:00<1:50:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7441/10186 [5:00:02<1:50:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7441/10186 [5:00:02<1:50:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7442/10186 [5:00:03<1:50:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7442/10186 [5:00:03<1:50:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7443/10186 [5:00:04<1:50:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7443/10186 [5:00:04<1:50:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7444/10186 [5:00:10<1:50:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7444/10186 [5:00:10<1:50:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7445/10186 [5:00:11<1:50:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7445/10186 [5:00:11<1:50:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7446/10186 [5:00:12<1:50:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7446/10186 [5:00:12<1:50:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7447/10186 [5:00:13<1:50:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7447/10186 [5:00:13<1:50:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7448/10186 [5:00:20<1:50:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7448/10186 [5:00:20<1:50:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7449/10186 [5:00:21<1:50:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7449/10186 [5:00:21<1:50:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7450/10186 [5:00:22<1:50:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7450/10186 [5:00:22<1:50:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7451/10186 [5:00:23<1:50:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7451/10186 [5:00:23<1:50:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7452/10186 [5:00:29<1:50:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7452/10186 [5:00:29<1:50:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7453/10186 [5:00:30<1:50:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7453/10186 [5:00:30<1:50:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7454/10186 [5:00:31<1:50:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7454/10186 [5:00:31<1:50:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7455/10186 [5:00:32<1:50:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7455/10186 [5:00:32<1:50:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7456/10186 [5:00:39<1:50:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7456/10186 [5:00:39<1:50:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7457/10186 [5:00:40<1:50:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7457/10186 [5:00:40<1:50:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7458/10186 [5:00:41<1:49:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7458/10186 [5:00:41<1:49:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7459/10186 [5:00:42<1:49:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7459/10186 [5:00:42<1:49:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7460/10186 [5:00:48<1:49:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7460/10186 [5:00:48<1:49:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7461/10186 [5:00:49<1:49:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7461/10186 [5:00:49<1:49:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7462/10186 [5:00:50<1:49:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7462/10186 [5:00:50<1:49:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7463/10186 [5:00:51<1:49:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7463/10186 [5:00:51<1:49:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7464/10186 [5:00:58<1:49:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7464/10186 [5:00:58<1:49:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7465/10186 [5:00:59<1:49:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7465/10186 [5:00:59<1:49:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7466/10186 [5:01:00<1:49:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7466/10186 [5:01:00<1:49:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7467/10186 [5:01:01<1:49:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7467/10186 [5:01:01<1:49:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7468/10186 [5:01:08<1:49:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7468/10186 [5:01:08<1:49:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7469/10186 [5:01:09<1:49:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7469/10186 [5:01:09<1:49:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7470/10186 [5:01:10<1:49:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7470/10186 [5:01:10<1:49:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7471/10186 [5:01:11<1:49:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7471/10186 [5:01:11<1:49:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7472/10186 [5:01:17<1:49:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7472/10186 [5:01:17<1:49:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7473/10186 [5:01:18<1:49:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7473/10186 [5:01:18<1:49:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7474/10186 [5:01:19<1:49:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7474/10186 [5:01:19<1:49:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7475/10186 [5:01:20<1:49:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7475/10186 [5:01:20<1:49:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7476/10186 [5:01:27<1:49:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7476/10186 [5:01:27<1:49:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7477/10186 [5:01:28<1:49:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7477/10186 [5:01:28<1:49:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7478/10186 [5:01:29<1:49:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7478/10186 [5:01:29<1:49:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7479/10186 [5:01:30<1:49:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7479/10186 [5:01:30<1:49:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7480/10186 [5:01:36<1:49:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7480/10186 [5:01:36<1:49:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7481/10186 [5:01:37<1:49:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7481/10186 [5:01:37<1:49:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7482/10186 [5:01:38<1:49:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7482/10186 [5:01:38<1:49:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7483/10186 [5:01:39<1:48:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7483/10186 [5:01:39<1:48:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7484/10186 [5:01:46<1:48:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7484/10186 [5:01:46<1:48:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7485/10186 [5:01:47<1:48:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7485/10186 [5:01:47<1:48:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 7486/10186 [5:01:48<1:48:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  73%|▋| 7486/10186 [5:01:48<1:48:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7487/10186 [5:01:49<1:48:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7487/10186 [5:01:49<1:48:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7488/10186 [5:01:55<1:48:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7488/10186 [5:01:55<1:48:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7489/10186 [5:01:56<1:48:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7489/10186 [5:01:56<1:48:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7490/10186 [5:01:57<1:48:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7490/10186 [5:01:57<1:48:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7491/10186 [5:01:59<1:48:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7491/10186 [5:01:59<1:48:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7492/10186 [5:02:05<1:48:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7492/10186 [5:02:05<1:48:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7493/10186 [5:02:06<1:48:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7493/10186 [5:02:06<1:48:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7494/10186 [5:02:07<1:48:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7494/10186 [5:02:07<1:48:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7495/10186 [5:02:08<1:48:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7495/10186 [5:02:08<1:48:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7496/10186 [5:02:15<1:48:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7496/10186 [5:02:15<1:48:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7497/10186 [5:02:16<1:48:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7497/10186 [5:02:16<1:48:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7498/10186 [5:02:17<1:48:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7498/10186 [5:02:17<1:48:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7499/10186 [5:02:18<1:48:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7499/10186 [5:02:18<1:48:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7500/10186 [5:02:24<1:48:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7500/10186 [5:02:24<1:48:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7501/10186 [5:02:25<1:48:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7501/10186 [5:02:25<1:48:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7502/10186 [5:02:26<1:48:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7502/10186 [5:02:26<1:48:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7503/10186 [5:02:27<1:48:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7503/10186 [5:02:27<1:48:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7504/10186 [5:02:34<1:48:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7504/10186 [5:02:34<1:48:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7505/10186 [5:02:35<1:48:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7505/10186 [5:02:35<1:48:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7506/10186 [5:02:36<1:48:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7506/10186 [5:02:36<1:48:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7507/10186 [5:02:37<1:47:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7507/10186 [5:02:37<1:47:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7508/10186 [5:02:43<1:47:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7508/10186 [5:02:43<1:47:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7509/10186 [5:02:44<1:47:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7509/10186 [5:02:44<1:47:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7510/10186 [5:02:45<1:47:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7510/10186 [5:02:45<1:47:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7511/10186 [5:02:46<1:47:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7511/10186 [5:02:46<1:47:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7512/10186 [5:02:53<1:47:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7512/10186 [5:02:53<1:47:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7513/10186 [5:02:54<1:47:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7513/10186 [5:02:54<1:47:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7514/10186 [5:02:55<1:47:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7514/10186 [5:02:55<1:47:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7515/10186 [5:02:56<1:47:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7515/10186 [5:02:56<1:47:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7516/10186 [5:03:02<1:47:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7516/10186 [5:03:02<1:47:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7517/10186 [5:03:03<1:47:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7517/10186 [5:03:03<1:47:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7518/10186 [5:03:04<1:47:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7518/10186 [5:03:04<1:47:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7519/10186 [5:03:05<1:47:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7519/10186 [5:03:05<1:47:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7520/10186 [5:03:12<1:47:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7520/10186 [5:03:12<1:47:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7521/10186 [5:03:13<1:47:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7521/10186 [5:03:13<1:47:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7522/10186 [5:03:14<1:47:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7522/10186 [5:03:14<1:47:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7523/10186 [5:03:15<1:47:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7523/10186 [5:03:15<1:47:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7524/10186 [5:03:22<1:47:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7524/10186 [5:03:22<1:47:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7525/10186 [5:03:23<1:47:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7525/10186 [5:03:23<1:47:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7526/10186 [5:03:24<1:47:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7526/10186 [5:03:24<1:47:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7527/10186 [5:03:25<1:47:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7527/10186 [5:03:25<1:47:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7528/10186 [5:03:31<1:47:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7528/10186 [5:03:31<1:47:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7529/10186 [5:03:32<1:47:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7529/10186 [5:03:32<1:47:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7530/10186 [5:03:33<1:47:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7530/10186 [5:03:33<1:47:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7531/10186 [5:03:34<1:47:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7531/10186 [5:03:34<1:47:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7532/10186 [5:03:41<1:47:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7532/10186 [5:03:41<1:47:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7533/10186 [5:03:42<1:46:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7533/10186 [5:03:42<1:46:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7534/10186 [5:03:43<1:46:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7534/10186 [5:03:43<1:46:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7535/10186 [5:03:44<1:46:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7535/10186 [5:03:44<1:46:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7536/10186 [5:03:50<1:46:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7536/10186 [5:03:50<1:46:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7537/10186 [5:03:51<1:46:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7537/10186 [5:03:51<1:46:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7538/10186 [5:03:52<1:46:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7538/10186 [5:03:52<1:46:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7539/10186 [5:03:53<1:46:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7539/10186 [5:03:53<1:46:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7540/10186 [5:04:00<1:46:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7540/10186 [5:04:00<1:46:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7541/10186 [5:04:01<1:46:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7541/10186 [5:04:01<1:46:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7542/10186 [5:04:02<1:46:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7542/10186 [5:04:02<1:46:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7543/10186 [5:04:03<1:46:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7543/10186 [5:04:03<1:46:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7544/10186 [5:04:09<1:46:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7544/10186 [5:04:09<1:46:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7545/10186 [5:04:10<1:46:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7545/10186 [5:04:10<1:46:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7546/10186 [5:04:11<1:46:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7546/10186 [5:04:11<1:46:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7547/10186 [5:04:12<1:46:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7547/10186 [5:04:12<1:46:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7548/10186 [5:04:19<1:46:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7548/10186 [5:04:19<1:46:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7549/10186 [5:04:20<1:46:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7549/10186 [5:04:20<1:46:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7550/10186 [5:04:21<1:46:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7550/10186 [5:04:21<1:46:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7551/10186 [5:04:22<1:46:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7551/10186 [5:04:22<1:46:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7552/10186 [5:04:29<1:46:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7552/10186 [5:04:29<1:46:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7553/10186 [5:04:30<1:46:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7553/10186 [5:04:30<1:46:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7554/10186 [5:04:31<1:46:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7554/10186 [5:04:31<1:46:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7555/10186 [5:04:32<1:46:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7555/10186 [5:04:32<1:46:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7556/10186 [5:04:38<1:46:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7556/10186 [5:04:38<1:46:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7557/10186 [5:04:39<1:45:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7557/10186 [5:04:39<1:45:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7558/10186 [5:04:40<1:45:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7558/10186 [5:04:40<1:45:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7559/10186 [5:04:41<1:45:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7559/10186 [5:04:41<1:45:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7560/10186 [5:04:48<1:45:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7560/10186 [5:04:48<1:45:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7561/10186 [5:04:49<1:45:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7561/10186 [5:04:49<1:45:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7562/10186 [5:04:50<1:45:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7562/10186 [5:04:50<1:45:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7563/10186 [5:04:51<1:45:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7563/10186 [5:04:51<1:45:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7564/10186 [5:04:57<1:45:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7564/10186 [5:04:57<1:45:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7565/10186 [5:04:58<1:45:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7565/10186 [5:04:58<1:45:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7566/10186 [5:04:59<1:45:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7566/10186 [5:04:59<1:45:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7567/10186 [5:05:00<1:45:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7567/10186 [5:05:00<1:45:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7568/10186 [5:05:07<1:45:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7568/10186 [5:05:07<1:45:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7569/10186 [5:05:08<1:45:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7569/10186 [5:05:08<1:45:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7570/10186 [5:05:09<1:45:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7570/10186 [5:05:09<1:45:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7571/10186 [5:05:10<1:45:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7571/10186 [5:05:10<1:45:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7572/10186 [5:05:16<1:45:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7572/10186 [5:05:16<1:45:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7573/10186 [5:05:17<1:45:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7573/10186 [5:05:17<1:45:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7574/10186 [5:05:18<1:45:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7574/10186 [5:05:18<1:45:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7575/10186 [5:05:20<1:45:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7575/10186 [5:05:20<1:45:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7576/10186 [5:05:26<1:45:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7576/10186 [5:05:26<1:45:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7577/10186 [5:05:27<1:45:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7577/10186 [5:05:27<1:45:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7578/10186 [5:05:28<1:45:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7578/10186 [5:05:28<1:45:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7579/10186 [5:05:29<1:45:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7579/10186 [5:05:29<1:45:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7580/10186 [5:05:36<1:45:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7580/10186 [5:05:36<1:45:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7581/10186 [5:05:37<1:45:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7581/10186 [5:05:37<1:45:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7582/10186 [5:05:38<1:44:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7582/10186 [5:05:38<1:44:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7583/10186 [5:05:39<1:44:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7583/10186 [5:05:39<1:44:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7584/10186 [5:05:45<1:44:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7584/10186 [5:05:45<1:44:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7585/10186 [5:05:46<1:44:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7585/10186 [5:05:46<1:44:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7586/10186 [5:05:47<1:44:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7586/10186 [5:05:47<1:44:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7587/10186 [5:05:48<1:44:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7587/10186 [5:05:48<1:44:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 7588/10186 [5:05:55<1:44:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  74%|▋| 7588/10186 [5:05:55<1:44:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▋| 7589/10186 [5:05:56<1:44:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▋| 7589/10186 [5:05:56<1:44:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▋| 7590/10186 [5:05:57<1:44:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▋| 7590/10186 [5:05:57<1:44:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▋| 7591/10186 [5:05:58<1:44:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▋| 7591/10186 [5:05:58<1:44:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▋| 7592/10186 [5:06:04<1:44:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▋| 7592/10186 [5:06:04<1:44:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▋| 7593/10186 [5:06:05<1:44:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▋| 7593/10186 [5:06:05<1:44:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▋| 7594/10186 [5:06:06<1:44:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▋| 7594/10186 [5:06:06<1:44:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▋| 7595/10186 [5:06:07<1:44:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▋| 7595/10186 [5:06:07<1:44:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▋| 7596/10186 [5:06:14<1:44:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▋| 7596/10186 [5:06:14<1:44:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▋| 7597/10186 [5:06:15<1:44:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▋| 7597/10186 [5:06:15<1:44:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▋| 7598/10186 [5:06:16<1:44:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▋| 7598/10186 [5:06:16<1:44:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▋| 7599/10186 [5:06:17<1:44:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▋| 7599/10186 [5:06:17<1:44:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▋| 7600/10186 [5:06:23<1:44:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▋| 7600/10186 [5:06:23<1:44:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▋| 7601/10186 [5:06:24<1:44:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▋| 7601/10186 [5:06:24<1:44:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▋| 7602/10186 [5:06:26<1:44:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▋| 7602/10186 [5:06:26<1:44:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▋| 7603/10186 [5:06:27<1:44:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▋| 7603/10186 [5:06:27<1:44:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▋| 7604/10186 [5:06:33<1:44:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▋| 7604/10186 [5:06:33<1:44:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▋| 7605/10186 [5:06:34<1:44:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▋| 7605/10186 [5:06:34<1:44:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▋| 7606/10186 [5:06:35<1:43:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▋| 7606/10186 [5:06:35<1:43:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▋| 7607/10186 [5:06:36<1:43:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▋| 7607/10186 [5:06:36<1:43:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▋| 7608/10186 [5:06:43<1:43:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▋| 7608/10186 [5:06:43<1:43:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▋| 7609/10186 [5:06:44<1:43:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▋| 7609/10186 [5:06:44<1:43:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▋| 7610/10186 [5:06:45<1:43:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▋| 7610/10186 [5:06:45<1:43:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▋| 7611/10186 [5:06:46<1:43:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▋| 7611/10186 [5:06:46<1:43:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▋| 7612/10186 [5:06:52<1:43:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▋| 7612/10186 [5:06:52<1:43:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▋| 7613/10186 [5:06:53<1:43:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▋| 7613/10186 [5:06:53<1:43:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▋| 7614/10186 [5:06:54<1:43:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▋| 7614/10186 [5:06:54<1:43:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▋| 7615/10186 [5:06:55<1:43:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▋| 7615/10186 [5:06:55<1:43:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▋| 7616/10186 [5:07:02<1:43:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▋| 7616/10186 [5:07:02<1:43:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▋| 7617/10186 [5:07:03<1:43:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▋| 7617/10186 [5:07:03<1:43:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▋| 7618/10186 [5:07:04<1:43:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▋| 7618/10186 [5:07:04<1:43:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▋| 7619/10186 [5:07:05<1:43:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▋| 7619/10186 [5:07:05<1:43:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▋| 7620/10186 [5:07:11<1:43:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▋| 7620/10186 [5:07:11<1:43:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▋| 7621/10186 [5:07:12<1:43:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▋| 7621/10186 [5:07:12<1:43:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▋| 7622/10186 [5:07:13<1:43:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▋| 7622/10186 [5:07:13<1:43:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▋| 7623/10186 [5:07:14<1:43:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▋| 7623/10186 [5:07:14<1:43:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▋| 7624/10186 [5:07:21<1:43:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▋| 7624/10186 [5:07:21<1:43:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▋| 7625/10186 [5:07:22<1:43:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▋| 7625/10186 [5:07:22<1:43:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▋| 7626/10186 [5:07:23<1:43:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▋| 7626/10186 [5:07:23<1:43:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▋| 7627/10186 [5:07:24<1:43:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▋| 7627/10186 [5:07:24<1:43:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▋| 7628/10186 [5:07:30<1:43:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▋| 7628/10186 [5:07:30<1:43:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▋| 7629/10186 [5:07:32<1:43:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▋| 7629/10186 [5:07:32<1:43:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▋| 7630/10186 [5:07:33<1:43:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▋| 7630/10186 [5:07:33<1:43:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▋| 7631/10186 [5:07:34<1:42:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▋| 7631/10186 [5:07:34<1:42:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▋| 7632/10186 [5:07:40<1:42:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▋| 7632/10186 [5:07:40<1:42:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▋| 7633/10186 [5:07:41<1:42:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▋| 7633/10186 [5:07:41<1:42:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▋| 7634/10186 [5:07:42<1:42:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▋| 7634/10186 [5:07:42<1:42:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▋| 7635/10186 [5:07:43<1:42:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▋| 7635/10186 [5:07:43<1:42:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▋| 7636/10186 [5:07:50<1:42:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▋| 7636/10186 [5:07:50<1:42:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▋| 7637/10186 [5:07:51<1:42:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▋| 7637/10186 [5:07:51<1:42:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▋| 7638/10186 [5:07:52<1:42:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▋| 7638/10186 [5:07:52<1:42:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▋| 7639/10186 [5:07:53<1:42:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▋| 7639/10186 [5:07:53<1:42:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▊| 7640/10186 [5:07:59<1:42:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▊| 7640/10186 [5:07:59<1:42:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▊| 7641/10186 [5:08:00<1:42:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▊| 7641/10186 [5:08:00<1:42:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▊| 7642/10186 [5:08:01<1:42:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▊| 7642/10186 [5:08:01<1:42:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▊| 7643/10186 [5:08:02<1:42:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▊| 7643/10186 [5:08:02<1:42:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▊| 7644/10186 [5:08:09<1:42:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▊| 7644/10186 [5:08:09<1:42:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▊| 7645/10186 [5:08:10<1:42:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▊| 7645/10186 [5:08:10<1:42:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▊| 7646/10186 [5:08:11<1:42:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▊| 7646/10186 [5:08:11<1:42:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▊| 7647/10186 [5:08:12<1:42:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▊| 7647/10186 [5:08:12<1:42:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▊| 7648/10186 [5:08:18<1:42:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▊| 7648/10186 [5:08:18<1:42:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▊| 7649/10186 [5:08:19<1:42:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▊| 7649/10186 [5:08:19<1:42:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▊| 7650/10186 [5:08:20<1:42:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▊| 7650/10186 [5:08:20<1:42:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▊| 7651/10186 [5:08:21<1:42:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▊| 7651/10186 [5:08:21<1:42:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▊| 7652/10186 [5:08:28<1:42:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▊| 7652/10186 [5:08:28<1:42:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▊| 7653/10186 [5:08:29<1:42:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▊| 7653/10186 [5:08:29<1:42:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▊| 7654/10186 [5:08:30<1:42:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▊| 7654/10186 [5:08:30<1:42:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▊| 7655/10186 [5:08:31<1:42:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▊| 7655/10186 [5:08:31<1:42:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▊| 7656/10186 [5:08:38<1:41:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▊| 7656/10186 [5:08:38<1:41:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▊| 7657/10186 [5:08:39<1:41:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▊| 7657/10186 [5:08:39<1:41:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▊| 7658/10186 [5:08:40<1:41:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▊| 7658/10186 [5:08:40<1:41:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▊| 7659/10186 [5:08:41<1:41:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▊| 7659/10186 [5:08:41<1:41:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▊| 7660/10186 [5:08:47<1:41:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▊| 7660/10186 [5:08:47<1:41:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▊| 7661/10186 [5:08:48<1:41:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▊| 7661/10186 [5:08:48<1:41:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▊| 7662/10186 [5:08:49<1:41:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▊| 7662/10186 [5:08:49<1:41:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▊| 7663/10186 [5:08:50<1:41:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▊| 7663/10186 [5:08:50<1:41:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▊| 7664/10186 [5:08:57<1:41:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▊| 7664/10186 [5:08:57<1:41:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▊| 7665/10186 [5:08:58<1:41:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▊| 7665/10186 [5:08:58<1:41:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▊| 7666/10186 [5:08:59<1:41:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▊| 7666/10186 [5:08:59<1:41:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▊| 7667/10186 [5:09:00<1:41:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▊| 7667/10186 [5:09:00<1:41:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▊| 7668/10186 [5:09:06<1:41:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▊| 7668/10186 [5:09:06<1:41:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▊| 7669/10186 [5:09:07<1:41:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▊| 7669/10186 [5:09:07<1:41:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▊| 7670/10186 [5:09:08<1:41:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▊| 7670/10186 [5:09:08<1:41:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▊| 7671/10186 [5:09:09<1:41:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▊| 7671/10186 [5:09:09<1:41:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▊| 7672/10186 [5:09:16<1:41:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▊| 7672/10186 [5:09:16<1:41:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▊| 7673/10186 [5:09:17<1:41:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▊| 7673/10186 [5:09:17<1:41:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▊| 7674/10186 [5:09:18<1:41:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▊| 7674/10186 [5:09:18<1:41:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▊| 7675/10186 [5:09:19<1:41:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▊| 7675/10186 [5:09:19<1:41:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▊| 7676/10186 [5:09:25<1:41:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▊| 7676/10186 [5:09:25<1:41:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▊| 7677/10186 [5:09:26<1:41:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▊| 7677/10186 [5:09:26<1:41:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▊| 7678/10186 [5:09:27<1:41:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▊| 7678/10186 [5:09:27<1:41:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▊| 7679/10186 [5:09:28<1:41:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▊| 7679/10186 [5:09:28<1:41:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▊| 7680/10186 [5:09:35<1:41:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▊| 7680/10186 [5:09:35<1:41:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▊| 7681/10186 [5:09:36<1:40:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▊| 7681/10186 [5:09:36<1:40:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▊| 7682/10186 [5:09:37<1:40:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▊| 7682/10186 [5:09:37<1:40:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▊| 7683/10186 [5:09:38<1:40:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▊| 7683/10186 [5:09:38<1:40:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▊| 7684/10186 [5:09:44<1:40:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▊| 7684/10186 [5:09:44<1:40:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▊| 7685/10186 [5:09:46<1:40:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▊| 7685/10186 [5:09:46<1:40:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▊| 7686/10186 [5:09:47<1:40:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▊| 7686/10186 [5:09:47<1:40:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▊| 7687/10186 [5:09:48<1:40:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▊| 7687/10186 [5:09:48<1:40:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▊| 7688/10186 [5:09:54<1:40:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▊| 7688/10186 [5:09:54<1:40:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▊| 7689/10186 [5:09:55<1:40:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▊| 7689/10186 [5:09:55<1:40:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▊| 7690/10186 [5:09:56<1:40:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  75%|▊| 7690/10186 [5:09:56<1:40:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7691/10186 [5:09:57<1:40:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7691/10186 [5:09:57<1:40:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7692/10186 [5:10:04<1:40:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7692/10186 [5:10:04<1:40:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7693/10186 [5:10:05<1:40:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7693/10186 [5:10:05<1:40:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7694/10186 [5:10:06<1:40:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7694/10186 [5:10:06<1:40:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7695/10186 [5:10:07<1:40:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7695/10186 [5:10:07<1:40:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7696/10186 [5:10:13<1:40:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7696/10186 [5:10:13<1:40:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7697/10186 [5:10:14<1:40:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7697/10186 [5:10:14<1:40:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7698/10186 [5:10:15<1:40:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7698/10186 [5:10:15<1:40:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7699/10186 [5:10:16<1:40:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7699/10186 [5:10:16<1:40:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7700/10186 [5:10:23<1:40:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7700/10186 [5:10:23<1:40:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7701/10186 [5:10:24<1:40:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7701/10186 [5:10:24<1:40:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7702/10186 [5:10:25<1:40:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7702/10186 [5:10:25<1:40:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7703/10186 [5:10:26<1:40:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7703/10186 [5:10:26<1:40:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7704/10186 [5:10:32<1:40:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7704/10186 [5:10:32<1:40:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7705/10186 [5:10:33<1:40:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7705/10186 [5:10:33<1:40:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7706/10186 [5:10:34<1:39:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7706/10186 [5:10:34<1:39:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7707/10186 [5:10:35<1:39:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7707/10186 [5:10:35<1:39:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7708/10186 [5:10:42<1:39:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7708/10186 [5:10:42<1:39:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7709/10186 [5:10:43<1:39:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7709/10186 [5:10:43<1:39:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7710/10186 [5:10:44<1:39:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7710/10186 [5:10:44<1:39:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7711/10186 [5:10:45<1:39:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7711/10186 [5:10:45<1:39:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7712/10186 [5:10:51<1:39:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7712/10186 [5:10:51<1:39:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7713/10186 [5:10:53<1:39:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7713/10186 [5:10:53<1:39:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7714/10186 [5:10:54<1:39:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7714/10186 [5:10:54<1:39:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7715/10186 [5:10:55<1:39:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7715/10186 [5:10:55<1:39:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7716/10186 [5:11:01<1:39:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7716/10186 [5:11:01<1:39:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7717/10186 [5:11:02<1:39:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7717/10186 [5:11:02<1:39:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7718/10186 [5:11:03<1:39:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7718/10186 [5:11:03<1:39:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7719/10186 [5:11:04<1:39:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7719/10186 [5:11:04<1:39:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7720/10186 [5:11:11<1:39:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7720/10186 [5:11:11<1:39:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7721/10186 [5:11:12<1:39:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7721/10186 [5:11:12<1:39:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7722/10186 [5:11:13<1:39:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7722/10186 [5:11:13<1:39:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7723/10186 [5:11:14<1:39:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7723/10186 [5:11:14<1:39:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7724/10186 [5:11:20<1:39:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7724/10186 [5:11:20<1:39:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7725/10186 [5:11:21<1:39:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7725/10186 [5:11:21<1:39:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7726/10186 [5:11:22<1:39:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7726/10186 [5:11:22<1:39:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7727/10186 [5:11:23<1:39:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7727/10186 [5:11:23<1:39:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7728/10186 [5:11:30<1:39:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7728/10186 [5:11:30<1:39:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7729/10186 [5:11:31<1:39:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7729/10186 [5:11:31<1:39:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7730/10186 [5:11:32<1:38:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7730/10186 [5:11:32<1:38:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7731/10186 [5:11:33<1:38:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7731/10186 [5:11:33<1:38:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7732/10186 [5:11:39<1:38:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7732/10186 [5:11:39<1:38:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7733/10186 [5:11:40<1:38:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7733/10186 [5:11:40<1:38:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7734/10186 [5:11:41<1:38:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7734/10186 [5:11:41<1:38:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7735/10186 [5:11:43<1:38:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7735/10186 [5:11:43<1:38:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7736/10186 [5:11:49<1:38:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7736/10186 [5:11:49<1:38:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7737/10186 [5:11:50<1:38:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7737/10186 [5:11:50<1:38:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7738/10186 [5:11:51<1:38:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7738/10186 [5:11:51<1:38:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7739/10186 [5:11:52<1:38:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7739/10186 [5:11:52<1:38:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7740/10186 [5:11:59<1:38:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7740/10186 [5:11:59<1:38:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7741/10186 [5:12:00<1:38:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7741/10186 [5:12:00<1:38:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7742/10186 [5:12:01<1:38:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7742/10186 [5:12:01<1:38:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7743/10186 [5:12:02<1:38:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7743/10186 [5:12:02<1:38:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7744/10186 [5:12:08<1:38:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7744/10186 [5:12:08<1:38:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7745/10186 [5:12:09<1:38:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7745/10186 [5:12:09<1:38:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7746/10186 [5:12:10<1:38:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7746/10186 [5:12:10<1:38:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7747/10186 [5:12:11<1:38:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7747/10186 [5:12:11<1:38:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7748/10186 [5:12:18<1:38:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7748/10186 [5:12:18<1:38:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7749/10186 [5:12:19<1:38:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7749/10186 [5:12:19<1:38:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7750/10186 [5:12:20<1:38:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7750/10186 [5:12:20<1:38:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7751/10186 [5:12:21<1:38:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7751/10186 [5:12:21<1:38:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7752/10186 [5:12:27<1:38:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7752/10186 [5:12:27<1:38:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7753/10186 [5:12:28<1:38:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7753/10186 [5:12:28<1:38:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7754/10186 [5:12:29<1:38:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7754/10186 [5:12:29<1:38:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7755/10186 [5:12:30<1:37:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7755/10186 [5:12:30<1:37:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7756/10186 [5:12:37<1:37:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7756/10186 [5:12:37<1:37:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7757/10186 [5:12:38<1:37:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7757/10186 [5:12:38<1:37:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7758/10186 [5:12:39<1:37:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7758/10186 [5:12:39<1:37:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7759/10186 [5:12:40<1:37:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7759/10186 [5:12:40<1:37:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7760/10186 [5:12:46<1:37:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7760/10186 [5:12:46<1:37:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7761/10186 [5:12:47<1:37:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7761/10186 [5:12:47<1:37:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7762/10186 [5:12:48<1:37:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7762/10186 [5:12:48<1:37:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7763/10186 [5:12:50<1:37:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7763/10186 [5:12:50<1:37:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7764/10186 [5:12:56<1:37:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7764/10186 [5:12:56<1:37:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7765/10186 [5:12:57<1:37:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7765/10186 [5:12:57<1:37:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7766/10186 [5:12:58<1:37:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7766/10186 [5:12:58<1:37:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7767/10186 [5:12:59<1:37:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7767/10186 [5:12:59<1:37:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7768/10186 [5:13:06<1:37:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7768/10186 [5:13:06<1:37:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7769/10186 [5:13:07<1:37:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7769/10186 [5:13:07<1:37:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7770/10186 [5:13:08<1:37:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7770/10186 [5:13:08<1:37:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7771/10186 [5:13:09<1:37:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7771/10186 [5:13:09<1:37:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7772/10186 [5:13:15<1:37:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7772/10186 [5:13:15<1:37:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7773/10186 [5:13:16<1:37:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7773/10186 [5:13:16<1:37:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7774/10186 [5:13:17<1:37:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7774/10186 [5:13:17<1:37:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7775/10186 [5:13:18<1:37:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7775/10186 [5:13:18<1:37:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7776/10186 [5:13:25<1:37:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7776/10186 [5:13:25<1:37:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7777/10186 [5:13:26<1:37:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7777/10186 [5:13:26<1:37:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7778/10186 [5:13:27<1:37:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7778/10186 [5:13:27<1:37:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7779/10186 [5:13:28<1:36:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7779/10186 [5:13:28<1:36:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7780/10186 [5:13:34<1:36:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7780/10186 [5:13:34<1:36:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7781/10186 [5:13:35<1:36:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7781/10186 [5:13:35<1:36:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7782/10186 [5:13:36<1:36:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7782/10186 [5:13:36<1:36:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7783/10186 [5:13:37<1:36:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7783/10186 [5:13:37<1:36:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7784/10186 [5:13:44<1:36:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7784/10186 [5:13:44<1:36:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7785/10186 [5:13:45<1:36:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7785/10186 [5:13:45<1:36:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7786/10186 [5:13:46<1:36:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7786/10186 [5:13:46<1:36:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7787/10186 [5:13:47<1:36:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7787/10186 [5:13:47<1:36:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7788/10186 [5:13:53<1:36:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7788/10186 [5:13:53<1:36:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7789/10186 [5:13:54<1:36:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7789/10186 [5:13:54<1:36:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7790/10186 [5:13:55<1:36:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7790/10186 [5:13:55<1:36:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7791/10186 [5:13:57<1:36:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7791/10186 [5:13:57<1:36:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 7792/10186 [5:14:03<1:36:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  76%|▊| 7792/10186 [5:14:03<1:36:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7793/10186 [5:14:04<1:36:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7793/10186 [5:14:04<1:36:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7794/10186 [5:14:05<1:36:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7794/10186 [5:14:05<1:36:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7795/10186 [5:14:06<1:36:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7795/10186 [5:14:06<1:36:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7796/10186 [5:14:13<1:36:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7796/10186 [5:14:13<1:36:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7797/10186 [5:14:14<1:36:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7797/10186 [5:14:14<1:36:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7798/10186 [5:14:15<1:36:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7798/10186 [5:14:15<1:36:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7799/10186 [5:14:16<1:36:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7799/10186 [5:14:16<1:36:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7800/10186 [5:14:22<1:36:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7800/10186 [5:14:22<1:36:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7801/10186 [5:14:23<1:36:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7801/10186 [5:14:23<1:36:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7802/10186 [5:14:24<1:36:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7802/10186 [5:14:24<1:36:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7803/10186 [5:14:25<1:36:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7803/10186 [5:14:25<1:36:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7804/10186 [5:14:32<1:36:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7804/10186 [5:14:32<1:36:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7805/10186 [5:14:33<1:35:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7805/10186 [5:14:33<1:35:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7806/10186 [5:14:34<1:35:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7806/10186 [5:14:34<1:35:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7807/10186 [5:14:35<1:35:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7807/10186 [5:14:35<1:35:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7808/10186 [5:14:41<1:35:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7808/10186 [5:14:41<1:35:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7809/10186 [5:14:42<1:35:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7809/10186 [5:14:42<1:35:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7810/10186 [5:14:43<1:35:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7810/10186 [5:14:43<1:35:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7811/10186 [5:14:44<1:35:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7811/10186 [5:14:44<1:35:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7812/10186 [5:14:51<1:35:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7812/10186 [5:14:51<1:35:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7813/10186 [5:14:52<1:35:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7813/10186 [5:14:52<1:35:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7814/10186 [5:14:53<1:35:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7814/10186 [5:14:53<1:35:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7815/10186 [5:14:54<1:35:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7815/10186 [5:14:54<1:35:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7816/10186 [5:15:00<1:35:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7816/10186 [5:15:00<1:35:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7817/10186 [5:15:01<1:35:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7817/10186 [5:15:01<1:35:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7818/10186 [5:15:02<1:35:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7818/10186 [5:15:02<1:35:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7819/10186 [5:15:04<1:35:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7819/10186 [5:15:04<1:35:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7820/10186 [5:15:10<1:35:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7820/10186 [5:15:10<1:35:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7821/10186 [5:15:11<1:35:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7821/10186 [5:15:11<1:35:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7822/10186 [5:15:12<1:35:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7822/10186 [5:15:12<1:35:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7823/10186 [5:15:13<1:35:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7823/10186 [5:15:13<1:35:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7824/10186 [5:15:20<1:35:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7824/10186 [5:15:20<1:35:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7825/10186 [5:15:21<1:35:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7825/10186 [5:15:21<1:35:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7826/10186 [5:15:22<1:35:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7826/10186 [5:15:22<1:35:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7827/10186 [5:15:23<1:35:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7827/10186 [5:15:23<1:35:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7828/10186 [5:15:29<1:35:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7828/10186 [5:15:29<1:35:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7829/10186 [5:15:30<1:34:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7829/10186 [5:15:30<1:34:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7830/10186 [5:15:31<1:34:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7830/10186 [5:15:31<1:34:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7831/10186 [5:15:32<1:34:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7831/10186 [5:15:32<1:34:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7832/10186 [5:15:39<1:34:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7832/10186 [5:15:39<1:34:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7833/10186 [5:15:40<1:34:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7833/10186 [5:15:40<1:34:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7834/10186 [5:15:41<1:34:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7834/10186 [5:15:41<1:34:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7835/10186 [5:15:42<1:34:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7835/10186 [5:15:42<1:34:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7836/10186 [5:15:48<1:34:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7836/10186 [5:15:48<1:34:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7837/10186 [5:15:49<1:34:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7837/10186 [5:15:49<1:34:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7838/10186 [5:15:50<1:34:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7838/10186 [5:15:50<1:34:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7839/10186 [5:15:51<1:34:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7839/10186 [5:15:51<1:34:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7840/10186 [5:15:58<1:34:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7840/10186 [5:15:58<1:34:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7841/10186 [5:15:59<1:34:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7841/10186 [5:15:59<1:34:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7842/10186 [5:16:00<1:34:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7842/10186 [5:16:00<1:34:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7843/10186 [5:16:01<1:34:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7843/10186 [5:16:01<1:34:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7844/10186 [5:16:07<1:34:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7844/10186 [5:16:07<1:34:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7845/10186 [5:16:08<1:34:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7845/10186 [5:16:08<1:34:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7846/10186 [5:16:09<1:34:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7846/10186 [5:16:09<1:34:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7847/10186 [5:16:11<1:34:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7847/10186 [5:16:11<1:34:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7848/10186 [5:16:17<1:34:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7848/10186 [5:16:17<1:34:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7849/10186 [5:16:18<1:34:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7849/10186 [5:16:18<1:34:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7850/10186 [5:16:19<1:34:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7850/10186 [5:16:19<1:34:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7851/10186 [5:16:20<1:34:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7851/10186 [5:16:20<1:34:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7852/10186 [5:16:27<1:34:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7852/10186 [5:16:27<1:34:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7853/10186 [5:16:28<1:34:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7853/10186 [5:16:28<1:34:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7854/10186 [5:16:29<1:33:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7854/10186 [5:16:29<1:33:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7855/10186 [5:16:30<1:33:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7855/10186 [5:16:30<1:33:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7856/10186 [5:16:36<1:33:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7856/10186 [5:16:36<1:33:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7857/10186 [5:16:37<1:33:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7857/10186 [5:16:37<1:33:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7858/10186 [5:16:38<1:33:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7858/10186 [5:16:38<1:33:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7859/10186 [5:16:39<1:33:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7859/10186 [5:16:39<1:33:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7860/10186 [5:16:46<1:33:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7860/10186 [5:16:46<1:33:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7861/10186 [5:16:47<1:33:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7861/10186 [5:16:47<1:33:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7862/10186 [5:16:48<1:33:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7862/10186 [5:16:48<1:33:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7863/10186 [5:16:49<1:33:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7863/10186 [5:16:49<1:33:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7864/10186 [5:16:55<1:33:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7864/10186 [5:16:55<1:33:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7865/10186 [5:16:56<1:33:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7865/10186 [5:16:56<1:33:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7866/10186 [5:16:57<1:33:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7866/10186 [5:16:57<1:33:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7867/10186 [5:16:58<1:33:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7867/10186 [5:16:58<1:33:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7868/10186 [5:17:05<1:33:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7868/10186 [5:17:05<1:33:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7869/10186 [5:17:06<1:33:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7869/10186 [5:17:06<1:33:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7870/10186 [5:17:07<1:33:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7870/10186 [5:17:07<1:33:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7871/10186 [5:17:08<1:33:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7871/10186 [5:17:08<1:33:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7872/10186 [5:17:14<1:33:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7872/10186 [5:17:14<1:33:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7873/10186 [5:17:15<1:33:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7873/10186 [5:17:15<1:33:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7874/10186 [5:17:16<1:33:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7874/10186 [5:17:16<1:33:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7875/10186 [5:17:17<1:33:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7875/10186 [5:17:17<1:33:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7876/10186 [5:17:24<1:33:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7876/10186 [5:17:24<1:33:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7877/10186 [5:17:25<1:33:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7877/10186 [5:17:25<1:33:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7878/10186 [5:17:26<1:33:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7878/10186 [5:17:26<1:33:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7879/10186 [5:17:27<1:32:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7879/10186 [5:17:27<1:32:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7880/10186 [5:17:33<1:32:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7880/10186 [5:17:33<1:32:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7881/10186 [5:17:35<1:32:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7881/10186 [5:17:35<1:32:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7882/10186 [5:17:36<1:32:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7882/10186 [5:17:36<1:32:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7883/10186 [5:17:37<1:32:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7883/10186 [5:17:37<1:32:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7884/10186 [5:17:43<1:32:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7884/10186 [5:17:43<1:32:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7885/10186 [5:17:44<1:32:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7885/10186 [5:17:44<1:32:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7886/10186 [5:17:45<1:32:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7886/10186 [5:17:45<1:32:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7887/10186 [5:17:46<1:32:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7887/10186 [5:17:46<1:32:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7888/10186 [5:17:53<1:32:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7888/10186 [5:17:53<1:32:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7889/10186 [5:17:54<1:32:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7889/10186 [5:17:54<1:32:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7890/10186 [5:17:55<1:32:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7890/10186 [5:17:55<1:32:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7891/10186 [5:17:56<1:32:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7891/10186 [5:17:56<1:32:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7892/10186 [5:18:02<1:32:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7892/10186 [5:18:02<1:32:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7893/10186 [5:18:03<1:32:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7893/10186 [5:18:03<1:32:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 7894/10186 [5:18:04<1:32:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  77%|▊| 7894/10186 [5:18:04<1:32:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7895/10186 [5:18:05<1:32:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7895/10186 [5:18:05<1:32:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7896/10186 [5:18:12<1:32:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7896/10186 [5:18:12<1:32:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7897/10186 [5:18:13<1:32:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7897/10186 [5:18:13<1:32:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7898/10186 [5:18:14<1:32:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7898/10186 [5:18:14<1:32:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7899/10186 [5:18:15<1:32:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7899/10186 [5:18:15<1:32:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7900/10186 [5:18:21<1:32:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7900/10186 [5:18:21<1:32:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7901/10186 [5:18:22<1:32:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7901/10186 [5:18:22<1:32:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7902/10186 [5:18:23<1:32:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7902/10186 [5:18:23<1:32:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7903/10186 [5:18:24<1:31:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7903/10186 [5:18:24<1:31:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7904/10186 [5:18:31<1:31:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7904/10186 [5:18:31<1:31:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7905/10186 [5:18:32<1:31:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7905/10186 [5:18:32<1:31:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7906/10186 [5:18:33<1:31:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7906/10186 [5:18:33<1:31:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7907/10186 [5:18:34<1:31:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7907/10186 [5:18:34<1:31:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7908/10186 [5:18:40<1:31:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7908/10186 [5:18:40<1:31:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7909/10186 [5:18:41<1:31:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7909/10186 [5:18:41<1:31:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7910/10186 [5:18:43<1:31:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7910/10186 [5:18:43<1:31:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7911/10186 [5:18:44<1:31:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7911/10186 [5:18:44<1:31:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7912/10186 [5:18:50<1:31:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7912/10186 [5:18:50<1:31:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7913/10186 [5:18:51<1:31:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7913/10186 [5:18:51<1:31:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7914/10186 [5:18:52<1:31:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7914/10186 [5:18:52<1:31:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7915/10186 [5:18:53<1:31:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7915/10186 [5:18:53<1:31:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7916/10186 [5:19:00<1:31:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7916/10186 [5:19:00<1:31:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7917/10186 [5:19:01<1:31:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7917/10186 [5:19:01<1:31:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7918/10186 [5:19:02<1:31:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7918/10186 [5:19:02<1:31:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7919/10186 [5:19:03<1:31:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7919/10186 [5:19:03<1:31:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7920/10186 [5:19:09<1:31:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7920/10186 [5:19:09<1:31:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7921/10186 [5:19:10<1:31:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7921/10186 [5:19:10<1:31:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7922/10186 [5:19:11<1:31:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7922/10186 [5:19:11<1:31:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7923/10186 [5:19:12<1:31:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7923/10186 [5:19:12<1:31:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7924/10186 [5:19:19<1:31:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7924/10186 [5:19:19<1:31:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7925/10186 [5:19:20<1:31:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7925/10186 [5:19:20<1:31:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7926/10186 [5:19:21<1:31:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7926/10186 [5:19:21<1:31:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7927/10186 [5:19:22<1:31:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7927/10186 [5:19:22<1:31:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7928/10186 [5:19:28<1:30:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7928/10186 [5:19:28<1:30:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7929/10186 [5:19:29<1:30:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7929/10186 [5:19:29<1:30:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7930/10186 [5:19:30<1:30:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7930/10186 [5:19:30<1:30:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7931/10186 [5:19:31<1:30:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7931/10186 [5:19:31<1:30:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7932/10186 [5:19:38<1:30:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7932/10186 [5:19:38<1:30:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7933/10186 [5:19:39<1:30:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7933/10186 [5:19:39<1:30:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7934/10186 [5:19:40<1:30:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7934/10186 [5:19:40<1:30:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7935/10186 [5:19:41<1:30:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7935/10186 [5:19:41<1:30:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7936/10186 [5:19:47<1:30:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7936/10186 [5:19:47<1:30:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7937/10186 [5:19:48<1:30:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7937/10186 [5:19:48<1:30:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7938/10186 [5:19:49<1:30:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7938/10186 [5:19:49<1:30:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7939/10186 [5:19:51<1:30:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7939/10186 [5:19:51<1:30:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7940/10186 [5:19:57<1:30:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7940/10186 [5:19:57<1:30:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7941/10186 [5:19:58<1:30:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7941/10186 [5:19:58<1:30:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7942/10186 [5:19:59<1:30:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7942/10186 [5:19:59<1:30:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7943/10186 [5:20:00<1:30:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7943/10186 [5:20:00<1:30:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7944/10186 [5:20:07<1:30:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7944/10186 [5:20:07<1:30:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7945/10186 [5:20:08<1:30:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7945/10186 [5:20:08<1:30:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7946/10186 [5:20:09<1:30:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7946/10186 [5:20:09<1:30:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7947/10186 [5:20:10<1:30:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7947/10186 [5:20:10<1:30:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7948/10186 [5:20:16<1:30:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7948/10186 [5:20:16<1:30:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7949/10186 [5:20:17<1:30:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7949/10186 [5:20:17<1:30:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7950/10186 [5:20:18<1:30:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7950/10186 [5:20:18<1:30:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7951/10186 [5:20:19<1:30:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7951/10186 [5:20:19<1:30:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7952/10186 [5:20:26<1:30:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7952/10186 [5:20:26<1:30:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7953/10186 [5:20:27<1:29:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7953/10186 [5:20:27<1:29:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7954/10186 [5:20:28<1:29:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7954/10186 [5:20:28<1:29:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7955/10186 [5:20:29<1:29:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7955/10186 [5:20:29<1:29:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7956/10186 [5:20:35<1:29:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7956/10186 [5:20:35<1:29:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7957/10186 [5:20:36<1:29:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7957/10186 [5:20:36<1:29:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7958/10186 [5:20:37<1:29:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7958/10186 [5:20:37<1:29:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7959/10186 [5:20:38<1:29:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7959/10186 [5:20:38<1:29:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7960/10186 [5:20:45<1:29:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7960/10186 [5:20:45<1:29:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7961/10186 [5:20:46<1:29:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7961/10186 [5:20:46<1:29:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7962/10186 [5:20:47<1:29:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7962/10186 [5:20:47<1:29:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7963/10186 [5:20:48<1:29:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7963/10186 [5:20:48<1:29:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7964/10186 [5:20:54<1:29:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7964/10186 [5:20:54<1:29:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7965/10186 [5:20:55<1:29:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7965/10186 [5:20:55<1:29:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7966/10186 [5:20:56<1:29:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7966/10186 [5:20:56<1:29:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7967/10186 [5:20:58<1:29:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7967/10186 [5:20:58<1:29:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7968/10186 [5:21:04<1:29:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7968/10186 [5:21:04<1:29:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7969/10186 [5:21:05<1:29:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7969/10186 [5:21:05<1:29:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7970/10186 [5:21:06<1:29:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7970/10186 [5:21:06<1:29:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7971/10186 [5:21:07<1:29:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7971/10186 [5:21:07<1:29:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7972/10186 [5:21:14<1:29:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7972/10186 [5:21:14<1:29:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7973/10186 [5:21:15<1:29:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7973/10186 [5:21:15<1:29:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7974/10186 [5:21:16<1:29:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7974/10186 [5:21:16<1:29:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7975/10186 [5:21:17<1:29:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7975/10186 [5:21:17<1:29:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7976/10186 [5:21:23<1:29:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7976/10186 [5:21:23<1:29:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7977/10186 [5:21:24<1:29:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7977/10186 [5:21:24<1:29:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7978/10186 [5:21:25<1:28:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7978/10186 [5:21:25<1:28:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7979/10186 [5:21:26<1:28:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7979/10186 [5:21:26<1:28:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7980/10186 [5:21:33<1:28:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7980/10186 [5:21:33<1:28:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7981/10186 [5:21:34<1:28:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7981/10186 [5:21:34<1:28:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7982/10186 [5:21:35<1:28:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7982/10186 [5:21:35<1:28:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7983/10186 [5:21:36<1:28:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7983/10186 [5:21:36<1:28:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7984/10186 [5:21:42<1:28:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7984/10186 [5:21:42<1:28:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7985/10186 [5:21:43<1:28:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7985/10186 [5:21:43<1:28:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7986/10186 [5:21:44<1:28:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7986/10186 [5:21:44<1:28:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7987/10186 [5:21:45<1:28:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7987/10186 [5:21:45<1:28:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7988/10186 [5:21:52<1:28:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7988/10186 [5:21:52<1:28:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7989/10186 [5:21:53<1:28:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7989/10186 [5:21:53<1:28:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7990/10186 [5:21:54<1:28:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7990/10186 [5:21:54<1:28:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7991/10186 [5:21:55<1:28:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7991/10186 [5:21:55<1:28:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7992/10186 [5:22:01<1:28:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7992/10186 [5:22:01<1:28:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7993/10186 [5:22:02<1:28:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7993/10186 [5:22:02<1:28:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7994/10186 [5:22:03<1:28:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7994/10186 [5:22:03<1:28:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7995/10186 [5:22:04<1:28:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7995/10186 [5:22:04<1:28:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 7996/10186 [5:22:11<1:28:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  78%|▊| 7996/10186 [5:22:11<1:28:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 7997/10186 [5:22:12<1:28:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 7997/10186 [5:22:12<1:28:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 7998/10186 [5:22:13<1:28:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 7998/10186 [5:22:13<1:28:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 7999/10186 [5:22:14<1:28:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 7999/10186 [5:22:14<1:28:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8000/10186 [5:22:20<1:28:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8000/10186 [5:22:20<1:28:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8001/10186 [5:22:48<1:28:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8001/10186 [5:22:48<1:28:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8002/10186 [5:22:49<1:28:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8002/10186 [5:22:49<1:28:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8003/10186 [5:22:50<1:28:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8003/10186 [5:22:50<1:28:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8004/10186 [5:22:57<1:28:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8004/10186 [5:22:57<1:28:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8005/10186 [5:22:58<1:27:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8005/10186 [5:22:58<1:27:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8006/10186 [5:22:59<1:27:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8006/10186 [5:22:59<1:27:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8007/10186 [5:23:00<1:27:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8007/10186 [5:23:00<1:27:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8008/10186 [5:23:06<1:27:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8008/10186 [5:23:06<1:27:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8009/10186 [5:23:07<1:27:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8009/10186 [5:23:07<1:27:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8010/10186 [5:23:08<1:27:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8010/10186 [5:23:08<1:27:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8011/10186 [5:23:09<1:27:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8011/10186 [5:23:09<1:27:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8012/10186 [5:23:16<1:27:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8012/10186 [5:23:16<1:27:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8013/10186 [5:23:17<1:27:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8013/10186 [5:23:17<1:27:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8014/10186 [5:23:18<1:27:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8014/10186 [5:23:18<1:27:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8015/10186 [5:23:19<1:27:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8015/10186 [5:23:19<1:27:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8016/10186 [5:23:25<1:27:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8016/10186 [5:23:25<1:27:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8017/10186 [5:23:26<1:27:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8017/10186 [5:23:26<1:27:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8018/10186 [5:23:27<1:27:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8018/10186 [5:23:27<1:27:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8019/10186 [5:23:28<1:27:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8019/10186 [5:23:28<1:27:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8020/10186 [5:23:35<1:27:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8020/10186 [5:23:35<1:27:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8021/10186 [5:23:36<1:27:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8021/10186 [5:23:36<1:27:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8022/10186 [5:23:37<1:27:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8022/10186 [5:23:37<1:27:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8023/10186 [5:23:38<1:27:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8023/10186 [5:23:38<1:27:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8024/10186 [5:23:44<1:27:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8024/10186 [5:23:44<1:27:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8025/10186 [5:23:45<1:27:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8025/10186 [5:23:45<1:27:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8026/10186 [5:23:46<1:27:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8026/10186 [5:23:46<1:27:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8027/10186 [5:23:48<1:27:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8027/10186 [5:23:48<1:27:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8028/10186 [5:23:54<1:27:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8028/10186 [5:23:54<1:27:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8029/10186 [5:23:55<1:27:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8029/10186 [5:23:55<1:27:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8030/10186 [5:23:56<1:26:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8030/10186 [5:23:56<1:26:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8031/10186 [5:23:57<1:26:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8031/10186 [5:23:57<1:26:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8032/10186 [5:24:04<1:26:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8032/10186 [5:24:04<1:26:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8033/10186 [5:24:05<1:26:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8033/10186 [5:24:05<1:26:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8034/10186 [5:24:06<1:26:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8034/10186 [5:24:06<1:26:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8035/10186 [5:24:07<1:26:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8035/10186 [5:24:07<1:26:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8036/10186 [5:24:13<1:26:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8036/10186 [5:24:13<1:26:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8037/10186 [5:24:14<1:26:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8037/10186 [5:24:14<1:26:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8038/10186 [5:24:15<1:26:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8038/10186 [5:24:15<1:26:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8039/10186 [5:24:16<1:26:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8039/10186 [5:24:16<1:26:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8040/10186 [5:24:23<1:26:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8040/10186 [5:24:23<1:26:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8041/10186 [5:24:24<1:26:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8041/10186 [5:24:24<1:26:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8042/10186 [5:24:25<1:26:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8042/10186 [5:24:25<1:26:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8043/10186 [5:24:26<1:26:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8043/10186 [5:24:26<1:26:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8044/10186 [5:24:32<1:26:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8044/10186 [5:24:32<1:26:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8045/10186 [5:24:33<1:26:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8045/10186 [5:24:33<1:26:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8046/10186 [5:24:34<1:26:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8046/10186 [5:24:34<1:26:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8047/10186 [5:24:35<1:26:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8047/10186 [5:24:35<1:26:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8048/10186 [5:24:42<1:26:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8048/10186 [5:24:42<1:26:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8049/10186 [5:24:43<1:26:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8049/10186 [5:24:43<1:26:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8050/10186 [5:24:44<1:26:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8050/10186 [5:24:44<1:26:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8051/10186 [5:24:45<1:26:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8051/10186 [5:24:45<1:26:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8052/10186 [5:24:51<1:26:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8052/10186 [5:24:51<1:26:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8053/10186 [5:24:52<1:26:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8053/10186 [5:24:52<1:26:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8054/10186 [5:24:54<1:26:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8054/10186 [5:24:54<1:26:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8055/10186 [5:24:55<1:25:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8055/10186 [5:24:55<1:25:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8056/10186 [5:25:01<1:25:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8056/10186 [5:25:01<1:25:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8057/10186 [5:25:02<1:25:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8057/10186 [5:25:02<1:25:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8058/10186 [5:25:03<1:25:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8058/10186 [5:25:03<1:25:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8059/10186 [5:25:04<1:25:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8059/10186 [5:25:04<1:25:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8060/10186 [5:25:11<1:25:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8060/10186 [5:25:11<1:25:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8061/10186 [5:25:12<1:25:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8061/10186 [5:25:12<1:25:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8062/10186 [5:25:13<1:25:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8062/10186 [5:25:13<1:25:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8063/10186 [5:25:14<1:25:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8063/10186 [5:25:14<1:25:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8064/10186 [5:25:20<1:25:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8064/10186 [5:25:20<1:25:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8065/10186 [5:25:21<1:25:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8065/10186 [5:25:21<1:25:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8066/10186 [5:25:22<1:25:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8066/10186 [5:25:22<1:25:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8067/10186 [5:25:23<1:25:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8067/10186 [5:25:23<1:25:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8068/10186 [5:25:30<1:25:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8068/10186 [5:25:30<1:25:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8069/10186 [5:25:31<1:25:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8069/10186 [5:25:31<1:25:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8070/10186 [5:25:32<1:25:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8070/10186 [5:25:32<1:25:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8071/10186 [5:25:33<1:25:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8071/10186 [5:25:33<1:25:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8072/10186 [5:25:39<1:25:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8072/10186 [5:25:39<1:25:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8073/10186 [5:25:40<1:25:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8073/10186 [5:25:40<1:25:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8074/10186 [5:25:41<1:25:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8074/10186 [5:25:41<1:25:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8075/10186 [5:25:42<1:25:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8075/10186 [5:25:42<1:25:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8076/10186 [5:25:49<1:25:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8076/10186 [5:25:49<1:25:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8077/10186 [5:25:50<1:25:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8077/10186 [5:25:50<1:25:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8078/10186 [5:25:51<1:25:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8078/10186 [5:25:51<1:25:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8079/10186 [5:25:52<1:24:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8079/10186 [5:25:52<1:24:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8080/10186 [5:25:58<1:24:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8080/10186 [5:25:58<1:24:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8081/10186 [5:25:59<1:24:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8081/10186 [5:25:59<1:24:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8082/10186 [5:26:01<1:24:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8082/10186 [5:26:01<1:24:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8083/10186 [5:26:02<1:24:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8083/10186 [5:26:02<1:24:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8084/10186 [5:26:08<1:24:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8084/10186 [5:26:08<1:24:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8085/10186 [5:26:09<1:24:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8085/10186 [5:26:09<1:24:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8086/10186 [5:26:10<1:24:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8086/10186 [5:26:10<1:24:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8087/10186 [5:26:11<1:24:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8087/10186 [5:26:11<1:24:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8088/10186 [5:26:18<1:24:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8088/10186 [5:26:18<1:24:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8089/10186 [5:26:19<1:24:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8089/10186 [5:26:19<1:24:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8090/10186 [5:26:20<1:24:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8090/10186 [5:26:20<1:24:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8091/10186 [5:26:21<1:24:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8091/10186 [5:26:21<1:24:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8092/10186 [5:26:27<1:24:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8092/10186 [5:26:27<1:24:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8093/10186 [5:26:28<1:24:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8093/10186 [5:26:28<1:24:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8094/10186 [5:26:29<1:24:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8094/10186 [5:26:29<1:24:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8095/10186 [5:26:30<1:24:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8095/10186 [5:26:30<1:24:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8096/10186 [5:26:37<1:24:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8096/10186 [5:26:37<1:24:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 8097/10186 [5:26:38<1:24:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  79%|▊| 8097/10186 [5:26:38<1:24:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8098/10186 [5:26:39<1:24:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8098/10186 [5:26:39<1:24:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8099/10186 [5:26:40<1:24:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8099/10186 [5:26:40<1:24:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8100/10186 [5:26:46<1:24:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8100/10186 [5:26:46<1:24:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8101/10186 [5:26:47<1:24:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8101/10186 [5:26:47<1:24:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8102/10186 [5:26:48<1:24:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8102/10186 [5:26:48<1:24:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8103/10186 [5:26:49<1:24:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8103/10186 [5:26:49<1:24:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8104/10186 [5:26:56<1:23:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8104/10186 [5:26:56<1:23:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8105/10186 [5:26:57<1:23:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8105/10186 [5:26:57<1:23:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8106/10186 [5:26:58<1:23:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8106/10186 [5:26:58<1:23:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8107/10186 [5:26:59<1:23:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8107/10186 [5:26:59<1:23:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8108/10186 [5:27:05<1:23:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8108/10186 [5:27:05<1:23:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8109/10186 [5:27:06<1:23:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8109/10186 [5:27:06<1:23:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8110/10186 [5:27:07<1:23:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8110/10186 [5:27:07<1:23:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8111/10186 [5:27:09<1:23:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8111/10186 [5:27:09<1:23:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8112/10186 [5:27:15<1:23:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8112/10186 [5:27:15<1:23:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8113/10186 [5:27:16<1:23:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8113/10186 [5:27:16<1:23:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8114/10186 [5:27:17<1:23:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8114/10186 [5:27:17<1:23:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8115/10186 [5:27:18<1:23:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8115/10186 [5:27:18<1:23:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8116/10186 [5:27:25<1:23:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8116/10186 [5:27:25<1:23:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8117/10186 [5:27:26<1:23:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8117/10186 [5:27:26<1:23:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8118/10186 [5:27:27<1:23:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8118/10186 [5:27:27<1:23:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8119/10186 [5:27:28<1:23:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8119/10186 [5:27:28<1:23:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8120/10186 [5:27:34<1:23:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8120/10186 [5:27:34<1:23:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8121/10186 [5:27:35<1:23:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8121/10186 [5:27:35<1:23:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8122/10186 [5:27:36<1:23:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8122/10186 [5:27:36<1:23:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8123/10186 [5:27:37<1:23:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8123/10186 [5:27:37<1:23:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8124/10186 [5:27:44<1:23:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8124/10186 [5:27:44<1:23:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8125/10186 [5:27:45<1:23:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8125/10186 [5:27:45<1:23:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8126/10186 [5:27:46<1:23:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8126/10186 [5:27:46<1:23:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8127/10186 [5:27:47<1:23:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8127/10186 [5:27:47<1:23:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8128/10186 [5:27:53<1:23:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8128/10186 [5:27:53<1:23:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8129/10186 [5:27:54<1:22:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8129/10186 [5:27:54<1:22:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8130/10186 [5:27:55<1:22:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8130/10186 [5:27:55<1:22:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8131/10186 [5:27:56<1:22:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8131/10186 [5:27:56<1:22:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8132/10186 [5:28:03<1:22:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8132/10186 [5:28:03<1:22:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8133/10186 [5:28:04<1:22:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8133/10186 [5:28:04<1:22:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8134/10186 [5:28:05<1:22:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8134/10186 [5:28:05<1:22:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8135/10186 [5:28:06<1:22:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8135/10186 [5:28:06<1:22:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8136/10186 [5:28:12<1:22:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8136/10186 [5:28:12<1:22:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8137/10186 [5:28:13<1:22:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8137/10186 [5:28:13<1:22:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8138/10186 [5:28:14<1:22:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8138/10186 [5:28:14<1:22:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8139/10186 [5:28:16<1:22:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8139/10186 [5:28:16<1:22:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8140/10186 [5:28:22<1:22:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8140/10186 [5:28:22<1:22:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8141/10186 [5:28:23<1:22:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8141/10186 [5:28:23<1:22:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8142/10186 [5:28:24<1:22:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8142/10186 [5:28:24<1:22:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8143/10186 [5:28:25<1:22:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8143/10186 [5:28:25<1:22:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8144/10186 [5:28:32<1:22:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8144/10186 [5:28:32<1:22:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8145/10186 [5:28:33<1:22:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8145/10186 [5:28:33<1:22:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8146/10186 [5:28:34<1:22:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8146/10186 [5:28:34<1:22:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8147/10186 [5:28:35<1:22:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8147/10186 [5:28:35<1:22:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8148/10186 [5:28:41<1:22:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8148/10186 [5:28:41<1:22:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8149/10186 [5:28:42<1:22:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8149/10186 [5:28:42<1:22:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8150/10186 [5:28:43<1:22:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8150/10186 [5:28:43<1:22:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8151/10186 [5:28:44<1:22:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8151/10186 [5:28:44<1:22:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8152/10186 [5:28:51<1:22:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8152/10186 [5:28:51<1:22:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8153/10186 [5:28:52<1:22:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8153/10186 [5:28:52<1:22:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8154/10186 [5:28:53<1:21:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8154/10186 [5:28:53<1:21:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8155/10186 [5:28:54<1:21:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8155/10186 [5:28:54<1:21:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8156/10186 [5:29:00<1:21:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8156/10186 [5:29:00<1:21:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8157/10186 [5:29:01<1:21:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8157/10186 [5:29:01<1:21:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8158/10186 [5:29:02<1:21:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8158/10186 [5:29:02<1:21:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8159/10186 [5:29:03<1:21:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8159/10186 [5:29:03<1:21:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8160/10186 [5:29:10<1:21:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8160/10186 [5:29:10<1:21:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8161/10186 [5:29:11<1:21:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8161/10186 [5:29:11<1:21:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8162/10186 [5:29:12<1:21:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8162/10186 [5:29:12<1:21:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8163/10186 [5:29:13<1:21:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8163/10186 [5:29:13<1:21:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8164/10186 [5:29:19<1:21:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8164/10186 [5:29:19<1:21:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8165/10186 [5:29:20<1:21:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8165/10186 [5:29:20<1:21:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8166/10186 [5:29:21<1:21:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8166/10186 [5:29:21<1:21:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8167/10186 [5:29:22<1:21:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8167/10186 [5:29:22<1:21:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8168/10186 [5:29:29<1:21:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8168/10186 [5:29:29<1:21:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8169/10186 [5:29:30<1:21:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8169/10186 [5:29:30<1:21:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8170/10186 [5:29:31<1:21:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8170/10186 [5:29:31<1:21:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8171/10186 [5:29:32<1:21:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8171/10186 [5:29:32<1:21:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8172/10186 [5:29:39<1:21:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8172/10186 [5:29:39<1:21:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8173/10186 [5:29:40<1:21:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8173/10186 [5:29:40<1:21:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8174/10186 [5:29:41<1:21:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8174/10186 [5:29:41<1:21:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8175/10186 [5:29:42<1:21:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8175/10186 [5:29:42<1:21:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8176/10186 [5:29:48<1:21:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8176/10186 [5:29:48<1:21:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8177/10186 [5:29:49<1:21:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8177/10186 [5:29:49<1:21:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8178/10186 [5:29:50<1:20:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8178/10186 [5:29:50<1:20:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8179/10186 [5:29:51<1:20:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8179/10186 [5:29:51<1:20:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8180/10186 [5:29:58<1:20:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8180/10186 [5:29:58<1:20:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8181/10186 [5:29:59<1:20:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8181/10186 [5:29:59<1:20:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8182/10186 [5:30:00<1:20:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8182/10186 [5:30:00<1:20:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8183/10186 [5:30:01<1:20:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8183/10186 [5:30:01<1:20:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8184/10186 [5:30:07<1:20:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8184/10186 [5:30:07<1:20:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8185/10186 [5:30:08<1:20:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8185/10186 [5:30:08<1:20:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8186/10186 [5:30:09<1:20:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8186/10186 [5:30:09<1:20:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8187/10186 [5:30:10<1:20:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8187/10186 [5:30:10<1:20:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8188/10186 [5:30:17<1:20:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8188/10186 [5:30:17<1:20:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8189/10186 [5:30:18<1:20:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8189/10186 [5:30:18<1:20:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8190/10186 [5:30:19<1:20:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8190/10186 [5:30:19<1:20:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8191/10186 [5:30:20<1:20:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8191/10186 [5:30:20<1:20:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8192/10186 [5:30:26<1:20:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8192/10186 [5:30:26<1:20:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8193/10186 [5:30:27<1:20:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8193/10186 [5:30:27<1:20:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8194/10186 [5:30:28<1:20:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8194/10186 [5:30:28<1:20:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8195/10186 [5:30:29<1:20:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8195/10186 [5:30:29<1:20:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8196/10186 [5:30:36<1:20:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8196/10186 [5:30:36<1:20:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8197/10186 [5:30:37<1:20:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8197/10186 [5:30:37<1:20:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8198/10186 [5:30:38<1:20:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8198/10186 [5:30:38<1:20:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 8199/10186 [5:30:39<1:20:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  80%|▊| 8199/10186 [5:30:39<1:20:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8200/10186 [5:30:45<1:20:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8200/10186 [5:30:45<1:20:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8201/10186 [5:30:47<1:20:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8201/10186 [5:30:47<1:20:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8202/10186 [5:30:48<1:20:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8202/10186 [5:30:48<1:20:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8203/10186 [5:30:49<1:19:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8203/10186 [5:30:49<1:19:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8204/10186 [5:30:55<1:19:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8204/10186 [5:30:55<1:19:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8205/10186 [5:30:56<1:19:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8205/10186 [5:30:56<1:19:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8206/10186 [5:30:57<1:19:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8206/10186 [5:30:57<1:19:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8207/10186 [5:30:58<1:19:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8207/10186 [5:30:58<1:19:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8208/10186 [5:31:05<1:19:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8208/10186 [5:31:05<1:19:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8209/10186 [5:31:06<1:19:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8209/10186 [5:31:06<1:19:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8210/10186 [5:31:07<1:19:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8210/10186 [5:31:07<1:19:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8211/10186 [5:31:08<1:19:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8211/10186 [5:31:08<1:19:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8212/10186 [5:31:14<1:19:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8212/10186 [5:31:14<1:19:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8213/10186 [5:31:15<1:19:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8213/10186 [5:31:15<1:19:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8214/10186 [5:31:16<1:19:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8214/10186 [5:31:16<1:19:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8215/10186 [5:31:17<1:19:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8215/10186 [5:31:17<1:19:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8216/10186 [5:31:24<1:19:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8216/10186 [5:31:24<1:19:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8217/10186 [5:31:25<1:19:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8217/10186 [5:31:25<1:19:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8218/10186 [5:31:26<1:19:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8218/10186 [5:31:26<1:19:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8219/10186 [5:31:27<1:19:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8219/10186 [5:31:27<1:19:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8220/10186 [5:31:33<1:19:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8220/10186 [5:31:33<1:19:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8221/10186 [5:31:34<1:19:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8221/10186 [5:31:34<1:19:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8222/10186 [5:31:35<1:19:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8222/10186 [5:31:35<1:19:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8223/10186 [5:31:36<1:19:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8223/10186 [5:31:36<1:19:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8224/10186 [5:31:43<1:19:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8224/10186 [5:31:43<1:19:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8225/10186 [5:31:44<1:19:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8225/10186 [5:31:44<1:19:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8226/10186 [5:31:45<1:19:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8226/10186 [5:31:45<1:19:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8227/10186 [5:31:46<1:19:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8227/10186 [5:31:46<1:19:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8228/10186 [5:31:52<1:18:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8228/10186 [5:31:52<1:18:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8229/10186 [5:31:54<1:18:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8229/10186 [5:31:54<1:18:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8230/10186 [5:31:55<1:18:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8230/10186 [5:31:55<1:18:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8231/10186 [5:31:56<1:18:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8231/10186 [5:31:56<1:18:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8232/10186 [5:32:02<1:18:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8232/10186 [5:32:02<1:18:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8233/10186 [5:32:03<1:18:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8233/10186 [5:32:03<1:18:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8234/10186 [5:32:04<1:18:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8234/10186 [5:32:04<1:18:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8235/10186 [5:32:05<1:18:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8235/10186 [5:32:05<1:18:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8236/10186 [5:32:12<1:18:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8236/10186 [5:32:12<1:18:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8237/10186 [5:32:13<1:18:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8237/10186 [5:32:13<1:18:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8238/10186 [5:32:14<1:18:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8238/10186 [5:32:14<1:18:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8239/10186 [5:32:15<1:18:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8239/10186 [5:32:15<1:18:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8240/10186 [5:32:21<1:18:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8240/10186 [5:32:21<1:18:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8241/10186 [5:32:22<1:18:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8241/10186 [5:32:22<1:18:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8242/10186 [5:32:23<1:18:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8242/10186 [5:32:23<1:18:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8243/10186 [5:32:24<1:18:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8243/10186 [5:32:24<1:18:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8244/10186 [5:32:31<1:18:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8244/10186 [5:32:31<1:18:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8245/10186 [5:32:32<1:18:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8245/10186 [5:32:32<1:18:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8246/10186 [5:32:33<1:18:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8246/10186 [5:32:33<1:18:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8247/10186 [5:32:34<1:18:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8247/10186 [5:32:34<1:18:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8248/10186 [5:32:40<1:18:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8248/10186 [5:32:40<1:18:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8249/10186 [5:32:41<1:18:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8249/10186 [5:32:41<1:18:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8250/10186 [5:32:42<1:18:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8250/10186 [5:32:42<1:18:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8251/10186 [5:32:43<1:18:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8251/10186 [5:32:43<1:18:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8252/10186 [5:32:50<1:18:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8252/10186 [5:32:50<1:18:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8253/10186 [5:32:51<1:17:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8253/10186 [5:32:51<1:17:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8254/10186 [5:32:52<1:17:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8254/10186 [5:32:52<1:17:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8255/10186 [5:32:53<1:17:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8255/10186 [5:32:53<1:17:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8256/10186 [5:32:59<1:17:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8256/10186 [5:32:59<1:17:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8257/10186 [5:33:01<1:17:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8257/10186 [5:33:01<1:17:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8258/10186 [5:33:02<1:17:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8258/10186 [5:33:02<1:17:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8259/10186 [5:33:03<1:17:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8259/10186 [5:33:03<1:17:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8260/10186 [5:33:09<1:17:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8260/10186 [5:33:09<1:17:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8261/10186 [5:33:10<1:17:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8261/10186 [5:33:10<1:17:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8262/10186 [5:33:11<1:17:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8262/10186 [5:33:11<1:17:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8263/10186 [5:33:12<1:17:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8263/10186 [5:33:12<1:17:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8264/10186 [5:33:19<1:17:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8264/10186 [5:33:19<1:17:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8265/10186 [5:33:20<1:17:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8265/10186 [5:33:20<1:17:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8266/10186 [5:33:21<1:17:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8266/10186 [5:33:21<1:17:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8267/10186 [5:33:22<1:17:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8267/10186 [5:33:22<1:17:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8268/10186 [5:33:28<1:17:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8268/10186 [5:33:28<1:17:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8269/10186 [5:33:29<1:17:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8269/10186 [5:33:29<1:17:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8270/10186 [5:33:30<1:17:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8270/10186 [5:33:30<1:17:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8271/10186 [5:33:31<1:17:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8271/10186 [5:33:31<1:17:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8272/10186 [5:33:38<1:17:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8272/10186 [5:33:38<1:17:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8273/10186 [5:33:39<1:17:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8273/10186 [5:33:39<1:17:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8274/10186 [5:33:40<1:17:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8274/10186 [5:33:40<1:17:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8275/10186 [5:33:41<1:17:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8275/10186 [5:33:41<1:17:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8276/10186 [5:33:47<1:17:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8276/10186 [5:33:47<1:17:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8277/10186 [5:33:48<1:16:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8277/10186 [5:33:48<1:16:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8278/10186 [5:33:49<1:16:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8278/10186 [5:33:49<1:16:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8279/10186 [5:33:50<1:16:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8279/10186 [5:33:50<1:16:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8280/10186 [5:33:57<1:16:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8280/10186 [5:33:57<1:16:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8281/10186 [5:33:58<1:16:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8281/10186 [5:33:58<1:16:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8282/10186 [5:33:59<1:16:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8282/10186 [5:33:59<1:16:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8283/10186 [5:34:00<1:16:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8283/10186 [5:34:00<1:16:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8284/10186 [5:34:06<1:16:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8284/10186 [5:34:06<1:16:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8285/10186 [5:34:07<1:16:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8285/10186 [5:34:07<1:16:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8286/10186 [5:34:09<1:16:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8286/10186 [5:34:09<1:16:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8287/10186 [5:34:10<1:16:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8287/10186 [5:34:10<1:16:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8288/10186 [5:34:16<1:16:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8288/10186 [5:34:16<1:16:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8289/10186 [5:34:17<1:16:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8289/10186 [5:34:17<1:16:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8290/10186 [5:34:18<1:16:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8290/10186 [5:34:18<1:16:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8291/10186 [5:34:19<1:16:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8291/10186 [5:34:19<1:16:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8292/10186 [5:34:26<1:16:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8292/10186 [5:34:26<1:16:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8293/10186 [5:34:27<1:16:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8293/10186 [5:34:27<1:16:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8294/10186 [5:34:28<1:16:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8294/10186 [5:34:28<1:16:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8295/10186 [5:34:29<1:16:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8295/10186 [5:34:29<1:16:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8296/10186 [5:34:35<1:16:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8296/10186 [5:34:35<1:16:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8297/10186 [5:34:36<1:16:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8297/10186 [5:34:36<1:16:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8298/10186 [5:34:37<1:16:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8298/10186 [5:34:37<1:16:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8299/10186 [5:34:38<1:16:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8299/10186 [5:34:38<1:16:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8300/10186 [5:34:45<1:16:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8300/10186 [5:34:45<1:16:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 8301/10186 [5:34:46<1:16:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  81%|▊| 8301/10186 [5:34:46<1:16:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8302/10186 [5:34:47<1:15:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8302/10186 [5:34:47<1:15:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8303/10186 [5:34:48<1:15:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8303/10186 [5:34:48<1:15:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8304/10186 [5:34:54<1:15:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8304/10186 [5:34:54<1:15:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8305/10186 [5:34:55<1:15:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8305/10186 [5:34:55<1:15:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8306/10186 [5:34:56<1:15:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8306/10186 [5:34:56<1:15:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8307/10186 [5:34:57<1:15:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8307/10186 [5:34:57<1:15:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8308/10186 [5:35:04<1:15:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8308/10186 [5:35:04<1:15:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8309/10186 [5:35:05<1:15:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8309/10186 [5:35:05<1:15:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8310/10186 [5:35:06<1:15:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8310/10186 [5:35:06<1:15:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8311/10186 [5:35:07<1:15:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8311/10186 [5:35:07<1:15:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8312/10186 [5:35:13<1:15:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8312/10186 [5:35:13<1:15:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8313/10186 [5:35:14<1:15:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8313/10186 [5:35:14<1:15:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8314/10186 [5:35:15<1:15:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8314/10186 [5:35:15<1:15:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8315/10186 [5:35:17<1:15:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8315/10186 [5:35:17<1:15:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8316/10186 [5:35:23<1:15:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8316/10186 [5:35:23<1:15:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8317/10186 [5:35:24<1:15:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8317/10186 [5:35:24<1:15:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8318/10186 [5:35:25<1:15:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8318/10186 [5:35:25<1:15:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8319/10186 [5:35:26<1:15:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8319/10186 [5:35:26<1:15:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8320/10186 [5:35:33<1:15:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8320/10186 [5:35:33<1:15:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8321/10186 [5:35:34<1:15:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8321/10186 [5:35:34<1:15:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8322/10186 [5:35:35<1:15:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8322/10186 [5:35:35<1:15:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8323/10186 [5:35:36<1:15:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8323/10186 [5:35:36<1:15:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8324/10186 [5:35:42<1:15:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8324/10186 [5:35:42<1:15:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8325/10186 [5:35:43<1:15:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8325/10186 [5:35:43<1:15:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8326/10186 [5:35:44<1:15:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8326/10186 [5:35:44<1:15:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8327/10186 [5:35:45<1:14:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8327/10186 [5:35:45<1:14:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8328/10186 [5:35:52<1:14:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8328/10186 [5:35:52<1:14:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8329/10186 [5:35:53<1:14:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8329/10186 [5:35:53<1:14:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8330/10186 [5:35:54<1:14:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8330/10186 [5:35:54<1:14:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8331/10186 [5:35:55<1:14:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8331/10186 [5:35:55<1:14:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8332/10186 [5:36:01<1:14:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8332/10186 [5:36:01<1:14:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8333/10186 [5:36:02<1:14:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8333/10186 [5:36:02<1:14:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8334/10186 [5:36:03<1:14:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8334/10186 [5:36:03<1:14:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8335/10186 [5:36:04<1:14:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8335/10186 [5:36:04<1:14:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8336/10186 [5:36:11<1:14:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8336/10186 [5:36:11<1:14:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8337/10186 [5:36:12<1:14:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8337/10186 [5:36:12<1:14:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8338/10186 [5:36:13<1:14:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8338/10186 [5:36:13<1:14:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8339/10186 [5:36:14<1:14:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8339/10186 [5:36:14<1:14:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8340/10186 [5:36:20<1:14:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8340/10186 [5:36:20<1:14:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8341/10186 [5:36:21<1:14:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8341/10186 [5:36:21<1:14:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8342/10186 [5:36:22<1:14:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8342/10186 [5:36:22<1:14:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8343/10186 [5:36:23<1:14:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8343/10186 [5:36:23<1:14:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8344/10186 [5:36:30<1:14:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8344/10186 [5:36:30<1:14:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8345/10186 [5:36:31<1:14:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8345/10186 [5:36:31<1:14:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8346/10186 [5:36:32<1:14:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8346/10186 [5:36:32<1:14:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8347/10186 [5:36:33<1:14:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8347/10186 [5:36:33<1:14:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8348/10186 [5:36:40<1:14:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8348/10186 [5:36:40<1:14:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8349/10186 [5:36:41<1:14:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8349/10186 [5:36:41<1:14:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8350/10186 [5:36:42<1:14:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8350/10186 [5:36:42<1:14:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8351/10186 [5:36:43<1:13:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8351/10186 [5:36:43<1:13:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8352/10186 [5:36:49<1:13:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8352/10186 [5:36:49<1:13:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8353/10186 [5:36:50<1:13:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|���| 8353/10186 [5:36:50<1:13:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8354/10186 [5:36:51<1:13:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8354/10186 [5:36:51<1:13:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8355/10186 [5:36:52<1:13:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8355/10186 [5:36:52<1:13:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8356/10186 [5:36:59<1:13:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8356/10186 [5:36:59<1:13:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8357/10186 [5:37:00<1:13:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8357/10186 [5:37:00<1:13:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8358/10186 [5:37:01<1:13:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8358/10186 [5:37:01<1:13:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8359/10186 [5:37:02<1:13:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8359/10186 [5:37:02<1:13:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8360/10186 [5:37:08<1:13:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8360/10186 [5:37:08<1:13:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8361/10186 [5:37:09<1:13:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8361/10186 [5:37:09<1:13:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8362/10186 [5:37:10<1:13:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8362/10186 [5:37:10<1:13:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8363/10186 [5:37:11<1:13:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8363/10186 [5:37:11<1:13:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8364/10186 [5:37:18<1:13:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8364/10186 [5:37:18<1:13:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8365/10186 [5:37:19<1:13:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8365/10186 [5:37:19<1:13:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8366/10186 [5:37:20<1:13:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8366/10186 [5:37:20<1:13:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8367/10186 [5:37:21<1:13:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8367/10186 [5:37:21<1:13:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8368/10186 [5:37:27<1:13:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8368/10186 [5:37:27<1:13:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8369/10186 [5:37:28<1:13:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8369/10186 [5:37:28<1:13:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8370/10186 [5:37:29<1:13:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8370/10186 [5:37:29<1:13:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8371/10186 [5:37:30<1:13:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8371/10186 [5:37:30<1:13:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8372/10186 [5:37:37<1:13:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8372/10186 [5:37:37<1:13:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8373/10186 [5:37:38<1:13:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8373/10186 [5:37:38<1:13:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8374/10186 [5:37:39<1:13:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8374/10186 [5:37:39<1:13:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8375/10186 [5:37:40<1:13:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8375/10186 [5:37:40<1:13:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8376/10186 [5:37:46<1:12:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8376/10186 [5:37:46<1:12:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8377/10186 [5:37:48<1:12:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8377/10186 [5:37:48<1:12:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8378/10186 [5:37:49<1:12:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8378/10186 [5:37:49<1:12:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8379/10186 [5:37:50<1:12:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8379/10186 [5:37:50<1:12:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8380/10186 [5:37:56<1:12:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8380/10186 [5:37:56<1:12:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8381/10186 [5:37:57<1:12:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8381/10186 [5:37:57<1:12:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8382/10186 [5:37:58<1:12:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8382/10186 [5:37:58<1:12:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8383/10186 [5:37:59<1:12:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8383/10186 [5:37:59<1:12:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8384/10186 [5:38:06<1:12:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8384/10186 [5:38:06<1:12:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8385/10186 [5:38:07<1:12:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8385/10186 [5:38:07<1:12:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8386/10186 [5:38:08<1:12:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8386/10186 [5:38:08<1:12:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8387/10186 [5:38:09<1:12:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8387/10186 [5:38:09<1:12:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8388/10186 [5:38:15<1:12:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8388/10186 [5:38:15<1:12:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8389/10186 [5:38:16<1:12:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8389/10186 [5:38:16<1:12:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8390/10186 [5:38:17<1:12:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8390/10186 [5:38:17<1:12:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8391/10186 [5:38:18<1:12:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8391/10186 [5:38:18<1:12:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8392/10186 [5:38:25<1:12:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8392/10186 [5:38:25<1:12:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8393/10186 [5:38:26<1:12:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8393/10186 [5:38:26<1:12:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8394/10186 [5:38:27<1:12:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8394/10186 [5:38:27<1:12:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8395/10186 [5:38:28<1:12:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8395/10186 [5:38:28<1:12:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8396/10186 [5:38:34<1:12:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8396/10186 [5:38:34<1:12:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8397/10186 [5:38:35<1:12:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8397/10186 [5:38:35<1:12:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8398/10186 [5:38:36<1:12:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8398/10186 [5:38:36<1:12:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8399/10186 [5:38:37<1:12:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8399/10186 [5:38:37<1:12:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8400/10186 [5:38:44<1:12:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8400/10186 [5:38:44<1:12:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8401/10186 [5:38:45<1:11:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8401/10186 [5:38:45<1:11:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8402/10186 [5:38:46<1:11:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8402/10186 [5:38:46<1:11:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 8403/10186 [5:38:47<1:11:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  82%|▊| 8403/10186 [5:38:47<1:11:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8404/10186 [5:38:54<1:11:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8404/10186 [5:38:54<1:11:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8405/10186 [5:38:55<1:11:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8405/10186 [5:38:55<1:11:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8406/10186 [5:38:56<1:11:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8406/10186 [5:38:56<1:11:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8407/10186 [5:38:57<1:11:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8407/10186 [5:38:57<1:11:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8408/10186 [5:39:03<1:11:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8408/10186 [5:39:03<1:11:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8409/10186 [5:39:04<1:11:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8409/10186 [5:39:04<1:11:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8410/10186 [5:39:05<1:11:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8410/10186 [5:39:05<1:11:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8411/10186 [5:39:06<1:11:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8411/10186 [5:39:06<1:11:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8412/10186 [5:39:13<1:11:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8412/10186 [5:39:13<1:11:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8413/10186 [5:39:14<1:11:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8413/10186 [5:39:14<1:11:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8414/10186 [5:39:15<1:11:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8414/10186 [5:39:15<1:11:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8415/10186 [5:39:16<1:11:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8415/10186 [5:39:16<1:11:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8416/10186 [5:39:22<1:11:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8416/10186 [5:39:22<1:11:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8417/10186 [5:39:23<1:11:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8417/10186 [5:39:23<1:11:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8418/10186 [5:39:24<1:11:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8418/10186 [5:39:24<1:11:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8419/10186 [5:39:25<1:11:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8419/10186 [5:39:25<1:11:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8420/10186 [5:39:32<1:11:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8420/10186 [5:39:32<1:11:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8421/10186 [5:39:33<1:11:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8421/10186 [5:39:33<1:11:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8422/10186 [5:39:34<1:11:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8422/10186 [5:39:34<1:11:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8423/10186 [5:39:35<1:11:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8423/10186 [5:39:35<1:11:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8424/10186 [5:39:41<1:11:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8424/10186 [5:39:41<1:11:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8425/10186 [5:39:42<1:11:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8425/10186 [5:39:42<1:11:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8426/10186 [5:39:43<1:10:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8426/10186 [5:39:43<1:10:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8427/10186 [5:39:44<1:10:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8427/10186 [5:39:44<1:10:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8428/10186 [5:39:51<1:10:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8428/10186 [5:39:51<1:10:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8429/10186 [5:39:52<1:10:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8429/10186 [5:39:52<1:10:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8430/10186 [5:39:53<1:10:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8430/10186 [5:39:53<1:10:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8431/10186 [5:39:54<1:10:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8431/10186 [5:39:54<1:10:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8432/10186 [5:40:00<1:10:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8432/10186 [5:40:00<1:10:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8433/10186 [5:40:02<1:10:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8433/10186 [5:40:02<1:10:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8434/10186 [5:40:03<1:10:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8434/10186 [5:40:03<1:10:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8435/10186 [5:40:04<1:10:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8435/10186 [5:40:04<1:10:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8436/10186 [5:40:10<1:10:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8436/10186 [5:40:10<1:10:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8437/10186 [5:40:11<1:10:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8437/10186 [5:40:11<1:10:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8438/10186 [5:40:12<1:10:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8438/10186 [5:40:12<1:10:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8439/10186 [5:40:13<1:10:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8439/10186 [5:40:13<1:10:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8440/10186 [5:40:20<1:10:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8440/10186 [5:40:20<1:10:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8441/10186 [5:40:21<1:10:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8441/10186 [5:40:21<1:10:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8442/10186 [5:40:22<1:10:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8442/10186 [5:40:22<1:10:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8443/10186 [5:40:23<1:10:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8443/10186 [5:40:23<1:10:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8444/10186 [5:40:29<1:10:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8444/10186 [5:40:29<1:10:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8445/10186 [5:40:30<1:10:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8445/10186 [5:40:30<1:10:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8446/10186 [5:40:31<1:10:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8446/10186 [5:40:31<1:10:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8447/10186 [5:40:32<1:10:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8447/10186 [5:40:32<1:10:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8448/10186 [5:40:39<1:10:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8448/10186 [5:40:39<1:10:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8449/10186 [5:40:40<1:10:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8449/10186 [5:40:40<1:10:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8450/10186 [5:40:41<1:09:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8450/10186 [5:40:41<1:09:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8451/10186 [5:40:42<1:09:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8451/10186 [5:40:42<1:09:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8452/10186 [5:40:48<1:09:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8452/10186 [5:40:48<1:09:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8453/10186 [5:40:49<1:09:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8453/10186 [5:40:49<1:09:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8454/10186 [5:40:50<1:09:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8454/10186 [5:40:50<1:09:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8455/10186 [5:40:51<1:09:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8455/10186 [5:40:51<1:09:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8456/10186 [5:40:58<1:09:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8456/10186 [5:40:58<1:09:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8457/10186 [5:40:59<1:09:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8457/10186 [5:40:59<1:09:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8458/10186 [5:41:00<1:09:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8458/10186 [5:41:00<1:09:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8459/10186 [5:41:01<1:09:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8459/10186 [5:41:01<1:09:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8460/10186 [5:41:07<1:09:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8460/10186 [5:41:07<1:09:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8461/10186 [5:41:08<1:09:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8461/10186 [5:41:08<1:09:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8462/10186 [5:41:10<1:09:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8462/10186 [5:41:10<1:09:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8463/10186 [5:41:11<1:09:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8463/10186 [5:41:11<1:09:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8464/10186 [5:41:17<1:09:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8464/10186 [5:41:17<1:09:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8465/10186 [5:41:18<1:09:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8465/10186 [5:41:18<1:09:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8466/10186 [5:41:19<1:09:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8466/10186 [5:41:19<1:09:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8467/10186 [5:41:20<1:09:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8467/10186 [5:41:20<1:09:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8468/10186 [5:41:27<1:09:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8468/10186 [5:41:27<1:09:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8469/10186 [5:41:28<1:09:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8469/10186 [5:41:28<1:09:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8470/10186 [5:41:29<1:09:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8470/10186 [5:41:29<1:09:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8471/10186 [5:41:30<1:09:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8471/10186 [5:41:30<1:09:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8472/10186 [5:41:36<1:09:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8472/10186 [5:41:36<1:09:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8473/10186 [5:41:37<1:09:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8473/10186 [5:41:37<1:09:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8474/10186 [5:41:38<1:09:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8474/10186 [5:41:38<1:09:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8475/10186 [5:41:39<1:08:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8475/10186 [5:41:39<1:08:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8476/10186 [5:41:46<1:08:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8476/10186 [5:41:46<1:08:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8477/10186 [5:41:47<1:08:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8477/10186 [5:41:47<1:08:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8478/10186 [5:41:48<1:08:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8478/10186 [5:41:48<1:08:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8479/10186 [5:41:49<1:08:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8479/10186 [5:41:49<1:08:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8480/10186 [5:41:55<1:08:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8480/10186 [5:41:55<1:08:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8481/10186 [5:41:56<1:08:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8481/10186 [5:41:56<1:08:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8482/10186 [5:41:57<1:08:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8482/10186 [5:41:57<1:08:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8483/10186 [5:41:58<1:08:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8483/10186 [5:41:58<1:08:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8484/10186 [5:42:05<1:08:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8484/10186 [5:42:05<1:08:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8485/10186 [5:42:06<1:08:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8485/10186 [5:42:06<1:08:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8486/10186 [5:42:07<1:08:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8486/10186 [5:42:07<1:08:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8487/10186 [5:42:08<1:08:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8487/10186 [5:42:08<1:08:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8488/10186 [5:42:14<1:08:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8488/10186 [5:42:14<1:08:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8489/10186 [5:42:15<1:08:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8489/10186 [5:42:15<1:08:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8490/10186 [5:42:17<1:08:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8490/10186 [5:42:17<1:08:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8491/10186 [5:42:18<1:08:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8491/10186 [5:42:18<1:08:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8492/10186 [5:42:24<1:08:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8492/10186 [5:42:24<1:08:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8493/10186 [5:42:25<1:08:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8493/10186 [5:42:25<1:08:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8494/10186 [5:42:26<1:08:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8494/10186 [5:42:26<1:08:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8495/10186 [5:42:27<1:08:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8495/10186 [5:42:27<1:08:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8496/10186 [5:42:34<1:08:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8496/10186 [5:42:34<1:08:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8497/10186 [5:42:35<1:08:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8497/10186 [5:42:35<1:08:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8498/10186 [5:42:36<1:08:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8498/10186 [5:42:36<1:08:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8499/10186 [5:42:37<1:08:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8499/10186 [5:42:37<1:08:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8500/10186 [5:42:43<1:07:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8500/10186 [5:42:43<1:07:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8501/10186 [5:42:44<1:07:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8501/10186 [5:42:44<1:07:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8502/10186 [5:42:45<1:07:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8502/10186 [5:42:45<1:07:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8503/10186 [5:42:46<1:07:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8503/10186 [5:42:46<1:07:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8504/10186 [5:42:53<1:07:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8504/10186 [5:42:53<1:07:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 8505/10186 [5:42:54<1:07:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  83%|▊| 8505/10186 [5:42:54<1:07:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8506/10186 [5:42:55<1:07:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8506/10186 [5:42:55<1:07:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8507/10186 [5:42:56<1:07:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8507/10186 [5:42:56<1:07:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8508/10186 [5:43:02<1:07:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8508/10186 [5:43:02<1:07:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8509/10186 [5:43:03<1:07:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8509/10186 [5:43:03<1:07:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8510/10186 [5:43:04<1:07:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8510/10186 [5:43:04<1:07:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8511/10186 [5:43:05<1:07:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8511/10186 [5:43:05<1:07:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8512/10186 [5:43:12<1:07:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8512/10186 [5:43:12<1:07:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8513/10186 [5:43:13<1:07:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8513/10186 [5:43:13<1:07:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8514/10186 [5:43:14<1:07:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8514/10186 [5:43:14<1:07:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8515/10186 [5:43:15<1:07:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8515/10186 [5:43:15<1:07:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8516/10186 [5:43:21<1:07:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8516/10186 [5:43:21<1:07:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8517/10186 [5:43:23<1:07:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8517/10186 [5:43:23<1:07:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8518/10186 [5:43:24<1:07:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8518/10186 [5:43:24<1:07:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8519/10186 [5:43:25<1:07:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8519/10186 [5:43:25<1:07:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8520/10186 [5:43:31<1:07:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8520/10186 [5:43:31<1:07:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8521/10186 [5:43:32<1:07:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8521/10186 [5:43:32<1:07:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8522/10186 [5:43:33<1:07:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8522/10186 [5:43:33<1:07:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8523/10186 [5:43:34<1:07:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8523/10186 [5:43:34<1:07:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8524/10186 [5:43:41<1:07:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8524/10186 [5:43:41<1:07:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8525/10186 [5:43:42<1:06:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8525/10186 [5:43:42<1:06:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8526/10186 [5:43:43<1:06:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8526/10186 [5:43:43<1:06:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8527/10186 [5:43:44<1:06:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8527/10186 [5:43:44<1:06:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8528/10186 [5:43:50<1:06:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8528/10186 [5:43:50<1:06:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8529/10186 [5:43:51<1:06:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8529/10186 [5:43:51<1:06:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8530/10186 [5:43:52<1:06:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8530/10186 [5:43:52<1:06:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8531/10186 [5:43:53<1:06:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8531/10186 [5:43:53<1:06:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8532/10186 [5:44:00<1:06:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8532/10186 [5:44:00<1:06:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8533/10186 [5:44:01<1:06:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8533/10186 [5:44:01<1:06:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8534/10186 [5:44:02<1:06:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8534/10186 [5:44:02<1:06:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8535/10186 [5:44:03<1:06:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8535/10186 [5:44:03<1:06:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8536/10186 [5:44:09<1:06:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8536/10186 [5:44:09<1:06:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8537/10186 [5:44:10<1:06:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8537/10186 [5:44:10<1:06:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8538/10186 [5:44:11<1:06:26,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8538/10186 [5:44:11<1:06:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8539/10186 [5:44:12<1:06:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8539/10186 [5:44:12<1:06:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8540/10186 [5:44:19<1:06:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8540/10186 [5:44:19<1:06:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8541/10186 [5:44:20<1:06:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8541/10186 [5:44:20<1:06:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8542/10186 [5:44:21<1:06:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8542/10186 [5:44:21<1:06:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8543/10186 [5:44:22<1:06:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8543/10186 [5:44:22<1:06:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8544/10186 [5:44:28<1:06:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8544/10186 [5:44:28<1:06:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8545/10186 [5:44:29<1:06:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8545/10186 [5:44:29<1:06:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8546/10186 [5:44:31<1:06:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8546/10186 [5:44:31<1:06:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8547/10186 [5:44:32<1:06:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8547/10186 [5:44:32<1:06:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8548/10186 [5:44:38<1:06:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8548/10186 [5:44:38<1:06:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8549/10186 [5:44:39<1:05:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8549/10186 [5:44:39<1:05:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8550/10186 [5:44:40<1:05:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8550/10186 [5:44:40<1:05:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8551/10186 [5:44:41<1:05:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8551/10186 [5:44:41<1:05:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8552/10186 [5:44:48<1:05:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8552/10186 [5:44:48<1:05:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8553/10186 [5:44:49<1:05:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8553/10186 [5:44:49<1:05:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8554/10186 [5:44:50<1:05:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8554/10186 [5:44:50<1:05:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8555/10186 [5:44:51<1:05:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8555/10186 [5:44:51<1:05:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8556/10186 [5:44:57<1:05:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8556/10186 [5:44:57<1:05:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8557/10186 [5:44:58<1:05:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8557/10186 [5:44:58<1:05:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8558/10186 [5:44:59<1:05:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8558/10186 [5:44:59<1:05:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8559/10186 [5:45:00<1:05:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8559/10186 [5:45:00<1:05:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8560/10186 [5:45:07<1:05:33,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8560/10186 [5:45:07<1:05:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8561/10186 [5:45:08<1:05:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8561/10186 [5:45:08<1:05:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8562/10186 [5:45:09<1:05:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8562/10186 [5:45:09<1:05:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8563/10186 [5:45:10<1:05:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8563/10186 [5:45:10<1:05:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8564/10186 [5:45:16<1:05:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8564/10186 [5:45:16<1:05:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8565/10186 [5:45:17<1:05:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8565/10186 [5:45:17<1:05:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8566/10186 [5:45:18<1:05:18,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8566/10186 [5:45:18<1:05:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8567/10186 [5:45:19<1:05:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8567/10186 [5:45:19<1:05:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8568/10186 [5:45:26<1:05:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8568/10186 [5:45:26<1:05:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8569/10186 [5:45:27<1:05:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8569/10186 [5:45:27<1:05:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8570/10186 [5:45:28<1:05:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8570/10186 [5:45:28<1:05:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8571/10186 [5:45:29<1:05:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8571/10186 [5:45:29<1:05:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8572/10186 [5:45:35<1:05:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8572/10186 [5:45:35<1:05:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8573/10186 [5:45:36<1:05:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8573/10186 [5:45:36<1:05:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8574/10186 [5:45:38<1:04:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8574/10186 [5:45:38<1:04:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8575/10186 [5:45:39<1:04:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8575/10186 [5:45:39<1:04:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8576/10186 [5:45:45<1:04:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8576/10186 [5:45:45<1:04:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8577/10186 [5:45:46<1:04:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8577/10186 [5:45:46<1:04:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8578/10186 [5:45:47<1:04:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8578/10186 [5:45:47<1:04:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8579/10186 [5:45:48<1:04:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8579/10186 [5:45:48<1:04:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8580/10186 [5:45:55<1:04:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8580/10186 [5:45:55<1:04:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8581/10186 [5:45:56<1:04:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8581/10186 [5:45:56<1:04:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8582/10186 [5:45:57<1:04:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8582/10186 [5:45:57<1:04:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8583/10186 [5:45:58<1:04:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8583/10186 [5:45:58<1:04:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8584/10186 [5:46:04<1:04:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8584/10186 [5:46:04<1:04:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8585/10186 [5:46:05<1:04:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8585/10186 [5:46:05<1:04:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8586/10186 [5:46:06<1:04:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8586/10186 [5:46:06<1:04:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8587/10186 [5:46:07<1:04:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8587/10186 [5:46:07<1:04:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8588/10186 [5:46:14<1:04:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8588/10186 [5:46:14<1:04:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8589/10186 [5:46:15<1:04:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8589/10186 [5:46:15<1:04:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8590/10186 [5:46:16<1:04:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8590/10186 [5:46:16<1:04:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8591/10186 [5:46:17<1:04:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8591/10186 [5:46:17<1:04:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8592/10186 [5:46:23<1:04:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8592/10186 [5:46:23<1:04:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8593/10186 [5:46:24<1:04:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8593/10186 [5:46:24<1:04:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8594/10186 [5:46:25<1:04:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8594/10186 [5:46:25<1:04:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8595/10186 [5:46:26<1:04:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8595/10186 [5:46:26<1:04:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8596/10186 [5:46:33<1:04:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8596/10186 [5:46:33<1:04:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8597/10186 [5:46:34<1:04:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8597/10186 [5:46:34<1:04:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8598/10186 [5:46:35<1:04:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8598/10186 [5:46:35<1:04:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8599/10186 [5:46:36<1:03:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8599/10186 [5:46:36<1:03:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8600/10186 [5:46:42<1:03:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8600/10186 [5:46:42<1:03:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8601/10186 [5:46:43<1:03:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8601/10186 [5:46:43<1:03:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8602/10186 [5:46:45<1:03:51,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8602/10186 [5:46:45<1:03:51,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8603/10186 [5:46:46<1:03:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8603/10186 [5:46:46<1:03:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8604/10186 [5:46:52<1:03:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8604/10186 [5:46:52<1:03:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8605/10186 [5:46:53<1:03:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8605/10186 [5:46:53<1:03:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8606/10186 [5:46:54<1:03:41,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8606/10186 [5:46:54<1:03:41,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 8607/10186 [5:46:55<1:03:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  84%|▊| 8607/10186 [5:46:55<1:03:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8608/10186 [5:47:02<1:03:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8608/10186 [5:47:02<1:03:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8609/10186 [5:47:03<1:03:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8609/10186 [5:47:03<1:03:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8610/10186 [5:47:04<1:03:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8610/10186 [5:47:04<1:03:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8611/10186 [5:47:05<1:03:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8611/10186 [5:47:05<1:03:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8612/10186 [5:47:11<1:03:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8612/10186 [5:47:11<1:03:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8613/10186 [5:47:12<1:03:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8613/10186 [5:47:12<1:03:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8614/10186 [5:47:13<1:03:22,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8614/10186 [5:47:13<1:03:22,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8615/10186 [5:47:14<1:03:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8615/10186 [5:47:14<1:03:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8616/10186 [5:47:21<1:03:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8616/10186 [5:47:21<1:03:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8617/10186 [5:47:22<1:03:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8617/10186 [5:47:22<1:03:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8618/10186 [5:47:23<1:03:12,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8618/10186 [5:47:23<1:03:12,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8619/10186 [5:47:24<1:03:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8619/10186 [5:47:24<1:03:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8620/10186 [5:47:30<1:03:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8620/10186 [5:47:30<1:03:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8621/10186 [5:47:31<1:03:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8621/10186 [5:47:31<1:03:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8622/10186 [5:47:32<1:03:02,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8622/10186 [5:47:32<1:03:02,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8623/10186 [5:47:33<1:02:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8623/10186 [5:47:33<1:02:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8624/10186 [5:47:40<1:02:58,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8624/10186 [5:47:40<1:02:58,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8625/10186 [5:47:41<1:02:55,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8625/10186 [5:47:41<1:02:55,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8626/10186 [5:47:42<1:02:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8626/10186 [5:47:42<1:02:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8627/10186 [5:47:43<1:02:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8627/10186 [5:47:43<1:02:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8628/10186 [5:47:49<1:02:48,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8628/10186 [5:47:49<1:02:48,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8629/10186 [5:47:50<1:02:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8629/10186 [5:47:50<1:02:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8630/10186 [5:47:51<1:02:43,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8630/10186 [5:47:51<1:02:43,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8631/10186 [5:47:53<1:02:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8631/10186 [5:47:53<1:02:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8632/10186 [5:47:59<1:02:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8632/10186 [5:47:59<1:02:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8633/10186 [5:48:00<1:02:36,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8633/10186 [5:48:00<1:02:36,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8634/10186 [5:48:01<1:02:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8634/10186 [5:48:01<1:02:33,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8635/10186 [5:48:02<1:02:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8635/10186 [5:48:02<1:02:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8636/10186 [5:48:09<1:02:29,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8636/10186 [5:48:09<1:02:29,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8637/10186 [5:48:10<1:02:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8637/10186 [5:48:10<1:02:26,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8638/10186 [5:48:11<1:02:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8638/10186 [5:48:11<1:02:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8639/10186 [5:48:12<1:02:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8639/10186 [5:48:12<1:02:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8640/10186 [5:48:18<1:02:19,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8640/10186 [5:48:18<1:02:19,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8641/10186 [5:48:19<1:02:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8641/10186 [5:48:19<1:02:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8642/10186 [5:48:20<1:02:14,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8642/10186 [5:48:20<1:02:14,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8643/10186 [5:48:21<1:02:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8643/10186 [5:48:21<1:02:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8644/10186 [5:48:28<1:02:09,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8644/10186 [5:48:28<1:02:09,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8645/10186 [5:48:29<1:02:07,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8645/10186 [5:48:29<1:02:07,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8646/10186 [5:48:30<1:02:04,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8646/10186 [5:48:30<1:02:04,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8647/10186 [5:48:31<1:02:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8647/10186 [5:48:31<1:02:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8648/10186 [5:48:37<1:02:00,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8648/10186 [5:48:37<1:02:00,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8649/10186 [5:48:38<1:01:57,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8649/10186 [5:48:38<1:01:57,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8650/10186 [5:48:39<1:01:54,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8650/10186 [5:48:39<1:01:54,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8651/10186 [5:48:40<1:01:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8651/10186 [5:48:40<1:01:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8652/10186 [5:48:47<1:01:50,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8652/10186 [5:48:47<1:01:50,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8653/10186 [5:48:48<1:01:47,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8653/10186 [5:48:48<1:01:47,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8654/10186 [5:48:49<1:01:45,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8654/10186 [5:48:49<1:01:45,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8655/10186 [5:48:50<1:01:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8655/10186 [5:48:50<1:01:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8656/10186 [5:48:56<1:01:40,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8656/10186 [5:48:56<1:01:40,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8657/10186 [5:48:57<1:01:38,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8657/10186 [5:48:57<1:01:38,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8658/10186 [5:48:58<1:01:35,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8658/10186 [5:48:58<1:01:35,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8659/10186 [5:49:00<1:01:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8659/10186 [5:49:00<1:01:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8660/10186 [5:49:06<1:01:31,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8660/10186 [5:49:06<1:01:31,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8661/10186 [5:49:07<1:01:28,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8661/10186 [5:49:07<1:01:28,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8662/10186 [5:49:08<1:01:25,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8662/10186 [5:49:08<1:01:25,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8663/10186 [5:49:09<1:01:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8663/10186 [5:49:09<1:01:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8664/10186 [5:49:16<1:01:21,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8664/10186 [5:49:16<1:01:21,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8665/10186 [5:49:17<1:01:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8665/10186 [5:49:17<1:01:18,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8666/10186 [5:49:18<1:01:16,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8666/10186 [5:49:18<1:01:16,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8667/10186 [5:49:19<1:01:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8667/10186 [5:49:19<1:01:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8668/10186 [5:49:25<1:01:11,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8668/10186 [5:49:25<1:01:11,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8669/10186 [5:49:26<1:01:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8669/10186 [5:49:26<1:01:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8670/10186 [5:49:27<1:01:06,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8670/10186 [5:49:27<1:01:06,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8671/10186 [5:49:28<1:01:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8671/10186 [5:49:28<1:01:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8672/10186 [5:49:35<1:01:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8672/10186 [5:49:35<1:01:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8673/10186 [5:49:36<1:00:59,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8673/10186 [5:49:36<1:00:59,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8674/10186 [5:49:37<1:00:56,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8674/10186 [5:49:37<1:00:56,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8675/10186 [5:49:38<1:00:53,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8675/10186 [5:49:38<1:00:53,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8676/10186 [5:49:44<1:00:52,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8676/10186 [5:49:44<1:00:52,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8677/10186 [5:49:45<1:00:49,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8677/10186 [5:49:45<1:00:49,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8678/10186 [5:49:46<1:00:46,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8678/10186 [5:49:46<1:00:46,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8679/10186 [5:49:47<1:00:44,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8679/10186 [5:49:47<1:00:44,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8680/10186 [5:49:54<1:00:42,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8680/10186 [5:49:54<1:00:42,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8681/10186 [5:49:55<1:00:39,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8681/10186 [5:49:55<1:00:39,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8682/10186 [5:49:56<1:00:37,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8682/10186 [5:49:56<1:00:37,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8683/10186 [5:49:57<1:00:34,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8683/10186 [5:49:57<1:00:34,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8684/10186 [5:50:03<1:00:32,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8684/10186 [5:50:03<1:00:32,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8685/10186 [5:50:04<1:00:30,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8685/10186 [5:50:04<1:00:30,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8686/10186 [5:50:05<1:00:27,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8686/10186 [5:50:05<1:00:27,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8687/10186 [5:50:07<1:00:24,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8687/10186 [5:50:07<1:00:24,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8688/10186 [5:50:13<1:00:23,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8688/10186 [5:50:13<1:00:23,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8689/10186 [5:50:14<1:00:20,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8689/10186 [5:50:14<1:00:20,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8690/10186 [5:50:15<1:00:17,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8690/10186 [5:50:15<1:00:17,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8691/10186 [5:50:16<1:00:15,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8691/10186 [5:50:16<1:00:15,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8692/10186 [5:50:23<1:00:13,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8692/10186 [5:50:23<1:00:13,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8693/10186 [5:50:24<1:00:10,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8693/10186 [5:50:24<1:00:10,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8694/10186 [5:50:25<1:00:08,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8694/10186 [5:50:25<1:00:08,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8695/10186 [5:50:26<1:00:05,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8695/10186 [5:50:26<1:00:05,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8696/10186 [5:50:32<1:00:03,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8696/10186 [5:50:32<1:00:03,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8697/10186 [5:50:33<1:00:01,  2.42s/it, v_num=uqm9, train/loss=\r",
+      "Epoch 0:  85%|▊| 8697/10186 [5:50:33<1:00:01,  2.42s/it, v_num=uqm9, train/loss="
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8698/10186 [5:50:34<59:58,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  85%|▊| 8698/10186 [5:50:34<59:58,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8699/10186 [5:50:35<59:55,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  85%|▊| 8699/10186 [5:50:35<59:55,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8700/10186 [5:50:42<59:54,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  85%|▊| 8700/10186 [5:50:42<59:54,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8701/10186 [5:50:43<59:51,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  85%|▊| 8701/10186 [5:50:43<59:51,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8702/10186 [5:50:44<59:48,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  85%|▊| 8702/10186 [5:50:44<59:48,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8703/10186 [5:50:45<59:46,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  85%|▊| 8703/10186 [5:50:45<59:46,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8704/10186 [5:50:51<59:44,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  85%|▊| 8704/10186 [5:50:51<59:44,  2.42s/it, v_num=uqm9, train/loss=2."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8705/10186 [5:50:52<59:41,  2.42s/it, v_num=uqm9, train/loss=2.\r",
+      "Epoch 0:  85%|▊| 8705/10186 [5:50:52<59:41,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8706/10186 [5:50:53<59:39,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  85%|▊| 8706/10186 [5:50:53<59:39,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8707/10186 [5:50:54<59:36,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  85%|▊| 8707/10186 [5:50:54<59:36,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8708/10186 [5:51:01<59:34,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  85%|▊| 8708/10186 [5:51:01<59:34,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 8709/10186 [5:51:02<59:32,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  85%|▊| 8709/10186 [5:51:02<59:32,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8710/10186 [5:51:03<59:29,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8710/10186 [5:51:03<59:29,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8711/10186 [5:51:04<59:26,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8711/10186 [5:51:04<59:26,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8712/10186 [5:51:10<59:25,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8712/10186 [5:51:10<59:25,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8713/10186 [5:51:11<59:22,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8713/10186 [5:51:11<59:22,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8714/10186 [5:51:12<59:19,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8714/10186 [5:51:12<59:19,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8715/10186 [5:51:14<59:17,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8715/10186 [5:51:14<59:17,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8716/10186 [5:51:20<59:15,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  86%|▊| 8716/10186 [5:51:20<59:15,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8717/10186 [5:51:21<59:12,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8717/10186 [5:51:21<59:12,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8718/10186 [5:51:22<59:10,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8718/10186 [5:51:22<59:10,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8719/10186 [5:51:23<59:07,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8719/10186 [5:51:23<59:07,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8720/10186 [5:51:30<59:05,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8720/10186 [5:51:30<59:05,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8721/10186 [5:51:31<59:02,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8721/10186 [5:51:31<59:02,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8722/10186 [5:51:32<59:00,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  86%|▊| 8722/10186 [5:51:32<59:00,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8723/10186 [5:51:33<58:57,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8723/10186 [5:51:33<58:57,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8724/10186 [5:51:39<58:55,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8724/10186 [5:51:39<58:55,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8725/10186 [5:51:40<58:53,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  86%|▊| 8725/10186 [5:51:40<58:53,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8726/10186 [5:51:41<58:50,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8726/10186 [5:51:41<58:50,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8727/10186 [5:51:42<58:48,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8727/10186 [5:51:42<58:48,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8728/10186 [5:51:49<58:46,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8728/10186 [5:51:49<58:46,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8729/10186 [5:51:50<58:43,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8729/10186 [5:51:50<58:43,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8730/10186 [5:51:51<58:40,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8730/10186 [5:51:51<58:40,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8731/10186 [5:51:52<58:38,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8731/10186 [5:51:52<58:38,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8732/10186 [5:51:58<58:36,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8732/10186 [5:51:58<58:36,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8733/10186 [5:51:59<58:33,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8733/10186 [5:51:59<58:33,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8734/10186 [5:52:00<58:31,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8734/10186 [5:52:00<58:31,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8735/10186 [5:52:01<58:28,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8735/10186 [5:52:01<58:28,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8736/10186 [5:52:08<58:26,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8736/10186 [5:52:08<58:26,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8737/10186 [5:52:09<58:24,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8737/10186 [5:52:09<58:24,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8738/10186 [5:52:10<58:21,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8738/10186 [5:52:10<58:21,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8739/10186 [5:52:11<58:18,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8739/10186 [5:52:11<58:18,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8740/10186 [5:52:17<58:17,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8740/10186 [5:52:17<58:17,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8741/10186 [5:52:18<58:14,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8741/10186 [5:52:18<58:14,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8742/10186 [5:52:19<58:11,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8742/10186 [5:52:19<58:11,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8743/10186 [5:52:21<58:09,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8743/10186 [5:52:21<58:09,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8744/10186 [5:52:27<58:07,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8744/10186 [5:52:27<58:07,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8745/10186 [5:52:28<58:04,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8745/10186 [5:52:28<58:04,  2.42s/it, v_num=uqm9, train/loss=2."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8746/10186 [5:52:29<58:02,  2.42s/it, v_num=uqm9, train/loss=2.\r",
+      "Epoch 0:  86%|▊| 8746/10186 [5:52:29<58:02,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8747/10186 [5:52:30<57:59,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8747/10186 [5:52:30<57:59,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8748/10186 [5:52:37<57:57,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8748/10186 [5:52:37<57:57,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8749/10186 [5:52:38<57:55,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8749/10186 [5:52:38<57:55,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8750/10186 [5:52:39<57:52,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8750/10186 [5:52:39<57:52,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8751/10186 [5:52:40<57:49,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8751/10186 [5:52:40<57:49,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8752/10186 [5:52:46<57:48,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8752/10186 [5:52:46<57:48,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8753/10186 [5:52:47<57:45,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8753/10186 [5:52:47<57:45,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8754/10186 [5:52:48<57:42,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8754/10186 [5:52:48<57:42,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8755/10186 [5:52:49<57:40,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8755/10186 [5:52:49<57:40,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8756/10186 [5:52:56<57:38,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8756/10186 [5:52:56<57:38,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8757/10186 [5:52:57<57:35,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8757/10186 [5:52:57<57:35,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8758/10186 [5:52:58<57:33,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8758/10186 [5:52:58<57:33,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8759/10186 [5:52:59<57:30,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8759/10186 [5:52:59<57:30,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8760/10186 [5:53:05<57:28,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8760/10186 [5:53:05<57:28,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8761/10186 [5:53:06<57:26,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8761/10186 [5:53:06<57:26,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8762/10186 [5:53:07<57:23,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8762/10186 [5:53:07<57:23,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8763/10186 [5:53:08<57:20,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8763/10186 [5:53:08<57:20,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8764/10186 [5:53:15<57:19,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8764/10186 [5:53:15<57:19,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8765/10186 [5:53:16<57:16,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8765/10186 [5:53:16<57:16,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8766/10186 [5:53:17<57:13,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  86%|▊| 8766/10186 [5:53:17<57:13,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8767/10186 [5:53:18<57:11,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8767/10186 [5:53:18<57:11,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8768/10186 [5:53:24<57:09,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8768/10186 [5:53:24<57:09,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8769/10186 [5:53:25<57:06,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8769/10186 [5:53:25<57:06,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8770/10186 [5:53:26<57:04,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  86%|▊| 8770/10186 [5:53:26<57:04,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8771/10186 [5:53:28<57:01,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8771/10186 [5:53:28<57:01,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8772/10186 [5:53:34<56:59,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8772/10186 [5:53:34<56:59,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8773/10186 [5:53:35<56:57,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8773/10186 [5:53:35<56:57,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8774/10186 [5:53:36<56:54,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  86%|▊| 8774/10186 [5:53:36<56:54,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8775/10186 [5:53:37<56:51,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8775/10186 [5:53:37<56:51,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8776/10186 [5:53:44<56:49,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8776/10186 [5:53:44<56:49,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8777/10186 [5:53:45<56:47,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  86%|▊| 8777/10186 [5:53:45<56:47,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8778/10186 [5:53:46<56:44,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8778/10186 [5:53:46<56:44,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8779/10186 [5:53:47<56:42,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8779/10186 [5:53:47<56:42,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8780/10186 [5:53:53<56:40,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8780/10186 [5:53:53<56:40,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8781/10186 [5:53:54<56:37,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8781/10186 [5:53:54<56:37,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8782/10186 [5:53:55<56:34,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8782/10186 [5:53:55<56:34,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8783/10186 [5:53:56<56:32,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8783/10186 [5:53:56<56:32,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8784/10186 [5:54:03<56:30,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8784/10186 [5:54:03<56:30,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8785/10186 [5:54:04<56:27,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8785/10186 [5:54:04<56:27,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8786/10186 [5:54:05<56:25,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8786/10186 [5:54:05<56:25,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8787/10186 [5:54:06<56:22,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  86%|▊| 8787/10186 [5:54:06<56:22,  2.42s/it, v_num=uqm9, train/loss=2."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8788/10186 [5:54:12<56:20,  2.42s/it, v_num=uqm9, train/loss=2.\r",
+      "Epoch 0:  86%|▊| 8788/10186 [5:54:12<56:20,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8789/10186 [5:54:13<56:18,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8789/10186 [5:54:13<56:18,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8790/10186 [5:54:14<56:15,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8790/10186 [5:54:14<56:15,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8791/10186 [5:54:15<56:12,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8791/10186 [5:54:15<56:12,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8792/10186 [5:54:22<56:11,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8792/10186 [5:54:22<56:11,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8793/10186 [5:54:23<56:08,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8793/10186 [5:54:23<56:08,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8794/10186 [5:54:24<56:05,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8794/10186 [5:54:24<56:05,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8795/10186 [5:54:25<56:03,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8795/10186 [5:54:25<56:03,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8796/10186 [5:54:31<56:01,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8796/10186 [5:54:31<56:01,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8797/10186 [5:54:32<55:58,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8797/10186 [5:54:32<55:58,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8798/10186 [5:54:33<55:56,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8798/10186 [5:54:33<55:56,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8799/10186 [5:54:34<55:53,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8799/10186 [5:54:34<55:53,  2.42s/it, v_num=uqm9, train/loss=2."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8800/10186 [5:54:41<55:51,  2.42s/it, v_num=uqm9, train/loss=2.\r",
+      "Epoch 0:  86%|▊| 8800/10186 [5:54:41<55:51,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8801/10186 [5:54:42<55:49,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8801/10186 [5:54:42<55:49,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8802/10186 [5:54:43<55:46,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8802/10186 [5:54:43<55:46,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8803/10186 [5:54:44<55:43,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8803/10186 [5:54:44<55:43,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8804/10186 [5:54:51<55:42,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8804/10186 [5:54:51<55:42,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8805/10186 [5:54:52<55:39,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8805/10186 [5:54:52<55:39,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8806/10186 [5:54:53<55:36,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8806/10186 [5:54:53<55:36,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8807/10186 [5:54:54<55:34,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8807/10186 [5:54:54<55:34,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8808/10186 [5:55:00<55:32,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  86%|▊| 8808/10186 [5:55:00<55:32,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8809/10186 [5:55:01<55:29,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8809/10186 [5:55:01<55:29,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 8810/10186 [5:55:02<55:27,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  86%|▊| 8810/10186 [5:55:02<55:27,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8811/10186 [5:55:03<55:24,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8811/10186 [5:55:03<55:24,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8812/10186 [5:55:10<55:22,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8812/10186 [5:55:10<55:22,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8813/10186 [5:55:11<55:20,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8813/10186 [5:55:11<55:20,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8814/10186 [5:55:12<55:17,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  87%|▊| 8814/10186 [5:55:12<55:17,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8815/10186 [5:55:13<55:14,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8815/10186 [5:55:13<55:14,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8816/10186 [5:55:19<55:13,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8816/10186 [5:55:19<55:13,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8817/10186 [5:55:20<55:10,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8817/10186 [5:55:20<55:10,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8818/10186 [5:55:21<55:07,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  87%|▊| 8818/10186 [5:55:21<55:07,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8819/10186 [5:55:22<55:05,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8819/10186 [5:55:22<55:05,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8820/10186 [5:55:29<55:03,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8820/10186 [5:55:29<55:03,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8821/10186 [5:55:30<55:00,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8821/10186 [5:55:30<55:00,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8822/10186 [5:55:31<54:58,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8822/10186 [5:55:31<54:58,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8823/10186 [5:55:32<54:55,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8823/10186 [5:55:32<54:55,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8824/10186 [5:55:38<54:53,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8824/10186 [5:55:38<54:53,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8825/10186 [5:55:39<54:51,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8825/10186 [5:55:39<54:51,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8826/10186 [5:55:40<54:48,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8826/10186 [5:55:40<54:48,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8827/10186 [5:55:41<54:45,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8827/10186 [5:55:41<54:45,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8828/10186 [5:55:48<54:44,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8828/10186 [5:55:48<54:44,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8829/10186 [5:55:49<54:41,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8829/10186 [5:55:49<54:41,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8830/10186 [5:55:50<54:38,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8830/10186 [5:55:50<54:38,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8831/10186 [5:55:51<54:36,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8831/10186 [5:55:51<54:36,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8832/10186 [5:55:58<54:34,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8832/10186 [5:55:58<54:34,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8833/10186 [5:55:59<54:31,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8833/10186 [5:55:59<54:31,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8834/10186 [5:56:00<54:29,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8834/10186 [5:56:00<54:29,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8835/10186 [5:56:01<54:26,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8835/10186 [5:56:01<54:26,  2.42s/it, v_num=uqm9, train/loss=2."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8836/10186 [5:56:07<54:24,  2.42s/it, v_num=uqm9, train/loss=2.\r",
+      "Epoch 0:  87%|▊| 8836/10186 [5:56:07<54:24,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8837/10186 [5:56:08<54:21,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8837/10186 [5:56:08<54:21,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8838/10186 [5:56:09<54:19,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8838/10186 [5:56:09<54:19,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8839/10186 [5:56:10<54:16,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8839/10186 [5:56:10<54:16,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8840/10186 [5:56:17<54:14,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8840/10186 [5:56:17<54:14,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8841/10186 [5:56:18<54:12,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8841/10186 [5:56:18<54:12,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8842/10186 [5:56:19<54:09,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8842/10186 [5:56:19<54:09,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8843/10186 [5:56:20<54:07,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8843/10186 [5:56:20<54:07,  2.42s/it, v_num=uqm9, train/loss=2."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8844/10186 [5:56:26<54:05,  2.42s/it, v_num=uqm9, train/loss=2.\r",
+      "Epoch 0:  87%|▊| 8844/10186 [5:56:26<54:05,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8845/10186 [5:56:27<54:02,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8845/10186 [5:56:27<54:02,  2.42s/it, v_num=uqm9, train/loss=2."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8846/10186 [5:56:28<53:59,  2.42s/it, v_num=uqm9, train/loss=2.\r",
+      "Epoch 0:  87%|▊| 8846/10186 [5:56:28<53:59,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8847/10186 [5:56:29<53:57,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8847/10186 [5:56:29<53:57,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8848/10186 [5:56:36<53:55,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  87%|▊| 8848/10186 [5:56:36<53:55,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8849/10186 [5:56:37<53:52,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8849/10186 [5:56:37<53:52,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8850/10186 [5:56:38<53:50,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  87%|▊| 8850/10186 [5:56:38<53:50,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8851/10186 [5:56:39<53:47,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8851/10186 [5:56:39<53:47,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8852/10186 [5:56:45<53:45,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8852/10186 [5:56:45<53:45,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8853/10186 [5:56:46<53:43,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8853/10186 [5:56:46<53:43,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8854/10186 [5:56:47<53:40,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8854/10186 [5:56:47<53:40,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8855/10186 [5:56:48<53:37,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8855/10186 [5:56:48<53:37,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8856/10186 [5:56:55<53:36,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8856/10186 [5:56:55<53:36,  2.42s/it, v_num=uqm9, train/loss=2."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8857/10186 [5:56:56<53:33,  2.42s/it, v_num=uqm9, train/loss=2.\r",
+      "Epoch 0:  87%|▊| 8857/10186 [5:56:56<53:33,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8858/10186 [5:56:57<53:30,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8858/10186 [5:56:57<53:30,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8859/10186 [5:56:58<53:28,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8859/10186 [5:56:58<53:28,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8860/10186 [5:57:05<53:26,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8860/10186 [5:57:05<53:26,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8861/10186 [5:57:06<53:23,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8861/10186 [5:57:06<53:23,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8862/10186 [5:57:07<53:21,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8862/10186 [5:57:07<53:21,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8863/10186 [5:57:08<53:18,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8863/10186 [5:57:08<53:18,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8864/10186 [5:57:14<53:16,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  87%|▊| 8864/10186 [5:57:14<53:16,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8865/10186 [5:57:15<53:14,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8865/10186 [5:57:15<53:14,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8866/10186 [5:57:16<53:11,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8866/10186 [5:57:16<53:11,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8867/10186 [5:57:17<53:08,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8867/10186 [5:57:17<53:08,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8868/10186 [5:57:24<53:07,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8868/10186 [5:57:24<53:07,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8869/10186 [5:57:25<53:04,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8869/10186 [5:57:25<53:04,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8870/10186 [5:57:26<53:01,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  87%|▊| 8870/10186 [5:57:26<53:01,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8871/10186 [5:57:27<52:59,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8871/10186 [5:57:27<52:59,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8872/10186 [5:57:33<52:57,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8872/10186 [5:57:33<52:57,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8873/10186 [5:57:34<52:54,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8873/10186 [5:57:34<52:54,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8874/10186 [5:57:35<52:52,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8874/10186 [5:57:35<52:52,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8875/10186 [5:57:36<52:49,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8875/10186 [5:57:36<52:49,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8876/10186 [5:57:43<52:47,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8876/10186 [5:57:43<52:47,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8877/10186 [5:57:44<52:45,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8877/10186 [5:57:44<52:45,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8878/10186 [5:57:45<52:42,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8878/10186 [5:57:45<52:42,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8879/10186 [5:57:46<52:39,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8879/10186 [5:57:46<52:39,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8880/10186 [5:57:52<52:38,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8880/10186 [5:57:52<52:38,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8881/10186 [5:57:53<52:35,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8881/10186 [5:57:53<52:35,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8882/10186 [5:57:54<52:32,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  87%|▊| 8882/10186 [5:57:54<52:32,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8883/10186 [5:57:55<52:30,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8883/10186 [5:57:55<52:30,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8884/10186 [5:58:02<52:28,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8884/10186 [5:58:02<52:28,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8885/10186 [5:58:03<52:25,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8885/10186 [5:58:03<52:25,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8886/10186 [5:58:04<52:23,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8886/10186 [5:58:04<52:23,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8887/10186 [5:58:05<52:20,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8887/10186 [5:58:05<52:20,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8888/10186 [5:58:12<52:18,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8888/10186 [5:58:12<52:18,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8889/10186 [5:58:13<52:16,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8889/10186 [5:58:13<52:16,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8890/10186 [5:58:14<52:13,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8890/10186 [5:58:14<52:13,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8891/10186 [5:58:15<52:10,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8891/10186 [5:58:15<52:10,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8892/10186 [5:58:21<52:08,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8892/10186 [5:58:21<52:08,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8893/10186 [5:58:22<52:06,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8893/10186 [5:58:22<52:06,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8894/10186 [5:58:23<52:03,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8894/10186 [5:58:23<52:03,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8895/10186 [5:58:24<52:01,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8895/10186 [5:58:24<52:01,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8896/10186 [5:58:31<51:59,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8896/10186 [5:58:31<51:59,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8897/10186 [5:58:32<51:56,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8897/10186 [5:58:32<51:56,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8898/10186 [5:58:33<51:54,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8898/10186 [5:58:33<51:54,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8899/10186 [5:58:34<51:51,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8899/10186 [5:58:34<51:51,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8900/10186 [5:58:40<51:49,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8900/10186 [5:58:40<51:49,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8901/10186 [5:58:41<51:47,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8901/10186 [5:58:41<51:47,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8902/10186 [5:58:42<51:44,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8902/10186 [5:58:42<51:44,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8903/10186 [5:58:43<51:41,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8903/10186 [5:58:43<51:41,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8904/10186 [5:58:50<51:39,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8904/10186 [5:58:50<51:39,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8905/10186 [5:58:51<51:37,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8905/10186 [5:58:51<51:37,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8906/10186 [5:58:52<51:34,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8906/10186 [5:58:52<51:34,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8907/10186 [5:58:53<51:32,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8907/10186 [5:58:53<51:32,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8908/10186 [5:58:59<51:30,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8908/10186 [5:58:59<51:30,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8909/10186 [5:59:00<51:27,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8909/10186 [5:59:00<51:27,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8910/10186 [5:59:01<51:25,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8910/10186 [5:59:01<51:25,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8911/10186 [5:59:02<51:22,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8911/10186 [5:59:02<51:22,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 8912/10186 [5:59:09<51:20,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  87%|▊| 8912/10186 [5:59:09<51:20,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8913/10186 [5:59:10<51:17,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 8913/10186 [5:59:10<51:17,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8914/10186 [5:59:11<51:15,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 8914/10186 [5:59:11<51:15,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8915/10186 [5:59:12<51:12,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 8915/10186 [5:59:12<51:12,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8916/10186 [5:59:18<51:10,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 8916/10186 [5:59:18<51:10,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8917/10186 [5:59:20<51:08,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 8917/10186 [5:59:20<51:08,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8918/10186 [5:59:21<51:05,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 8918/10186 [5:59:21<51:05,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8919/10186 [5:59:22<51:03,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 8919/10186 [5:59:22<51:03,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8920/10186 [5:59:28<51:01,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 8920/10186 [5:59:28<51:01,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8921/10186 [5:59:29<50:58,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 8921/10186 [5:59:29<50:58,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|��| 8922/10186 [5:59:30<50:55,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 8922/10186 [5:59:30<50:55,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8923/10186 [5:59:31<50:53,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 8923/10186 [5:59:31<50:53,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8924/10186 [5:59:38<50:51,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 8924/10186 [5:59:38<50:51,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8925/10186 [5:59:39<50:48,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  88%|▉| 8925/10186 [5:59:39<50:48,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8926/10186 [5:59:40<50:46,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 8926/10186 [5:59:40<50:46,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8927/10186 [5:59:41<50:43,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 8927/10186 [5:59:41<50:43,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8928/10186 [5:59:47<50:41,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 8928/10186 [5:59:47<50:41,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8929/10186 [5:59:48<50:39,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 8929/10186 [5:59:48<50:39,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8930/10186 [5:59:49<50:36,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 8930/10186 [5:59:49<50:36,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8931/10186 [5:59:50<50:33,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 8931/10186 [5:59:50<50:33,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8932/10186 [5:59:57<50:32,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 8932/10186 [5:59:57<50:32,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8933/10186 [5:59:58<50:29,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  88%|▉| 8933/10186 [5:59:58<50:29,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8934/10186 [5:59:59<50:26,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 8934/10186 [5:59:59<50:26,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8935/10186 [6:00:00<50:24,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 8935/10186 [6:00:00<50:24,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8936/10186 [6:00:06<50:22,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 8936/10186 [6:00:06<50:22,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8937/10186 [6:00:07<50:19,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 8937/10186 [6:00:07<50:19,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8938/10186 [6:00:08<50:17,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 8938/10186 [6:00:08<50:17,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8939/10186 [6:00:09<50:14,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 8939/10186 [6:00:09<50:14,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8940/10186 [6:00:16<50:12,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8940/10186 [6:00:16<50:12,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8941/10186 [6:00:17<50:10,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 8941/10186 [6:00:17<50:10,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8942/10186 [6:00:18<50:07,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  88%|▉| 8942/10186 [6:00:18<50:07,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8943/10186 [6:00:19<50:04,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  88%|▉| 8943/10186 [6:00:19<50:04,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8944/10186 [6:00:25<50:03,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 8944/10186 [6:00:25<50:03,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8945/10186 [6:00:27<50:00,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 8945/10186 [6:00:27<50:00,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8946/10186 [6:00:28<49:57,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 8946/10186 [6:00:28<49:57,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8947/10186 [6:00:29<49:55,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 8947/10186 [6:00:29<49:55,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8948/10186 [6:00:35<49:53,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  88%|▉| 8948/10186 [6:00:35<49:53,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8949/10186 [6:00:36<49:50,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 8949/10186 [6:00:36<49:50,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8950/10186 [6:00:37<49:48,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 8950/10186 [6:00:37<49:48,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8951/10186 [6:00:38<49:45,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  88%|▉| 8951/10186 [6:00:38<49:45,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8952/10186 [6:00:45<49:43,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 8952/10186 [6:00:45<49:43,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8953/10186 [6:00:46<49:41,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 8953/10186 [6:00:46<49:41,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8954/10186 [6:00:47<49:38,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 8954/10186 [6:00:47<49:38,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8955/10186 [6:00:48<49:35,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 8955/10186 [6:00:48<49:35,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8956/10186 [6:00:54<49:34,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  88%|▉| 8956/10186 [6:00:54<49:34,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8957/10186 [6:00:55<49:31,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 8957/10186 [6:00:55<49:31,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8958/10186 [6:00:56<49:28,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 8958/10186 [6:00:56<49:28,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8959/10186 [6:00:57<49:26,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 8959/10186 [6:00:57<49:26,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8960/10186 [6:01:04<49:24,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 8960/10186 [6:01:04<49:24,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8961/10186 [6:01:05<49:21,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8961/10186 [6:01:05<49:21,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8962/10186 [6:01:06<49:19,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 8962/10186 [6:01:06<49:19,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8963/10186 [6:01:07<49:16,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 8963/10186 [6:01:07<49:16,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8964/10186 [6:01:13<49:14,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 8964/10186 [6:01:13<49:14,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8965/10186 [6:01:14<49:12,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 8965/10186 [6:01:14<49:12,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8966/10186 [6:01:15<49:09,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 8966/10186 [6:01:15<49:09,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8967/10186 [6:01:16<49:06,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 8967/10186 [6:01:16<49:06,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8968/10186 [6:01:23<49:04,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 8968/10186 [6:01:23<49:04,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8969/10186 [6:01:24<49:02,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 8969/10186 [6:01:24<49:02,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8970/10186 [6:01:25<48:59,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 8970/10186 [6:01:25<48:59,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8971/10186 [6:01:26<48:57,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8971/10186 [6:01:26<48:57,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8972/10186 [6:01:32<48:55,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 8972/10186 [6:01:32<48:55,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8973/10186 [6:01:33<48:52,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 8973/10186 [6:01:33<48:52,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8974/10186 [6:01:35<48:50,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 8974/10186 [6:01:35<48:50,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8975/10186 [6:01:36<48:47,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 8975/10186 [6:01:36<48:47,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8976/10186 [6:01:42<48:45,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 8976/10186 [6:01:42<48:45,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8977/10186 [6:01:43<48:42,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 8977/10186 [6:01:43<48:42,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8978/10186 [6:01:44<48:40,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 8978/10186 [6:01:44<48:40,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8979/10186 [6:01:45<48:37,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8979/10186 [6:01:45<48:37,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8980/10186 [6:01:52<48:35,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 8980/10186 [6:01:52<48:35,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8981/10186 [6:01:53<48:33,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 8981/10186 [6:01:53<48:33,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8982/10186 [6:01:54<48:30,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 8982/10186 [6:01:54<48:30,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8983/10186 [6:01:55<48:28,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 8983/10186 [6:01:55<48:28,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8984/10186 [6:02:01<48:26,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 8984/10186 [6:02:01<48:26,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8985/10186 [6:02:02<48:23,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 8985/10186 [6:02:02<48:23,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8986/10186 [6:02:03<48:21,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 8986/10186 [6:02:03<48:21,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8987/10186 [6:02:04<48:18,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 8987/10186 [6:02:04<48:18,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8988/10186 [6:02:11<48:16,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 8988/10186 [6:02:11<48:16,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8989/10186 [6:02:12<48:13,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 8989/10186 [6:02:12<48:13,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8990/10186 [6:02:13<48:11,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 8990/10186 [6:02:13<48:11,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8991/10186 [6:02:14<48:08,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 8991/10186 [6:02:14<48:08,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8992/10186 [6:02:20<48:06,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 8992/10186 [6:02:20<48:06,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8993/10186 [6:02:21<48:04,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 8993/10186 [6:02:21<48:04,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8994/10186 [6:02:22<48:01,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 8994/10186 [6:02:22<48:01,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8995/10186 [6:02:23<47:59,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 8995/10186 [6:02:23<47:59,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8996/10186 [6:02:30<47:57,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 8996/10186 [6:02:30<47:57,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8997/10186 [6:02:31<47:54,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 8997/10186 [6:02:31<47:54,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8998/10186 [6:02:32<47:51,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  88%|▉| 8998/10186 [6:02:32<47:51,  2.42s/it, v_num=uqm9, train/loss=2."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 8999/10186 [6:02:33<47:49,  2.42s/it, v_num=uqm9, train/loss=2.\r",
+      "Epoch 0:  88%|▉| 8999/10186 [6:02:33<47:49,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 9000/10186 [6:02:39<47:47,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 9000/10186 [6:02:39<47:47,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 9001/10186 [6:03:06<47:48,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 9001/10186 [6:03:06<47:48,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 9002/10186 [6:03:08<47:45,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 9002/10186 [6:03:08<47:45,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 9003/10186 [6:03:09<47:43,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 9003/10186 [6:03:09<47:43,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 9004/10186 [6:03:15<47:41,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 9004/10186 [6:03:15<47:41,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 9005/10186 [6:03:16<47:38,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 9005/10186 [6:03:16<47:38,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 9006/10186 [6:03:17<47:36,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 9006/10186 [6:03:17<47:36,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 9007/10186 [6:03:18<47:33,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 9007/10186 [6:03:18<47:33,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 9008/10186 [6:03:25<47:31,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 9008/10186 [6:03:25<47:31,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 9009/10186 [6:03:26<47:28,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 9009/10186 [6:03:26<47:28,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 9010/10186 [6:03:27<47:26,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 9010/10186 [6:03:27<47:26,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 9011/10186 [6:03:28<47:23,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 9011/10186 [6:03:28<47:23,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 9012/10186 [6:03:34<47:21,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 9012/10186 [6:03:34<47:21,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 9013/10186 [6:03:35<47:19,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 9013/10186 [6:03:35<47:19,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 9014/10186 [6:03:36<47:16,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  88%|▉| 9014/10186 [6:03:36<47:16,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9015/10186 [6:03:37<47:14,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9015/10186 [6:03:37<47:14,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9016/10186 [6:03:44<47:12,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9016/10186 [6:03:44<47:12,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9017/10186 [6:03:45<47:09,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  89%|▉| 9017/10186 [6:03:45<47:09,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9018/10186 [6:03:46<47:06,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9018/10186 [6:03:46<47:06,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9019/10186 [6:03:47<47:04,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9019/10186 [6:03:47<47:04,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9020/10186 [6:03:53<47:02,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9020/10186 [6:03:53<47:02,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9021/10186 [6:03:54<46:59,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9021/10186 [6:03:54<46:59,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9022/10186 [6:03:55<46:57,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9022/10186 [6:03:55<46:57,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9023/10186 [6:03:56<46:54,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  89%|▉| 9023/10186 [6:03:56<46:54,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9024/10186 [6:04:03<46:52,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9024/10186 [6:04:03<46:52,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9025/10186 [6:04:04<46:50,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9025/10186 [6:04:04<46:50,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9026/10186 [6:04:05<46:47,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9026/10186 [6:04:05<46:47,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9027/10186 [6:04:06<46:44,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  89%|▉| 9027/10186 [6:04:06<46:44,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9028/10186 [6:04:12<46:43,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9028/10186 [6:04:12<46:43,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9029/10186 [6:04:13<46:40,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9029/10186 [6:04:13<46:40,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9030/10186 [6:04:14<46:37,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9030/10186 [6:04:14<46:37,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9031/10186 [6:04:15<46:35,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9031/10186 [6:04:15<46:35,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9032/10186 [6:04:22<46:33,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9032/10186 [6:04:22<46:33,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9033/10186 [6:04:23<46:30,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9033/10186 [6:04:23<46:30,  2.42s/it, v_num=uqm9, train/loss=2."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9034/10186 [6:04:24<46:28,  2.42s/it, v_num=uqm9, train/loss=2.\r",
+      "Epoch 0:  89%|▉| 9034/10186 [6:04:24<46:28,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9035/10186 [6:04:25<46:25,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9035/10186 [6:04:25<46:25,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9036/10186 [6:04:32<46:23,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9036/10186 [6:04:32<46:23,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9037/10186 [6:04:33<46:21,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9037/10186 [6:04:33<46:21,  2.42s/it, v_num=uqm9, train/loss=2."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9038/10186 [6:04:34<46:18,  2.42s/it, v_num=uqm9, train/loss=2.\r",
+      "Epoch 0:  89%|▉| 9038/10186 [6:04:34<46:18,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9039/10186 [6:04:35<46:15,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9039/10186 [6:04:35<46:15,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9040/10186 [6:04:41<46:13,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  89%|▉| 9040/10186 [6:04:41<46:13,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9041/10186 [6:04:42<46:11,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9041/10186 [6:04:42<46:11,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9042/10186 [6:04:43<46:08,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9042/10186 [6:04:43<46:08,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9043/10186 [6:04:44<46:06,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9043/10186 [6:04:44<46:06,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9044/10186 [6:04:51<46:04,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9044/10186 [6:04:51<46:04,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9045/10186 [6:04:52<46:01,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9045/10186 [6:04:52<46:01,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9046/10186 [6:04:53<45:59,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9046/10186 [6:04:53<45:59,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9047/10186 [6:04:54<45:56,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9047/10186 [6:04:54<45:56,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9048/10186 [6:05:00<45:54,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9048/10186 [6:05:00<45:54,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9049/10186 [6:05:01<45:51,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9049/10186 [6:05:01<45:51,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9050/10186 [6:05:02<45:49,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9050/10186 [6:05:02<45:49,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9051/10186 [6:05:03<45:46,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9051/10186 [6:05:03<45:46,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9052/10186 [6:05:10<45:44,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9052/10186 [6:05:10<45:44,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9053/10186 [6:05:11<45:42,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9053/10186 [6:05:11<45:42,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9054/10186 [6:05:12<45:39,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9054/10186 [6:05:12<45:39,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9055/10186 [6:05:13<45:37,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9055/10186 [6:05:13<45:37,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9056/10186 [6:05:19<45:35,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9056/10186 [6:05:19<45:35,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9057/10186 [6:05:20<45:32,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9057/10186 [6:05:20<45:32,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9058/10186 [6:05:21<45:29,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9058/10186 [6:05:21<45:29,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9059/10186 [6:05:22<45:27,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9059/10186 [6:05:22<45:27,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9060/10186 [6:05:29<45:25,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9060/10186 [6:05:29<45:25,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9061/10186 [6:05:30<45:22,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9061/10186 [6:05:30<45:22,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9062/10186 [6:05:31<45:20,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9062/10186 [6:05:31<45:20,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9063/10186 [6:05:32<45:17,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  89%|▉| 9063/10186 [6:05:32<45:17,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9064/10186 [6:05:39<45:15,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9064/10186 [6:05:39<45:15,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9065/10186 [6:05:40<45:13,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9065/10186 [6:05:40<45:13,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9066/10186 [6:05:41<45:10,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9066/10186 [6:05:41<45:10,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9067/10186 [6:05:42<45:07,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9067/10186 [6:05:42<45:07,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9068/10186 [6:05:48<45:06,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9068/10186 [6:05:48<45:06,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9069/10186 [6:05:49<45:03,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9069/10186 [6:05:49<45:03,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9070/10186 [6:05:50<45:00,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9070/10186 [6:05:50<45:00,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9071/10186 [6:05:51<44:58,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9071/10186 [6:05:51<44:58,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9072/10186 [6:05:58<44:56,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9072/10186 [6:05:58<44:56,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9073/10186 [6:05:59<44:53,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  89%|▉| 9073/10186 [6:05:59<44:53,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9074/10186 [6:06:00<44:51,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9074/10186 [6:06:00<44:51,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9075/10186 [6:06:01<44:48,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9075/10186 [6:06:01<44:48,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9076/10186 [6:06:07<44:46,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  89%|▉| 9076/10186 [6:06:07<44:46,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9077/10186 [6:06:08<44:44,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9077/10186 [6:06:08<44:44,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9078/10186 [6:06:09<44:41,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9078/10186 [6:06:09<44:41,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9079/10186 [6:06:10<44:38,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9079/10186 [6:06:10<44:38,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9080/10186 [6:06:17<44:36,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9080/10186 [6:06:17<44:36,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9081/10186 [6:06:18<44:34,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9081/10186 [6:06:18<44:34,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9082/10186 [6:06:19<44:31,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9082/10186 [6:06:19<44:31,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9083/10186 [6:06:20<44:29,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9083/10186 [6:06:20<44:29,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9084/10186 [6:06:26<44:27,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9084/10186 [6:06:26<44:27,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9085/10186 [6:06:27<44:24,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9085/10186 [6:06:27<44:24,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9086/10186 [6:06:28<44:22,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9086/10186 [6:06:28<44:22,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9087/10186 [6:06:29<44:19,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9087/10186 [6:06:29<44:19,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9088/10186 [6:06:36<44:17,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9088/10186 [6:06:36<44:17,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9089/10186 [6:06:37<44:14,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9089/10186 [6:06:37<44:14,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9090/10186 [6:06:38<44:12,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9090/10186 [6:06:38<44:12,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9091/10186 [6:06:39<44:09,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9091/10186 [6:06:39<44:09,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9092/10186 [6:06:46<44:07,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9092/10186 [6:06:46<44:07,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9093/10186 [6:06:47<44:05,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|���| 9093/10186 [6:06:47<44:05,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9094/10186 [6:06:48<44:02,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9094/10186 [6:06:48<44:02,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9095/10186 [6:06:49<44:00,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  89%|▉| 9095/10186 [6:06:49<44:00,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9096/10186 [6:06:55<43:58,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9096/10186 [6:06:55<43:58,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9097/10186 [6:06:56<43:55,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9097/10186 [6:06:56<43:55,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9098/10186 [6:06:57<43:53,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9098/10186 [6:06:57<43:53,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9099/10186 [6:06:58<43:50,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9099/10186 [6:06:58<43:50,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9100/10186 [6:07:05<43:48,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9100/10186 [6:07:05<43:48,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9101/10186 [6:07:06<43:45,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9101/10186 [6:07:06<43:45,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9102/10186 [6:07:07<43:43,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9102/10186 [6:07:07<43:43,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9103/10186 [6:07:08<43:40,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9103/10186 [6:07:08<43:40,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9104/10186 [6:07:14<43:38,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9104/10186 [6:07:14<43:38,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9105/10186 [6:07:15<43:36,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9105/10186 [6:07:15<43:36,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9106/10186 [6:07:16<43:33,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9106/10186 [6:07:16<43:33,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9107/10186 [6:07:17<43:31,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9107/10186 [6:07:17<43:31,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9108/10186 [6:07:24<43:29,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9108/10186 [6:07:24<43:29,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9109/10186 [6:07:25<43:26,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9109/10186 [6:07:25<43:26,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9110/10186 [6:07:26<43:23,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9110/10186 [6:07:26<43:23,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9111/10186 [6:07:27<43:21,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9111/10186 [6:07:27<43:21,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9112/10186 [6:07:33<43:19,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9112/10186 [6:07:33<43:19,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9113/10186 [6:07:34<43:16,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9113/10186 [6:07:34<43:16,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9114/10186 [6:07:35<43:14,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9114/10186 [6:07:35<43:14,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9115/10186 [6:07:36<43:11,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9115/10186 [6:07:36<43:11,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 9116/10186 [6:07:43<43:09,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  89%|▉| 9116/10186 [6:07:43<43:09,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9117/10186 [6:07:44<43:07,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9117/10186 [6:07:44<43:07,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9118/10186 [6:07:45<43:04,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  90%|▉| 9118/10186 [6:07:45<43:04,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9119/10186 [6:07:46<43:01,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9119/10186 [6:07:46<43:01,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9120/10186 [6:07:53<43:00,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9120/10186 [6:07:53<43:00,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9121/10186 [6:07:54<42:57,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9121/10186 [6:07:54<42:57,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9122/10186 [6:07:55<42:54,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9122/10186 [6:07:55<42:54,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9123/10186 [6:07:56<42:52,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9123/10186 [6:07:56<42:52,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9124/10186 [6:08:02<42:50,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9124/10186 [6:08:02<42:50,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9125/10186 [6:08:03<42:47,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9125/10186 [6:08:03<42:47,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9126/10186 [6:08:04<42:45,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9126/10186 [6:08:04<42:45,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9127/10186 [6:08:05<42:42,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9127/10186 [6:08:05<42:42,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9128/10186 [6:08:12<42:40,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  90%|▉| 9128/10186 [6:08:12<42:40,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9129/10186 [6:08:13<42:38,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9129/10186 [6:08:13<42:38,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9130/10186 [6:08:14<42:35,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9130/10186 [6:08:14<42:35,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9131/10186 [6:08:15<42:32,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9131/10186 [6:08:15<42:32,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9132/10186 [6:08:21<42:30,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9132/10186 [6:08:21<42:30,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9133/10186 [6:08:22<42:28,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9133/10186 [6:08:22<42:28,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9134/10186 [6:08:23<42:25,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9134/10186 [6:08:23<42:25,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9135/10186 [6:08:24<42:23,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9135/10186 [6:08:24<42:23,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9136/10186 [6:08:31<42:21,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9136/10186 [6:08:31<42:21,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9137/10186 [6:08:32<42:18,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9137/10186 [6:08:32<42:18,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9138/10186 [6:08:33<42:16,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  90%|▉| 9138/10186 [6:08:33<42:16,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9139/10186 [6:08:34<42:13,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9139/10186 [6:08:34<42:13,  2.42s/it, v_num=uqm9, train/loss=2."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9140/10186 [6:08:40<42:11,  2.42s/it, v_num=uqm9, train/loss=2.\r",
+      "Epoch 0:  90%|▉| 9140/10186 [6:08:40<42:11,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9141/10186 [6:08:41<42:08,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9141/10186 [6:08:41<42:08,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9142/10186 [6:08:42<42:06,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9142/10186 [6:08:42<42:06,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9143/10186 [6:08:43<42:03,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  90%|▉| 9143/10186 [6:08:43<42:03,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9144/10186 [6:08:50<42:01,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9144/10186 [6:08:50<42:01,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9145/10186 [6:08:51<41:59,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9145/10186 [6:08:51<41:59,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9146/10186 [6:08:52<41:56,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9146/10186 [6:08:52<41:56,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9147/10186 [6:08:53<41:54,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9147/10186 [6:08:53<41:54,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9148/10186 [6:09:00<41:52,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9148/10186 [6:09:00<41:52,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9149/10186 [6:09:01<41:49,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9149/10186 [6:09:01<41:49,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9150/10186 [6:09:02<41:47,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9150/10186 [6:09:02<41:47,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9151/10186 [6:09:03<41:44,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9151/10186 [6:09:03<41:44,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9152/10186 [6:09:09<41:42,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9152/10186 [6:09:09<41:42,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9153/10186 [6:09:10<41:39,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9153/10186 [6:09:10<41:39,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9154/10186 [6:09:11<41:37,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9154/10186 [6:09:11<41:37,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9155/10186 [6:09:12<41:34,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9155/10186 [6:09:12<41:34,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9156/10186 [6:09:19<41:32,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9156/10186 [6:09:19<41:32,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9157/10186 [6:09:20<41:30,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9157/10186 [6:09:20<41:30,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9158/10186 [6:09:21<41:27,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9158/10186 [6:09:21<41:27,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9159/10186 [6:09:22<41:25,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9159/10186 [6:09:22<41:25,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9160/10186 [6:09:28<41:23,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9160/10186 [6:09:28<41:23,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9161/10186 [6:09:29<41:20,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9161/10186 [6:09:29<41:20,  2.42s/it, v_num=uqm9, train/loss=1."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9162/10186 [6:09:30<41:17,  2.42s/it, v_num=uqm9, train/loss=1.\r",
+      "Epoch 0:  90%|▉| 9162/10186 [6:09:30<41:17,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9163/10186 [6:09:31<41:15,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9163/10186 [6:09:31<41:15,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9164/10186 [6:09:38<41:13,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9164/10186 [6:09:38<41:13,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9165/10186 [6:09:39<41:10,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9165/10186 [6:09:39<41:10,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9166/10186 [6:09:40<41:08,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9166/10186 [6:09:40<41:08,  2.42s/it, v_num=uqm9, train/loss=2."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9167/10186 [6:09:41<41:05,  2.42s/it, v_num=uqm9, train/loss=2.\r",
+      "Epoch 0:  90%|▉| 9167/10186 [6:09:41<41:05,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9168/10186 [6:09:47<41:03,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9168/10186 [6:09:47<41:03,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9169/10186 [6:09:48<41:01,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9169/10186 [6:09:48<41:01,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9170/10186 [6:09:49<40:58,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9170/10186 [6:09:49<40:58,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9171/10186 [6:09:50<40:55,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9171/10186 [6:09:50<40:55,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9172/10186 [6:09:57<40:54,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9172/10186 [6:09:57<40:54,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9173/10186 [6:09:58<40:51,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9173/10186 [6:09:58<40:51,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9174/10186 [6:09:59<40:48,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9174/10186 [6:09:59<40:48,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9175/10186 [6:10:00<40:46,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9175/10186 [6:10:00<40:46,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9176/10186 [6:10:06<40:44,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9176/10186 [6:10:06<40:44,  2.42s/it, v_num=uqm9, train/loss=2."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9177/10186 [6:10:08<40:41,  2.42s/it, v_num=uqm9, train/loss=2.\r",
+      "Epoch 0:  90%|▉| 9177/10186 [6:10:08<40:41,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9178/10186 [6:10:09<40:39,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9178/10186 [6:10:09<40:39,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9179/10186 [6:10:10<40:36,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9179/10186 [6:10:10<40:36,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9180/10186 [6:10:16<40:34,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9180/10186 [6:10:16<40:34,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9181/10186 [6:10:17<40:32,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9181/10186 [6:10:17<40:32,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9182/10186 [6:10:18<40:29,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9182/10186 [6:10:18<40:29,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9183/10186 [6:10:19<40:26,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9183/10186 [6:10:19<40:26,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9184/10186 [6:10:26<40:24,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9184/10186 [6:10:26<40:24,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9185/10186 [6:10:27<40:22,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9185/10186 [6:10:27<40:22,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9186/10186 [6:10:28<40:19,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9186/10186 [6:10:28<40:19,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9187/10186 [6:10:29<40:17,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9187/10186 [6:10:29<40:17,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9188/10186 [6:10:35<40:15,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9188/10186 [6:10:35<40:15,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9189/10186 [6:10:36<40:12,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9189/10186 [6:10:36<40:12,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9190/10186 [6:10:37<40:10,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9190/10186 [6:10:37<40:10,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9191/10186 [6:10:38<40:07,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9191/10186 [6:10:38<40:07,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9192/10186 [6:10:45<40:05,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9192/10186 [6:10:45<40:05,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9193/10186 [6:10:46<40:02,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9193/10186 [6:10:46<40:02,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9194/10186 [6:10:47<40:00,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9194/10186 [6:10:47<40:00,  2.42s/it, v_num=uqm9, train/loss=2."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9195/10186 [6:10:48<39:57,  2.42s/it, v_num=uqm9, train/loss=2.\r",
+      "Epoch 0:  90%|▉| 9195/10186 [6:10:48<39:57,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9196/10186 [6:10:54<39:55,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9196/10186 [6:10:54<39:55,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9197/10186 [6:10:55<39:53,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9197/10186 [6:10:55<39:53,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9198/10186 [6:10:56<39:50,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9198/10186 [6:10:56<39:50,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9199/10186 [6:10:57<39:48,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9199/10186 [6:10:57<39:48,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9200/10186 [6:11:04<39:46,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9200/10186 [6:11:04<39:46,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9201/10186 [6:11:05<39:43,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9201/10186 [6:11:05<39:43,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9202/10186 [6:11:06<39:41,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9202/10186 [6:11:06<39:41,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9203/10186 [6:11:07<39:38,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  90%|▉| 9203/10186 [6:11:07<39:38,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9204/10186 [6:11:13<39:36,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9204/10186 [6:11:13<39:36,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9205/10186 [6:11:15<39:33,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9205/10186 [6:11:15<39:33,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9206/10186 [6:11:16<39:31,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9206/10186 [6:11:16<39:31,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9207/10186 [6:11:17<39:28,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9207/10186 [6:11:17<39:28,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9208/10186 [6:11:23<39:26,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9208/10186 [6:11:23<39:26,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9209/10186 [6:11:24<39:24,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  90%|▉| 9209/10186 [6:11:24<39:24,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9210/10186 [6:11:25<39:21,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9210/10186 [6:11:25<39:21,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9211/10186 [6:11:26<39:19,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9211/10186 [6:11:26<39:19,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9212/10186 [6:11:33<39:17,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9212/10186 [6:11:33<39:17,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9213/10186 [6:11:34<39:14,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9213/10186 [6:11:34<39:14,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9214/10186 [6:11:35<39:11,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9214/10186 [6:11:35<39:11,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9215/10186 [6:11:36<39:09,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9215/10186 [6:11:36<39:09,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9216/10186 [6:11:42<39:07,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9216/10186 [6:11:42<39:07,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9217/10186 [6:11:43<39:04,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  90%|▉| 9217/10186 [6:11:43<39:04,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9218/10186 [6:11:44<39:02,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 9218/10186 [6:11:44<39:02,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9219/10186 [6:11:45<38:59,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9219/10186 [6:11:45<38:59,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9220/10186 [6:11:52<38:57,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9220/10186 [6:11:52<38:57,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9221/10186 [6:11:53<38:55,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9221/10186 [6:11:53<38:55,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9222/10186 [6:11:54<38:52,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9222/10186 [6:11:54<38:52,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9223/10186 [6:11:55<38:50,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9223/10186 [6:11:55<38:50,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9224/10186 [6:12:01<38:48,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9224/10186 [6:12:01<38:48,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9225/10186 [6:12:02<38:45,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9225/10186 [6:12:02<38:45,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9226/10186 [6:12:03<38:42,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9226/10186 [6:12:03<38:42,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9227/10186 [6:12:04<38:40,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9227/10186 [6:12:04<38:40,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9228/10186 [6:12:11<38:38,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9228/10186 [6:12:11<38:38,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9229/10186 [6:12:12<38:35,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9229/10186 [6:12:12<38:35,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9230/10186 [6:12:13<38:33,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9230/10186 [6:12:13<38:33,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9231/10186 [6:12:14<38:30,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9231/10186 [6:12:14<38:30,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9232/10186 [6:12:20<38:28,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9232/10186 [6:12:20<38:28,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9233/10186 [6:12:22<38:26,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9233/10186 [6:12:22<38:26,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9234/10186 [6:12:23<38:23,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9234/10186 [6:12:23<38:23,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9235/10186 [6:12:24<38:20,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9235/10186 [6:12:24<38:20,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9236/10186 [6:12:30<38:18,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9236/10186 [6:12:30<38:18,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9237/10186 [6:12:31<38:16,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9237/10186 [6:12:31<38:16,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9238/10186 [6:12:32<38:13,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9238/10186 [6:12:32<38:13,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9239/10186 [6:12:33<38:11,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9239/10186 [6:12:33<38:11,  2.42s/it, v_num=uqm9, train/loss=2."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9240/10186 [6:12:40<38:09,  2.42s/it, v_num=uqm9, train/loss=2.\r",
+      "Epoch 0:  91%|▉| 9240/10186 [6:12:40<38:09,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9241/10186 [6:12:41<38:06,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  91%|▉| 9241/10186 [6:12:41<38:06,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9242/10186 [6:12:42<38:04,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9242/10186 [6:12:42<38:04,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9243/10186 [6:12:43<38:01,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9243/10186 [6:12:43<38:01,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9244/10186 [6:12:49<37:59,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9244/10186 [6:12:49<37:59,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9245/10186 [6:12:50<37:56,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  91%|▉| 9245/10186 [6:12:50<37:56,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9246/10186 [6:12:51<37:54,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9246/10186 [6:12:51<37:54,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9247/10186 [6:12:52<37:51,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9247/10186 [6:12:52<37:51,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9248/10186 [6:12:59<37:49,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  91%|▉| 9248/10186 [6:12:59<37:49,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9249/10186 [6:13:00<37:47,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9249/10186 [6:13:00<37:47,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9250/10186 [6:13:01<37:44,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9250/10186 [6:13:01<37:44,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9251/10186 [6:13:02<37:42,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9251/10186 [6:13:02<37:42,  2.42s/it, v_num=uqm9, train/loss=2."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9252/10186 [6:13:08<37:40,  2.42s/it, v_num=uqm9, train/loss=2.\r",
+      "Epoch 0:  91%|▉| 9252/10186 [6:13:08<37:40,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9253/10186 [6:13:09<37:37,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  91%|▉| 9253/10186 [6:13:09<37:37,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9254/10186 [6:13:10<37:35,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9254/10186 [6:13:10<37:35,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9255/10186 [6:13:11<37:32,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9255/10186 [6:13:11<37:32,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9256/10186 [6:13:18<37:30,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9256/10186 [6:13:18<37:30,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9257/10186 [6:13:19<37:27,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9257/10186 [6:13:19<37:27,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9258/10186 [6:13:20<37:25,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9258/10186 [6:13:20<37:25,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9259/10186 [6:13:21<37:22,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9259/10186 [6:13:21<37:22,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9260/10186 [6:13:28<37:20,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9260/10186 [6:13:28<37:20,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9261/10186 [6:13:29<37:18,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9261/10186 [6:13:29<37:18,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9262/10186 [6:13:30<37:15,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  91%|▉| 9262/10186 [6:13:30<37:15,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9263/10186 [6:13:31<37:13,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9263/10186 [6:13:31<37:13,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9264/10186 [6:13:37<37:11,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9264/10186 [6:13:37<37:11,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9265/10186 [6:13:38<37:08,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9265/10186 [6:13:38<37:08,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9266/10186 [6:13:39<37:05,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9266/10186 [6:13:39<37:05,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9267/10186 [6:13:40<37:03,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9267/10186 [6:13:40<37:03,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9268/10186 [6:13:47<37:01,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9268/10186 [6:13:47<37:01,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9269/10186 [6:13:48<36:58,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9269/10186 [6:13:48<36:58,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9270/10186 [6:13:49<36:56,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9270/10186 [6:13:49<36:56,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9271/10186 [6:13:50<36:53,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9271/10186 [6:13:50<36:53,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9272/10186 [6:13:56<36:51,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9272/10186 [6:13:56<36:51,  2.42s/it, v_num=uqm9, train/loss=2."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9273/10186 [6:13:57<36:49,  2.42s/it, v_num=uqm9, train/loss=2.\r",
+      "Epoch 0:  91%|▉| 9273/10186 [6:13:57<36:49,  2.42s/it, v_num=uqm9, train/loss=2."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9274/10186 [6:13:58<36:46,  2.42s/it, v_num=uqm9, train/loss=2.\r",
+      "Epoch 0:  91%|▉| 9274/10186 [6:13:58<36:46,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9275/10186 [6:13:59<36:44,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9275/10186 [6:13:59<36:44,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9276/10186 [6:14:06<36:42,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9276/10186 [6:14:06<36:42,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9277/10186 [6:14:07<36:39,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9277/10186 [6:14:07<36:39,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9278/10186 [6:14:08<36:36,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  91%|▉| 9278/10186 [6:14:08<36:36,  2.42s/it, v_num=uqm9, train/loss=2."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9279/10186 [6:14:09<36:34,  2.42s/it, v_num=uqm9, train/loss=2.\r",
+      "Epoch 0:  91%|▉| 9279/10186 [6:14:09<36:34,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9280/10186 [6:14:15<36:32,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9280/10186 [6:14:15<36:32,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9281/10186 [6:14:16<36:29,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9281/10186 [6:14:16<36:29,  2.42s/it, v_num=uqm9, train/loss=2."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9282/10186 [6:14:17<36:27,  2.42s/it, v_num=uqm9, train/loss=2.\r",
+      "Epoch 0:  91%|▉| 9282/10186 [6:14:17<36:27,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9283/10186 [6:14:19<36:24,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9283/10186 [6:14:19<36:24,  2.42s/it, v_num=uqm9, train/loss=2."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9284/10186 [6:14:25<36:22,  2.42s/it, v_num=uqm9, train/loss=2.\r",
+      "Epoch 0:  91%|▉| 9284/10186 [6:14:25<36:22,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9285/10186 [6:14:26<36:20,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9285/10186 [6:14:26<36:20,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9286/10186 [6:14:27<36:17,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9286/10186 [6:14:27<36:17,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9287/10186 [6:14:28<36:15,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9287/10186 [6:14:28<36:15,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9288/10186 [6:14:35<36:12,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9288/10186 [6:14:35<36:12,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9289/10186 [6:14:36<36:10,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9289/10186 [6:14:36<36:10,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9290/10186 [6:14:37<36:07,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9290/10186 [6:14:37<36:07,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9291/10186 [6:14:38<36:05,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9291/10186 [6:14:38<36:05,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9292/10186 [6:14:44<36:03,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9292/10186 [6:14:44<36:03,  2.42s/it, v_num=uqm9, train/loss=2."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9293/10186 [6:14:45<36:00,  2.42s/it, v_num=uqm9, train/loss=2.\r",
+      "Epoch 0:  91%|▉| 9293/10186 [6:14:45<36:00,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9294/10186 [6:14:46<35:58,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9294/10186 [6:14:46<35:58,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9295/10186 [6:14:47<35:55,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9295/10186 [6:14:47<35:55,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9296/10186 [6:14:54<35:53,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9296/10186 [6:14:54<35:53,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9297/10186 [6:14:55<35:51,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9297/10186 [6:14:55<35:51,  2.42s/it, v_num=uqm9, train/loss=2."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9298/10186 [6:14:56<35:48,  2.42s/it, v_num=uqm9, train/loss=2.\r",
+      "Epoch 0:  91%|▉| 9298/10186 [6:14:56<35:48,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9299/10186 [6:14:57<35:45,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9299/10186 [6:14:57<35:45,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9300/10186 [6:15:03<35:43,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9300/10186 [6:15:03<35:43,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9301/10186 [6:15:04<35:41,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9301/10186 [6:15:04<35:41,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9302/10186 [6:15:05<35:38,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9302/10186 [6:15:05<35:38,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9303/10186 [6:15:06<35:36,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9303/10186 [6:15:06<35:36,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9304/10186 [6:15:13<35:34,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9304/10186 [6:15:13<35:34,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9305/10186 [6:15:14<35:31,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9305/10186 [6:15:14<35:31,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9306/10186 [6:15:15<35:29,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9306/10186 [6:15:15<35:29,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9307/10186 [6:15:16<35:26,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9307/10186 [6:15:16<35:26,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9308/10186 [6:15:22<35:24,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9308/10186 [6:15:22<35:24,  2.42s/it, v_num=uqm9, train/loss=2."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9309/10186 [6:15:23<35:21,  2.42s/it, v_num=uqm9, train/loss=2.\r",
+      "Epoch 0:  91%|▉| 9309/10186 [6:15:23<35:21,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9310/10186 [6:15:24<35:19,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9310/10186 [6:15:24<35:19,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9311/10186 [6:15:26<35:16,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9311/10186 [6:15:26<35:16,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9312/10186 [6:15:32<35:14,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9312/10186 [6:15:32<35:14,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9313/10186 [6:15:33<35:12,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9313/10186 [6:15:33<35:12,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9314/10186 [6:15:34<35:09,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9314/10186 [6:15:34<35:09,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9315/10186 [6:15:35<35:07,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9315/10186 [6:15:35<35:07,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9316/10186 [6:15:42<35:05,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9316/10186 [6:15:42<35:05,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9317/10186 [6:15:43<35:02,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9317/10186 [6:15:43<35:02,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9318/10186 [6:15:44<35:00,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9318/10186 [6:15:44<35:00,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9319/10186 [6:15:45<34:57,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9319/10186 [6:15:45<34:57,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 9320/10186 [6:15:51<34:55,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  91%|▉| 9320/10186 [6:15:51<34:55,  2.42s/it, v_num=uqm9, train/loss=2."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9321/10186 [6:15:52<34:52,  2.42s/it, v_num=uqm9, train/loss=2."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9321/10186 [6:15:52<34:52,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9322/10186 [6:15:53<34:50,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9322/10186 [6:15:53<34:50,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9323/10186 [6:15:54<34:47,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9323/10186 [6:15:54<34:47,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9324/10186 [6:16:01<34:45,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9324/10186 [6:16:01<34:45,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9325/10186 [6:16:02<34:43,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9325/10186 [6:16:02<34:43,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9326/10186 [6:16:03<34:40,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9326/10186 [6:16:03<34:40,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9327/10186 [6:16:04<34:38,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9327/10186 [6:16:04<34:38,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9328/10186 [6:16:10<34:36,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9328/10186 [6:16:10<34:36,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9329/10186 [6:16:11<34:33,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9329/10186 [6:16:11<34:33,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9330/10186 [6:16:12<34:30,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9330/10186 [6:16:12<34:30,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9331/10186 [6:16:13<34:28,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9331/10186 [6:16:13<34:28,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9332/10186 [6:16:20<34:26,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9332/10186 [6:16:20<34:26,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9333/10186 [6:16:21<34:23,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9333/10186 [6:16:21<34:23,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9334/10186 [6:16:22<34:21,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9334/10186 [6:16:22<34:21,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9335/10186 [6:16:23<34:18,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  92%|▉| 9335/10186 [6:16:23<34:18,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9336/10186 [6:16:29<34:16,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9336/10186 [6:16:29<34:16,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9337/10186 [6:16:30<34:14,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9337/10186 [6:16:30<34:14,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9338/10186 [6:16:32<34:11,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  92%|▉| 9338/10186 [6:16:32<34:11,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9339/10186 [6:16:33<34:09,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9339/10186 [6:16:33<34:09,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9340/10186 [6:16:39<34:07,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9340/10186 [6:16:39<34:07,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9341/10186 [6:16:40<34:04,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9341/10186 [6:16:40<34:04,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9342/10186 [6:16:41<34:01,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9342/10186 [6:16:41<34:01,  2.42s/it, v_num=uqm9, train/loss=2."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9343/10186 [6:16:42<33:59,  2.42s/it, v_num=uqm9, train/loss=2.\r",
+      "Epoch 0:  92%|▉| 9343/10186 [6:16:42<33:59,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9344/10186 [6:16:49<33:57,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9344/10186 [6:16:49<33:57,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9345/10186 [6:16:50<33:54,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9345/10186 [6:16:50<33:54,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9346/10186 [6:16:51<33:52,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9346/10186 [6:16:51<33:52,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9347/10186 [6:16:52<33:49,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9347/10186 [6:16:52<33:49,  2.42s/it, v_num=uqm9, train/loss=2."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9348/10186 [6:16:58<33:47,  2.42s/it, v_num=uqm9, train/loss=2.\r",
+      "Epoch 0:  92%|▉| 9348/10186 [6:16:58<33:47,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9349/10186 [6:16:59<33:45,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9349/10186 [6:16:59<33:45,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9350/10186 [6:17:00<33:42,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9350/10186 [6:17:00<33:42,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9351/10186 [6:17:01<33:40,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9351/10186 [6:17:01<33:40,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9352/10186 [6:17:08<33:37,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9352/10186 [6:17:08<33:37,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9353/10186 [6:17:09<33:35,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9353/10186 [6:17:09<33:35,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9354/10186 [6:17:10<33:32,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9354/10186 [6:17:10<33:32,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9355/10186 [6:17:11<33:30,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9355/10186 [6:17:11<33:30,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9356/10186 [6:17:17<33:28,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9356/10186 [6:17:17<33:28,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9357/10186 [6:17:18<33:25,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9357/10186 [6:17:18<33:25,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9358/10186 [6:17:19<33:23,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9358/10186 [6:17:19<33:23,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9359/10186 [6:17:20<33:20,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9359/10186 [6:17:20<33:20,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9360/10186 [6:17:27<33:18,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9360/10186 [6:17:27<33:18,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9361/10186 [6:17:28<33:16,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9361/10186 [6:17:28<33:16,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9362/10186 [6:17:29<33:13,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9362/10186 [6:17:29<33:13,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9363/10186 [6:17:30<33:10,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9363/10186 [6:17:30<33:10,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9364/10186 [6:17:36<33:08,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9364/10186 [6:17:36<33:08,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9365/10186 [6:17:37<33:06,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9365/10186 [6:17:37<33:06,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9366/10186 [6:17:39<33:03,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9366/10186 [6:17:39<33:03,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9367/10186 [6:17:40<33:01,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9367/10186 [6:17:40<33:01,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9368/10186 [6:17:46<32:59,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9368/10186 [6:17:46<32:59,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9369/10186 [6:17:47<32:56,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9369/10186 [6:17:47<32:56,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9370/10186 [6:17:48<32:54,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9370/10186 [6:17:48<32:54,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9371/10186 [6:17:49<32:51,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9371/10186 [6:17:49<32:51,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9372/10186 [6:17:56<32:49,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9372/10186 [6:17:56<32:49,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9373/10186 [6:17:57<32:46,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9373/10186 [6:17:57<32:46,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9374/10186 [6:17:58<32:44,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9374/10186 [6:17:58<32:44,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9375/10186 [6:17:59<32:41,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9375/10186 [6:17:59<32:41,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9376/10186 [6:18:05<32:39,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9376/10186 [6:18:05<32:39,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9377/10186 [6:18:06<32:37,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9377/10186 [6:18:06<32:37,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9378/10186 [6:18:07<32:34,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9378/10186 [6:18:07<32:34,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9379/10186 [6:18:08<32:32,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  92%|▉| 9379/10186 [6:18:08<32:32,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9380/10186 [6:18:15<32:30,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9380/10186 [6:18:15<32:30,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9381/10186 [6:18:16<32:27,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9381/10186 [6:18:16<32:27,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9382/10186 [6:18:17<32:25,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9382/10186 [6:18:17<32:25,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9383/10186 [6:18:18<32:22,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9383/10186 [6:18:18<32:22,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9384/10186 [6:18:24<32:20,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9384/10186 [6:18:24<32:20,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9385/10186 [6:18:25<32:17,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9385/10186 [6:18:25<32:17,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9386/10186 [6:18:26<32:15,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9386/10186 [6:18:26<32:15,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9387/10186 [6:18:27<32:12,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9387/10186 [6:18:27<32:12,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9388/10186 [6:18:34<32:10,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9388/10186 [6:18:34<32:10,  2.42s/it, v_num=uqm9, train/loss=2."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9389/10186 [6:18:35<32:08,  2.42s/it, v_num=uqm9, train/loss=2.\r",
+      "Epoch 0:  92%|▉| 9389/10186 [6:18:35<32:08,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9390/10186 [6:18:36<32:05,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9390/10186 [6:18:36<32:05,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9391/10186 [6:18:37<32:03,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9391/10186 [6:18:37<32:03,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9392/10186 [6:18:43<32:01,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9392/10186 [6:18:43<32:01,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9393/10186 [6:18:44<31:58,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9393/10186 [6:18:44<31:58,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9394/10186 [6:18:45<31:56,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9394/10186 [6:18:45<31:56,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9395/10186 [6:18:47<31:53,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9395/10186 [6:18:47<31:53,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9396/10186 [6:18:53<31:51,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9396/10186 [6:18:53<31:51,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9397/10186 [6:18:54<31:48,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9397/10186 [6:18:54<31:48,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9398/10186 [6:18:55<31:46,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9398/10186 [6:18:55<31:46,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9399/10186 [6:18:56<31:43,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9399/10186 [6:18:56<31:43,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9400/10186 [6:19:03<31:41,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9400/10186 [6:19:03<31:41,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9401/10186 [6:19:04<31:39,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9401/10186 [6:19:04<31:39,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9402/10186 [6:19:05<31:36,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9402/10186 [6:19:05<31:36,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9403/10186 [6:19:06<31:34,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9403/10186 [6:19:06<31:34,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9404/10186 [6:19:12<31:32,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9404/10186 [6:19:12<31:32,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9405/10186 [6:19:13<31:29,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9405/10186 [6:19:13<31:29,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9406/10186 [6:19:14<31:26,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9406/10186 [6:19:14<31:26,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9407/10186 [6:19:15<31:24,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9407/10186 [6:19:15<31:24,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9408/10186 [6:19:22<31:22,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9408/10186 [6:19:22<31:22,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9409/10186 [6:19:23<31:19,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9409/10186 [6:19:23<31:19,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9410/10186 [6:19:24<31:17,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9410/10186 [6:19:24<31:17,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9411/10186 [6:19:25<31:14,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9411/10186 [6:19:25<31:14,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9412/10186 [6:19:31<31:12,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9412/10186 [6:19:31<31:12,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9413/10186 [6:19:32<31:10,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9413/10186 [6:19:32<31:10,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9414/10186 [6:19:33<31:07,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9414/10186 [6:19:33<31:07,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9415/10186 [6:19:34<31:05,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9415/10186 [6:19:34<31:05,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9416/10186 [6:19:41<31:02,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9416/10186 [6:19:41<31:02,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9417/10186 [6:19:42<31:00,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9417/10186 [6:19:42<31:00,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9418/10186 [6:19:43<30:57,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9418/10186 [6:19:43<30:57,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9419/10186 [6:19:44<30:55,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  92%|▉| 9419/10186 [6:19:44<30:55,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9420/10186 [6:19:50<30:53,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9420/10186 [6:19:50<30:53,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9421/10186 [6:19:51<30:50,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  92%|▉| 9421/10186 [6:19:51<30:50,  2.42s/it, v_num=uqm9, train/loss=2."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 9422/10186 [6:19:53<30:48,  2.42s/it, v_num=uqm9, train/loss=2.\r",
+      "Epoch 0:  92%|▉| 9422/10186 [6:19:53<30:48,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9423/10186 [6:19:54<30:45,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9423/10186 [6:19:54<30:45,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9424/10186 [6:20:00<30:43,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9424/10186 [6:20:00<30:43,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9425/10186 [6:20:01<30:41,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9425/10186 [6:20:01<30:41,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9426/10186 [6:20:02<30:38,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9426/10186 [6:20:02<30:38,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9427/10186 [6:20:03<30:35,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9427/10186 [6:20:03<30:35,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9428/10186 [6:20:10<30:33,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9428/10186 [6:20:10<30:33,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9429/10186 [6:20:11<30:31,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9429/10186 [6:20:11<30:31,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9430/10186 [6:20:12<30:28,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9430/10186 [6:20:12<30:28,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9431/10186 [6:20:13<30:26,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9431/10186 [6:20:13<30:26,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9432/10186 [6:20:19<30:24,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9432/10186 [6:20:19<30:24,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9433/10186 [6:20:20<30:21,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9433/10186 [6:20:20<30:21,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9434/10186 [6:20:21<30:19,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9434/10186 [6:20:21<30:19,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9435/10186 [6:20:22<30:16,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9435/10186 [6:20:22<30:16,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9436/10186 [6:20:29<30:14,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9436/10186 [6:20:29<30:14,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9437/10186 [6:20:30<30:12,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9437/10186 [6:20:30<30:12,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9438/10186 [6:20:31<30:09,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9438/10186 [6:20:31<30:09,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9439/10186 [6:20:32<30:06,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9439/10186 [6:20:32<30:06,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9440/10186 [6:20:38<30:04,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9440/10186 [6:20:38<30:04,  2.42s/it, v_num=uqm9, train/loss=2."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9441/10186 [6:20:39<30:02,  2.42s/it, v_num=uqm9, train/loss=2.\r",
+      "Epoch 0:  93%|▉| 9441/10186 [6:20:39<30:02,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9442/10186 [6:20:40<29:59,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9442/10186 [6:20:40<29:59,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9443/10186 [6:20:41<29:57,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9443/10186 [6:20:41<29:57,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9444/10186 [6:20:48<29:55,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9444/10186 [6:20:48<29:55,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9445/10186 [6:20:49<29:52,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9445/10186 [6:20:49<29:52,  2.42s/it, v_num=uqm9, train/loss=2."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9446/10186 [6:20:50<29:50,  2.42s/it, v_num=uqm9, train/loss=2."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9446/10186 [6:20:50<29:50,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9447/10186 [6:20:51<29:47,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9447/10186 [6:20:51<29:47,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9448/10186 [6:20:57<29:45,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9448/10186 [6:20:57<29:45,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9449/10186 [6:20:58<29:42,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9449/10186 [6:20:58<29:42,  2.42s/it, v_num=uqm9, train/loss=1."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9450/10186 [6:20:59<29:40,  2.42s/it, v_num=uqm9, train/loss=1.\r",
+      "Epoch 0:  93%|▉| 9450/10186 [6:20:59<29:40,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9451/10186 [6:21:01<29:37,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9451/10186 [6:21:01<29:37,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9452/10186 [6:21:07<29:35,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9452/10186 [6:21:07<29:35,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9453/10186 [6:21:08<29:33,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9453/10186 [6:21:08<29:33,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9454/10186 [6:21:09<29:30,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9454/10186 [6:21:09<29:30,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9455/10186 [6:21:10<29:28,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9455/10186 [6:21:10<29:28,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9456/10186 [6:21:17<29:26,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9456/10186 [6:21:17<29:26,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9457/10186 [6:21:18<29:23,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9457/10186 [6:21:18<29:23,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9458/10186 [6:21:19<29:21,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9458/10186 [6:21:19<29:21,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9459/10186 [6:21:20<29:18,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9459/10186 [6:21:20<29:18,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9460/10186 [6:21:26<29:16,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9460/10186 [6:21:26<29:16,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9461/10186 [6:21:27<29:13,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9461/10186 [6:21:27<29:13,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9462/10186 [6:21:28<29:11,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  93%|▉| 9462/10186 [6:21:28<29:11,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9463/10186 [6:21:29<29:08,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9463/10186 [6:21:29<29:08,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9464/10186 [6:21:36<29:06,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9464/10186 [6:21:36<29:06,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9465/10186 [6:21:37<29:04,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9465/10186 [6:21:37<29:04,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9466/10186 [6:21:38<29:01,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9466/10186 [6:21:38<29:01,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9467/10186 [6:21:39<28:59,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9467/10186 [6:21:39<28:59,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9468/10186 [6:21:45<28:57,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9468/10186 [6:21:45<28:57,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9469/10186 [6:21:46<28:54,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9469/10186 [6:21:46<28:54,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9470/10186 [6:21:47<28:51,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9470/10186 [6:21:47<28:51,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9471/10186 [6:21:48<28:49,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9471/10186 [6:21:48<28:49,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9472/10186 [6:21:55<28:47,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9472/10186 [6:21:55<28:47,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9473/10186 [6:21:56<28:44,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9473/10186 [6:21:56<28:44,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9474/10186 [6:21:57<28:42,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9474/10186 [6:21:57<28:42,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9475/10186 [6:21:58<28:39,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9475/10186 [6:21:58<28:39,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9476/10186 [6:22:04<28:37,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9476/10186 [6:22:04<28:37,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9477/10186 [6:22:05<28:35,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9477/10186 [6:22:05<28:35,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9478/10186 [6:22:06<28:32,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9478/10186 [6:22:06<28:32,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9479/10186 [6:22:08<28:30,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9479/10186 [6:22:08<28:30,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9480/10186 [6:22:14<28:27,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9480/10186 [6:22:14<28:27,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9481/10186 [6:22:15<28:25,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9481/10186 [6:22:15<28:25,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9482/10186 [6:22:16<28:22,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9482/10186 [6:22:16<28:22,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9483/10186 [6:22:17<28:20,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9483/10186 [6:22:17<28:20,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9484/10186 [6:22:24<28:18,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9484/10186 [6:22:24<28:18,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9485/10186 [6:22:25<28:15,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9485/10186 [6:22:25<28:15,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9486/10186 [6:22:26<28:13,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9486/10186 [6:22:26<28:13,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9487/10186 [6:22:27<28:10,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9487/10186 [6:22:27<28:10,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9488/10186 [6:22:33<28:08,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9488/10186 [6:22:33<28:08,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9489/10186 [6:22:34<28:06,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9489/10186 [6:22:34<28:06,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9490/10186 [6:22:35<28:03,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9490/10186 [6:22:35<28:03,  2.42s/it, v_num=uqm9, train/loss=2."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9491/10186 [6:22:36<28:01,  2.42s/it, v_num=uqm9, train/loss=2.\r",
+      "Epoch 0:  93%|▉| 9491/10186 [6:22:36<28:01,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9492/10186 [6:22:43<27:58,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9492/10186 [6:22:43<27:58,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9493/10186 [6:22:44<27:56,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9493/10186 [6:22:44<27:56,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9494/10186 [6:22:45<27:53,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9494/10186 [6:22:45<27:53,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9495/10186 [6:22:46<27:51,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  93%|▉| 9495/10186 [6:22:46<27:51,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9496/10186 [6:22:52<27:49,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9496/10186 [6:22:52<27:49,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9497/10186 [6:22:53<27:46,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9497/10186 [6:22:53<27:46,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9498/10186 [6:22:54<27:44,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9498/10186 [6:22:54<27:44,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9499/10186 [6:22:55<27:41,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9499/10186 [6:22:55<27:41,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9500/10186 [6:23:02<27:39,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9500/10186 [6:23:02<27:39,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9501/10186 [6:23:03<27:37,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9501/10186 [6:23:03<27:37,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9502/10186 [6:23:04<27:34,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9502/10186 [6:23:04<27:34,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9503/10186 [6:23:05<27:32,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9503/10186 [6:23:05<27:32,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9504/10186 [6:23:11<27:29,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9504/10186 [6:23:11<27:29,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9505/10186 [6:23:12<27:27,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9505/10186 [6:23:12<27:27,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9506/10186 [6:23:13<27:24,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9506/10186 [6:23:13<27:24,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9507/10186 [6:23:14<27:22,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9507/10186 [6:23:14<27:22,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9508/10186 [6:23:21<27:20,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9508/10186 [6:23:21<27:20,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9509/10186 [6:23:22<27:17,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9509/10186 [6:23:22<27:17,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9510/10186 [6:23:23<27:15,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9510/10186 [6:23:23<27:15,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9511/10186 [6:23:24<27:12,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9511/10186 [6:23:24<27:12,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9512/10186 [6:23:31<27:10,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9512/10186 [6:23:31<27:10,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9513/10186 [6:23:32<27:07,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9513/10186 [6:23:32<27:07,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9514/10186 [6:23:33<27:05,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9514/10186 [6:23:33<27:05,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9515/10186 [6:23:34<27:02,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9515/10186 [6:23:34<27:02,  2.42s/it, v_num=uqm9, train/loss=2."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9516/10186 [6:23:40<27:00,  2.42s/it, v_num=uqm9, train/loss=2."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9516/10186 [6:23:40<27:00,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9517/10186 [6:23:41<26:58,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9517/10186 [6:23:41<26:58,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9518/10186 [6:23:42<26:55,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9518/10186 [6:23:42<26:55,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9519/10186 [6:23:43<26:53,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9519/10186 [6:23:43<26:53,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9520/10186 [6:23:50<26:51,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9520/10186 [6:23:50<26:51,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9521/10186 [6:23:51<26:48,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9521/10186 [6:23:51<26:48,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9522/10186 [6:23:52<26:46,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9522/10186 [6:23:52<26:46,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 9523/10186 [6:23:53<26:43,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  93%|▉| 9523/10186 [6:23:53<26:43,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9524/10186 [6:23:59<26:41,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9524/10186 [6:23:59<26:41,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9525/10186 [6:24:00<26:38,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9525/10186 [6:24:00<26:38,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9526/10186 [6:24:01<26:36,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9526/10186 [6:24:01<26:36,  2.42s/it, v_num=uqm9, train/loss=2."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9527/10186 [6:24:02<26:33,  2.42s/it, v_num=uqm9, train/loss=2.\r",
+      "Epoch 0:  94%|▉| 9527/10186 [6:24:02<26:33,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9528/10186 [6:24:09<26:31,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9528/10186 [6:24:09<26:31,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9529/10186 [6:24:10<26:29,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9529/10186 [6:24:10<26:29,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9530/10186 [6:24:11<26:26,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9530/10186 [6:24:11<26:26,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9531/10186 [6:24:12<26:24,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9531/10186 [6:24:12<26:24,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9532/10186 [6:24:18<26:22,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9532/10186 [6:24:18<26:22,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9533/10186 [6:24:19<26:19,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9533/10186 [6:24:19<26:19,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9534/10186 [6:24:20<26:17,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  94%|▉| 9534/10186 [6:24:20<26:17,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9535/10186 [6:24:22<26:14,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9535/10186 [6:24:22<26:14,  2.42s/it, v_num=uqm9, train/loss=2."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9536/10186 [6:24:28<26:12,  2.42s/it, v_num=uqm9, train/loss=2.\r",
+      "Epoch 0:  94%|▉| 9536/10186 [6:24:28<26:12,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9537/10186 [6:24:29<26:09,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9537/10186 [6:24:29<26:09,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9538/10186 [6:24:30<26:07,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9538/10186 [6:24:30<26:07,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9539/10186 [6:24:31<26:04,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9539/10186 [6:24:31<26:04,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9540/10186 [6:24:38<26:02,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9540/10186 [6:24:38<26:02,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9541/10186 [6:24:39<26:00,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9541/10186 [6:24:39<26:00,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9542/10186 [6:24:40<25:57,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  94%|▉| 9542/10186 [6:24:40<25:57,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9543/10186 [6:24:41<25:55,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9543/10186 [6:24:41<25:55,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9544/10186 [6:24:47<25:53,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9544/10186 [6:24:47<25:53,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9545/10186 [6:24:48<25:50,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9545/10186 [6:24:48<25:50,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9546/10186 [6:24:49<25:48,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9546/10186 [6:24:49<25:48,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9547/10186 [6:24:50<25:45,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9547/10186 [6:24:50<25:45,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9548/10186 [6:24:57<25:43,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9548/10186 [6:24:57<25:43,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9549/10186 [6:24:58<25:40,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9549/10186 [6:24:58<25:40,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9550/10186 [6:24:59<25:38,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9550/10186 [6:24:59<25:38,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9551/10186 [6:25:00<25:35,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9551/10186 [6:25:00<25:35,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9552/10186 [6:25:06<25:33,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9552/10186 [6:25:06<25:33,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9553/10186 [6:25:07<25:31,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9553/10186 [6:25:07<25:31,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9554/10186 [6:25:08<25:28,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9554/10186 [6:25:08<25:28,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9555/10186 [6:25:09<25:26,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9555/10186 [6:25:09<25:26,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9556/10186 [6:25:16<25:23,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9556/10186 [6:25:16<25:23,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9557/10186 [6:25:17<25:21,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9557/10186 [6:25:17<25:21,  2.42s/it, v_num=uqm9, train/loss=2."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9558/10186 [6:25:18<25:18,  2.42s/it, v_num=uqm9, train/loss=2.\r",
+      "Epoch 0:  94%|▉| 9558/10186 [6:25:18<25:18,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9559/10186 [6:25:19<25:16,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9559/10186 [6:25:19<25:16,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9560/10186 [6:25:25<25:14,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  94%|▉| 9560/10186 [6:25:25<25:14,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9561/10186 [6:25:26<25:11,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  94%|▉| 9561/10186 [6:25:26<25:11,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9562/10186 [6:25:27<25:09,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9562/10186 [6:25:27<25:09,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9563/10186 [6:25:29<25:06,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9563/10186 [6:25:29<25:06,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9564/10186 [6:25:35<25:04,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9564/10186 [6:25:35<25:04,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9565/10186 [6:25:36<25:02,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9565/10186 [6:25:36<25:02,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9566/10186 [6:25:37<24:59,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  94%|▉| 9566/10186 [6:25:37<24:59,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9567/10186 [6:25:38<24:57,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9567/10186 [6:25:38<24:57,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9568/10186 [6:25:45<24:54,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9568/10186 [6:25:45<24:54,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9569/10186 [6:25:46<24:52,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9569/10186 [6:25:46<24:52,  2.42s/it, v_num=uqm9, train/loss=1."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9570/10186 [6:25:47<24:49,  2.42s/it, v_num=uqm9, train/loss=1.\r",
+      "Epoch 0:  94%|▉| 9570/10186 [6:25:47<24:49,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9571/10186 [6:25:48<24:47,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9571/10186 [6:25:48<24:47,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9572/10186 [6:25:54<24:45,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9572/10186 [6:25:54<24:45,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9573/10186 [6:25:55<24:42,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9573/10186 [6:25:55<24:42,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9574/10186 [6:25:56<24:40,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9574/10186 [6:25:56<24:40,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9575/10186 [6:25:57<24:37,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9575/10186 [6:25:57<24:37,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9576/10186 [6:26:04<24:35,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  94%|▉| 9576/10186 [6:26:04<24:35,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9577/10186 [6:26:05<24:33,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9577/10186 [6:26:05<24:33,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9578/10186 [6:26:06<24:30,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9578/10186 [6:26:06<24:30,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9579/10186 [6:26:07<24:28,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9579/10186 [6:26:07<24:28,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9580/10186 [6:26:13<24:25,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9580/10186 [6:26:13<24:25,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9581/10186 [6:26:14<24:23,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  94%|▉| 9581/10186 [6:26:14<24:23,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9582/10186 [6:26:15<24:20,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9582/10186 [6:26:15<24:20,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9583/10186 [6:26:16<24:18,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9583/10186 [6:26:16<24:18,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9584/10186 [6:26:23<24:16,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9584/10186 [6:26:23<24:16,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9585/10186 [6:26:24<24:13,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  94%|▉| 9585/10186 [6:26:24<24:13,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9586/10186 [6:26:25<24:11,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9586/10186 [6:26:25<24:11,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9587/10186 [6:26:26<24:08,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9587/10186 [6:26:26<24:08,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9588/10186 [6:26:32<24:06,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9588/10186 [6:26:32<24:06,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9589/10186 [6:26:33<24:04,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9589/10186 [6:26:33<24:04,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9590/10186 [6:26:34<24:01,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9590/10186 [6:26:34<24:01,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9591/10186 [6:26:36<23:59,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  94%|▉| 9591/10186 [6:26:36<23:59,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9592/10186 [6:26:42<23:56,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9592/10186 [6:26:42<23:56,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9593/10186 [6:26:43<23:54,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9593/10186 [6:26:43<23:54,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9594/10186 [6:26:44<23:51,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9594/10186 [6:26:44<23:51,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9595/10186 [6:26:45<23:49,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  94%|▉| 9595/10186 [6:26:45<23:49,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9596/10186 [6:26:52<23:47,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9596/10186 [6:26:52<23:47,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9597/10186 [6:26:53<23:44,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9597/10186 [6:26:53<23:44,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9598/10186 [6:26:54<23:42,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9598/10186 [6:26:54<23:42,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9599/10186 [6:26:55<23:39,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9599/10186 [6:26:55<23:39,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9600/10186 [6:27:01<23:37,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9600/10186 [6:27:01<23:37,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9601/10186 [6:27:02<23:34,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9601/10186 [6:27:02<23:34,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9602/10186 [6:27:03<23:32,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9602/10186 [6:27:03<23:32,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9603/10186 [6:27:04<23:29,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9603/10186 [6:27:04<23:29,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9604/10186 [6:27:11<23:27,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9604/10186 [6:27:11<23:27,  2.42s/it, v_num=uqm9, train/loss=2."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9605/10186 [6:27:12<23:25,  2.42s/it, v_num=uqm9, train/loss=2.\r",
+      "Epoch 0:  94%|▉| 9605/10186 [6:27:12<23:25,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9606/10186 [6:27:13<23:22,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9606/10186 [6:27:13<23:22,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9607/10186 [6:27:14<23:20,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9607/10186 [6:27:14<23:20,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9608/10186 [6:27:20<23:18,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9608/10186 [6:27:20<23:18,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9609/10186 [6:27:21<23:15,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9609/10186 [6:27:21<23:15,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9610/10186 [6:27:22<23:13,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9610/10186 [6:27:22<23:13,  2.42s/it, v_num=uqm9, train/loss=2."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9611/10186 [6:27:23<23:10,  2.42s/it, v_num=uqm9, train/loss=2.\r",
+      "Epoch 0:  94%|▉| 9611/10186 [6:27:23<23:10,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9612/10186 [6:27:30<23:08,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9612/10186 [6:27:30<23:08,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9613/10186 [6:27:31<23:05,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9613/10186 [6:27:31<23:05,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9614/10186 [6:27:32<23:03,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9614/10186 [6:27:32<23:03,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9615/10186 [6:27:33<23:00,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9615/10186 [6:27:33<23:00,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9616/10186 [6:27:39<22:58,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9616/10186 [6:27:39<22:58,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9617/10186 [6:27:40<22:56,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9617/10186 [6:27:40<22:56,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9618/10186 [6:27:41<22:53,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9618/10186 [6:27:41<22:53,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9619/10186 [6:27:42<22:51,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9619/10186 [6:27:42<22:51,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9620/10186 [6:27:49<22:49,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9620/10186 [6:27:49<22:49,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9621/10186 [6:27:50<22:46,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9621/10186 [6:27:50<22:46,  2.42s/it, v_num=uqm9, train/loss=2."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9622/10186 [6:27:51<22:44,  2.42s/it, v_num=uqm9, train/loss=2.\r",
+      "Epoch 0:  94%|▉| 9622/10186 [6:27:51<22:44,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9623/10186 [6:27:52<22:41,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  94%|▉| 9623/10186 [6:27:52<22:41,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9624/10186 [6:27:59<22:39,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9624/10186 [6:27:59<22:39,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 9625/10186 [6:28:00<22:36,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  94%|▉| 9625/10186 [6:28:00<22:36,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9626/10186 [6:28:01<22:34,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9626/10186 [6:28:01<22:34,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9627/10186 [6:28:02<22:31,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  95%|▉| 9627/10186 [6:28:02<22:31,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9628/10186 [6:28:08<22:29,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  95%|▉| 9628/10186 [6:28:08<22:29,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9629/10186 [6:28:09<22:27,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9629/10186 [6:28:09<22:27,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9630/10186 [6:28:10<22:24,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9630/10186 [6:28:10<22:24,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9631/10186 [6:28:11<22:22,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9631/10186 [6:28:11<22:22,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9632/10186 [6:28:18<22:20,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9632/10186 [6:28:18<22:20,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9633/10186 [6:28:19<22:17,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9633/10186 [6:28:19<22:17,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9634/10186 [6:28:20<22:15,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9634/10186 [6:28:20<22:15,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9635/10186 [6:28:21<22:12,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9635/10186 [6:28:21<22:12,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9636/10186 [6:28:27<22:10,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9636/10186 [6:28:27<22:10,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9637/10186 [6:28:28<22:07,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  95%|▉| 9637/10186 [6:28:28<22:07,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9638/10186 [6:28:29<22:05,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9638/10186 [6:28:29<22:05,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9639/10186 [6:28:30<22:02,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  95%|▉| 9639/10186 [6:28:30<22:02,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9640/10186 [6:28:37<22:00,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9640/10186 [6:28:37<22:00,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9641/10186 [6:28:38<21:58,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9641/10186 [6:28:38<21:58,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9642/10186 [6:28:39<21:55,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9642/10186 [6:28:39<21:55,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9643/10186 [6:28:40<21:53,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9643/10186 [6:28:40<21:53,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9644/10186 [6:28:46<21:50,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9644/10186 [6:28:46<21:50,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9645/10186 [6:28:47<21:48,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9645/10186 [6:28:47<21:48,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|��| 9646/10186 [6:28:48<21:45,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9646/10186 [6:28:48<21:45,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9647/10186 [6:28:49<21:43,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9647/10186 [6:28:49<21:43,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9648/10186 [6:28:56<21:41,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9648/10186 [6:28:56<21:41,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9649/10186 [6:28:57<21:38,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9649/10186 [6:28:57<21:38,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9650/10186 [6:28:58<21:36,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9650/10186 [6:28:58<21:36,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9651/10186 [6:28:59<21:33,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9651/10186 [6:28:59<21:33,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9652/10186 [6:29:05<21:31,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9652/10186 [6:29:05<21:31,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9653/10186 [6:29:06<21:29,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9653/10186 [6:29:06<21:29,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9654/10186 [6:29:08<21:26,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  95%|▉| 9654/10186 [6:29:08<21:26,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9655/10186 [6:29:09<21:24,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9655/10186 [6:29:09<21:24,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9656/10186 [6:29:15<21:21,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9656/10186 [6:29:15<21:21,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9657/10186 [6:29:16<21:19,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9657/10186 [6:29:16<21:19,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9658/10186 [6:29:17<21:16,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9658/10186 [6:29:17<21:16,  2.42s/it, v_num=uqm9, train/loss=2."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9659/10186 [6:29:18<21:14,  2.42s/it, v_num=uqm9, train/loss=2.\r",
+      "Epoch 0:  95%|▉| 9659/10186 [6:29:18<21:14,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9660/10186 [6:29:25<21:12,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9660/10186 [6:29:25<21:12,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9661/10186 [6:29:26<21:09,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9661/10186 [6:29:26<21:09,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9662/10186 [6:29:27<21:07,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9662/10186 [6:29:27<21:07,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9663/10186 [6:29:28<21:04,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9663/10186 [6:29:28<21:04,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9664/10186 [6:29:34<21:02,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9664/10186 [6:29:34<21:02,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9665/10186 [6:29:35<21:00,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9665/10186 [6:29:35<21:00,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9666/10186 [6:29:36<20:57,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9666/10186 [6:29:36<20:57,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9667/10186 [6:29:37<20:55,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9667/10186 [6:29:37<20:55,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9668/10186 [6:29:44<20:52,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9668/10186 [6:29:44<20:52,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9669/10186 [6:29:45<20:50,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9669/10186 [6:29:45<20:50,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9670/10186 [6:29:46<20:47,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9670/10186 [6:29:46<20:47,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9671/10186 [6:29:47<20:45,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9671/10186 [6:29:47<20:45,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9672/10186 [6:29:53<20:43,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9672/10186 [6:29:53<20:43,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9673/10186 [6:29:54<20:40,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9673/10186 [6:29:54<20:40,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9674/10186 [6:29:55<20:38,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9674/10186 [6:29:55<20:38,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9675/10186 [6:29:56<20:35,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9675/10186 [6:29:56<20:35,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9676/10186 [6:30:03<20:33,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9676/10186 [6:30:03<20:33,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9677/10186 [6:30:04<20:31,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9677/10186 [6:30:04<20:31,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9678/10186 [6:30:05<20:28,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9678/10186 [6:30:05<20:28,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9679/10186 [6:30:06<20:26,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9679/10186 [6:30:06<20:26,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9680/10186 [6:30:12<20:23,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9680/10186 [6:30:12<20:23,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9681/10186 [6:30:13<20:21,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9681/10186 [6:30:13<20:21,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9682/10186 [6:30:15<20:18,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9682/10186 [6:30:15<20:18,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9683/10186 [6:30:16<20:16,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9683/10186 [6:30:16<20:16,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9684/10186 [6:30:22<20:14,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9684/10186 [6:30:22<20:14,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9685/10186 [6:30:23<20:11,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9685/10186 [6:30:23<20:11,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9686/10186 [6:30:24<20:09,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9686/10186 [6:30:24<20:09,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9687/10186 [6:30:25<20:06,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9687/10186 [6:30:25<20:06,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9688/10186 [6:30:32<20:04,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9688/10186 [6:30:32<20:04,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9689/10186 [6:30:33<20:02,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9689/10186 [6:30:33<20:02,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9690/10186 [6:30:34<19:59,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9690/10186 [6:30:34<19:59,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9691/10186 [6:30:35<19:57,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9691/10186 [6:30:35<19:57,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9692/10186 [6:30:41<19:54,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9692/10186 [6:30:41<19:54,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9693/10186 [6:30:42<19:52,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9693/10186 [6:30:42<19:52,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9694/10186 [6:30:43<19:49,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9694/10186 [6:30:43<19:49,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9695/10186 [6:30:44<19:47,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9695/10186 [6:30:44<19:47,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9696/10186 [6:30:51<19:45,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9696/10186 [6:30:51<19:45,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9697/10186 [6:30:52<19:42,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9697/10186 [6:30:52<19:42,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9698/10186 [6:30:53<19:40,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9698/10186 [6:30:53<19:40,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9699/10186 [6:30:54<19:37,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9699/10186 [6:30:54<19:37,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9700/10186 [6:31:00<19:35,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9700/10186 [6:31:00<19:35,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9701/10186 [6:31:01<19:32,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9701/10186 [6:31:01<19:32,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9702/10186 [6:31:02<19:30,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9702/10186 [6:31:02<19:30,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9703/10186 [6:31:03<19:27,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9703/10186 [6:31:03<19:27,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9704/10186 [6:31:10<19:25,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9704/10186 [6:31:10<19:25,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9705/10186 [6:31:11<19:23,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9705/10186 [6:31:11<19:23,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9706/10186 [6:31:12<19:20,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  95%|▉| 9706/10186 [6:31:12<19:20,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9707/10186 [6:31:13<19:18,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9707/10186 [6:31:13<19:18,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9708/10186 [6:31:19<19:16,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9708/10186 [6:31:19<19:16,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9709/10186 [6:31:20<19:13,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9709/10186 [6:31:20<19:13,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9710/10186 [6:31:21<19:11,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9710/10186 [6:31:21<19:11,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9711/10186 [6:31:23<19:08,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9711/10186 [6:31:23<19:08,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9712/10186 [6:31:29<19:06,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9712/10186 [6:31:29<19:06,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9713/10186 [6:31:30<19:03,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9713/10186 [6:31:30<19:03,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9714/10186 [6:31:31<19:01,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9714/10186 [6:31:31<19:01,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9715/10186 [6:31:32<18:58,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9715/10186 [6:31:32<18:58,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9716/10186 [6:31:39<18:56,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9716/10186 [6:31:39<18:56,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9717/10186 [6:31:40<18:54,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9717/10186 [6:31:40<18:54,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9718/10186 [6:31:41<18:51,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  95%|▉| 9718/10186 [6:31:41<18:51,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9719/10186 [6:31:42<18:49,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9719/10186 [6:31:42<18:49,  2.42s/it, v_num=uqm9, train/loss=2."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9720/10186 [6:31:48<18:47,  2.42s/it, v_num=uqm9, train/loss=2.\r",
+      "Epoch 0:  95%|▉| 9720/10186 [6:31:48<18:47,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9721/10186 [6:31:49<18:44,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9721/10186 [6:31:49<18:44,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9722/10186 [6:31:50<18:42,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9722/10186 [6:31:50<18:42,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9723/10186 [6:31:51<18:39,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9723/10186 [6:31:51<18:39,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9724/10186 [6:31:58<18:37,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9724/10186 [6:31:58<18:37,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9725/10186 [6:31:59<18:34,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9725/10186 [6:31:59<18:34,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9726/10186 [6:32:00<18:32,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  95%|▉| 9726/10186 [6:32:00<18:32,  2.42s/it, v_num=uqm9, train/loss=2."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 9727/10186 [6:32:01<18:29,  2.42s/it, v_num=uqm9, train/loss=2.\r",
+      "Epoch 0:  95%|▉| 9727/10186 [6:32:01<18:29,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9728/10186 [6:32:07<18:27,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9728/10186 [6:32:07<18:27,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9729/10186 [6:32:08<18:25,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9729/10186 [6:32:08<18:25,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9730/10186 [6:32:09<18:22,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9730/10186 [6:32:09<18:22,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9731/10186 [6:32:10<18:20,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9731/10186 [6:32:10<18:20,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9732/10186 [6:32:17<18:18,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9732/10186 [6:32:17<18:18,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9733/10186 [6:32:18<18:15,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9733/10186 [6:32:18<18:15,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9734/10186 [6:32:19<18:13,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9734/10186 [6:32:19<18:13,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9735/10186 [6:32:20<18:10,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9735/10186 [6:32:20<18:10,  2.42s/it, v_num=uqm9, train/loss=2."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9736/10186 [6:32:26<18:08,  2.42s/it, v_num=uqm9, train/loss=2.\r",
+      "Epoch 0:  96%|▉| 9736/10186 [6:32:26<18:08,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9737/10186 [6:32:27<18:05,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9737/10186 [6:32:27<18:05,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9738/10186 [6:32:28<18:03,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9738/10186 [6:32:28<18:03,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9739/10186 [6:32:29<18:00,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9739/10186 [6:32:29<18:00,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9740/10186 [6:32:36<17:58,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9740/10186 [6:32:36<17:58,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9741/10186 [6:32:37<17:56,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9741/10186 [6:32:37<17:56,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9742/10186 [6:32:38<17:53,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9742/10186 [6:32:38<17:53,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9743/10186 [6:32:39<17:51,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9743/10186 [6:32:39<17:51,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9744/10186 [6:32:46<17:48,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9744/10186 [6:32:46<17:48,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9745/10186 [6:32:47<17:46,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9745/10186 [6:32:47<17:46,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9746/10186 [6:32:48<17:44,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9746/10186 [6:32:48<17:44,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9747/10186 [6:32:49<17:41,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9747/10186 [6:32:49<17:41,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9748/10186 [6:32:55<17:39,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9748/10186 [6:32:55<17:39,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9749/10186 [6:32:56<17:36,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9749/10186 [6:32:56<17:36,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9750/10186 [6:32:57<17:34,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9750/10186 [6:32:57<17:34,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9751/10186 [6:32:58<17:31,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9751/10186 [6:32:58<17:31,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9752/10186 [6:33:05<17:29,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9752/10186 [6:33:05<17:29,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9753/10186 [6:33:06<17:27,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9753/10186 [6:33:06<17:27,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9754/10186 [6:33:07<17:24,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9754/10186 [6:33:07<17:24,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9755/10186 [6:33:08<17:22,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9755/10186 [6:33:08<17:22,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9756/10186 [6:33:14<17:19,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9756/10186 [6:33:14<17:19,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9757/10186 [6:33:15<17:17,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9757/10186 [6:33:15<17:17,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9758/10186 [6:33:16<17:14,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9758/10186 [6:33:16<17:14,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9759/10186 [6:33:17<17:12,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  96%|▉| 9759/10186 [6:33:17<17:12,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9760/10186 [6:33:24<17:10,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9760/10186 [6:33:24<17:10,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9761/10186 [6:33:25<17:07,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9761/10186 [6:33:25<17:07,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9762/10186 [6:33:26<17:05,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9762/10186 [6:33:26<17:05,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9763/10186 [6:33:27<17:02,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9763/10186 [6:33:27<17:02,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9764/10186 [6:33:33<17:00,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9764/10186 [6:33:33<17:00,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9765/10186 [6:33:34<16:58,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9765/10186 [6:33:34<16:58,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9766/10186 [6:33:35<16:55,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9766/10186 [6:33:35<16:55,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9767/10186 [6:33:36<16:53,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9767/10186 [6:33:36<16:53,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9768/10186 [6:33:43<16:50,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9768/10186 [6:33:43<16:50,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9769/10186 [6:33:44<16:48,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9769/10186 [6:33:44<16:48,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9770/10186 [6:33:45<16:45,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9770/10186 [6:33:45<16:45,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9771/10186 [6:33:46<16:43,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9771/10186 [6:33:46<16:43,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9772/10186 [6:33:52<16:41,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9772/10186 [6:33:52<16:41,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9773/10186 [6:33:54<16:38,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9773/10186 [6:33:54<16:38,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9774/10186 [6:33:55<16:36,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9774/10186 [6:33:55<16:36,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9775/10186 [6:33:56<16:33,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9775/10186 [6:33:56<16:33,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9776/10186 [6:34:02<16:31,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9776/10186 [6:34:02<16:31,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9777/10186 [6:34:03<16:29,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9777/10186 [6:34:03<16:29,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9778/10186 [6:34:04<16:26,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9778/10186 [6:34:04<16:26,  2.42s/it, v_num=uqm9, train/loss=2."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9779/10186 [6:34:05<16:24,  2.42s/it, v_num=uqm9, train/loss=2.\r",
+      "Epoch 0:  96%|▉| 9779/10186 [6:34:05<16:24,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9780/10186 [6:34:12<16:21,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9780/10186 [6:34:12<16:21,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9781/10186 [6:34:13<16:19,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9781/10186 [6:34:13<16:19,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9782/10186 [6:34:14<16:16,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9782/10186 [6:34:14<16:16,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9783/10186 [6:34:15<16:14,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9783/10186 [6:34:15<16:14,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9784/10186 [6:34:21<16:12,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9784/10186 [6:34:21<16:12,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9785/10186 [6:34:22<16:09,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9785/10186 [6:34:22<16:09,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9786/10186 [6:34:23<16:07,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9786/10186 [6:34:23<16:07,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9787/10186 [6:34:24<16:04,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9787/10186 [6:34:24<16:04,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9788/10186 [6:34:31<16:02,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9788/10186 [6:34:31<16:02,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9789/10186 [6:34:32<16:00,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9789/10186 [6:34:32<16:00,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9790/10186 [6:34:33<15:57,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9790/10186 [6:34:33<15:57,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9791/10186 [6:34:34<15:55,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9791/10186 [6:34:34<15:55,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9792/10186 [6:34:40<15:52,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9792/10186 [6:34:40<15:52,  2.42s/it, v_num=uqm9, train/loss=2."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9793/10186 [6:34:41<15:50,  2.42s/it, v_num=uqm9, train/loss=2.\r",
+      "Epoch 0:  96%|▉| 9793/10186 [6:34:41<15:50,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9794/10186 [6:34:42<15:47,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9794/10186 [6:34:42<15:47,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9795/10186 [6:34:43<15:45,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9795/10186 [6:34:43<15:45,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9796/10186 [6:34:50<15:43,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9796/10186 [6:34:50<15:43,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9797/10186 [6:34:51<15:40,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9797/10186 [6:34:51<15:40,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9798/10186 [6:34:52<15:38,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  96%|▉| 9798/10186 [6:34:52<15:38,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9799/10186 [6:34:53<15:35,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9799/10186 [6:34:53<15:35,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9800/10186 [6:34:59<15:33,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9800/10186 [6:34:59<15:33,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9801/10186 [6:35:01<15:31,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9801/10186 [6:35:01<15:31,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9802/10186 [6:35:02<15:28,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9802/10186 [6:35:02<15:28,  2.42s/it, v_num=uqm9, train/loss=2."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9803/10186 [6:35:03<15:26,  2.42s/it, v_num=uqm9, train/loss=2.\r",
+      "Epoch 0:  96%|▉| 9803/10186 [6:35:03<15:26,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9804/10186 [6:35:09<15:23,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9804/10186 [6:35:09<15:23,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9805/10186 [6:35:10<15:21,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9805/10186 [6:35:10<15:21,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9806/10186 [6:35:11<15:18,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9806/10186 [6:35:11<15:18,  2.42s/it, v_num=uqm9, train/loss=1."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9807/10186 [6:35:12<15:16,  2.42s/it, v_num=uqm9, train/loss=1.\r",
+      "Epoch 0:  96%|▉| 9807/10186 [6:35:12<15:16,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9808/10186 [6:35:19<15:14,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9808/10186 [6:35:19<15:14,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9809/10186 [6:35:20<15:11,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9809/10186 [6:35:20<15:11,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9810/10186 [6:35:21<15:09,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9810/10186 [6:35:21<15:09,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9811/10186 [6:35:22<15:06,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9811/10186 [6:35:22<15:06,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9812/10186 [6:35:28<15:04,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9812/10186 [6:35:28<15:04,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9813/10186 [6:35:29<15:01,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9813/10186 [6:35:29<15:01,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9814/10186 [6:35:30<14:59,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9814/10186 [6:35:30<14:59,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9815/10186 [6:35:31<14:57,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9815/10186 [6:35:31<14:57,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9816/10186 [6:35:38<14:54,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9816/10186 [6:35:38<14:54,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9817/10186 [6:35:39<14:52,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9817/10186 [6:35:39<14:52,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9818/10186 [6:35:40<14:49,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9818/10186 [6:35:40<14:49,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9819/10186 [6:35:41<14:47,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9819/10186 [6:35:41<14:47,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9820/10186 [6:35:47<14:45,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9820/10186 [6:35:47<14:45,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9821/10186 [6:35:48<14:42,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9821/10186 [6:35:48<14:42,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9822/10186 [6:35:49<14:40,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9822/10186 [6:35:49<14:40,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9823/10186 [6:35:50<14:37,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9823/10186 [6:35:50<14:37,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9824/10186 [6:35:57<14:35,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9824/10186 [6:35:57<14:35,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9825/10186 [6:35:58<14:32,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9825/10186 [6:35:58<14:32,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9826/10186 [6:35:59<14:30,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9826/10186 [6:35:59<14:30,  2.42s/it, v_num=uqm9, train/loss=2."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9827/10186 [6:36:00<14:28,  2.42s/it, v_num=uqm9, train/loss=2.\r",
+      "Epoch 0:  96%|▉| 9827/10186 [6:36:00<14:28,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9828/10186 [6:36:06<14:25,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9828/10186 [6:36:06<14:25,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 9829/10186 [6:36:08<14:23,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  96%|▉| 9829/10186 [6:36:08<14:23,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9830/10186 [6:36:09<14:20,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9830/10186 [6:36:09<14:20,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9831/10186 [6:36:10<14:18,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9831/10186 [6:36:10<14:18,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9832/10186 [6:36:16<14:16,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9832/10186 [6:36:16<14:16,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9833/10186 [6:36:17<14:13,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9833/10186 [6:36:17<14:13,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9834/10186 [6:36:18<14:11,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9834/10186 [6:36:18<14:11,  2.42s/it, v_num=uqm9, train/loss=1."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9835/10186 [6:36:19<14:08,  2.42s/it, v_num=uqm9, train/loss=1.\r",
+      "Epoch 0:  97%|▉| 9835/10186 [6:36:19<14:08,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9836/10186 [6:36:26<14:06,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9836/10186 [6:36:26<14:06,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9837/10186 [6:36:27<14:03,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9837/10186 [6:36:27<14:03,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9838/10186 [6:36:28<14:01,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9838/10186 [6:36:28<14:01,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9839/10186 [6:36:29<13:58,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9839/10186 [6:36:29<13:58,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9840/10186 [6:36:35<13:56,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9840/10186 [6:36:35<13:56,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9841/10186 [6:36:36<13:54,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9841/10186 [6:36:36<13:54,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9842/10186 [6:36:37<13:51,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9842/10186 [6:36:37<13:51,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9843/10186 [6:36:38<13:49,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9843/10186 [6:36:38<13:49,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9844/10186 [6:36:45<13:47,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9844/10186 [6:36:45<13:47,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9845/10186 [6:36:46<13:44,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9845/10186 [6:36:46<13:44,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9846/10186 [6:36:47<13:42,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9846/10186 [6:36:47<13:42,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9847/10186 [6:36:48<13:39,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9847/10186 [6:36:48<13:39,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9848/10186 [6:36:54<13:37,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9848/10186 [6:36:54<13:37,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9849/10186 [6:36:55<13:34,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9849/10186 [6:36:55<13:34,  2.42s/it, v_num=uqm9, train/loss=2."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9850/10186 [6:36:56<13:32,  2.42s/it, v_num=uqm9, train/loss=2.\r",
+      "Epoch 0:  97%|▉| 9850/10186 [6:36:56<13:32,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9851/10186 [6:36:57<13:29,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9851/10186 [6:36:57<13:29,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9852/10186 [6:37:04<13:27,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9852/10186 [6:37:04<13:27,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9853/10186 [6:37:05<13:25,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9853/10186 [6:37:05<13:25,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9854/10186 [6:37:06<13:22,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9854/10186 [6:37:06<13:22,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9855/10186 [6:37:07<13:20,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9855/10186 [6:37:07<13:20,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9856/10186 [6:37:13<13:18,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9856/10186 [6:37:13<13:18,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9857/10186 [6:37:14<13:15,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9857/10186 [6:37:14<13:15,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9858/10186 [6:37:16<13:13,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9858/10186 [6:37:16<13:13,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9859/10186 [6:37:17<13:10,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9859/10186 [6:37:17<13:10,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9860/10186 [6:37:23<13:08,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9860/10186 [6:37:23<13:08,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9861/10186 [6:37:24<13:05,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9861/10186 [6:37:24<13:05,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9862/10186 [6:37:25<13:03,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9862/10186 [6:37:25<13:03,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9863/10186 [6:37:26<13:00,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9863/10186 [6:37:26<13:00,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9864/10186 [6:37:33<12:58,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9864/10186 [6:37:33<12:58,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9865/10186 [6:37:34<12:56,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9865/10186 [6:37:34<12:56,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9866/10186 [6:37:35<12:53,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9866/10186 [6:37:35<12:53,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9867/10186 [6:37:36<12:51,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9867/10186 [6:37:36<12:51,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9868/10186 [6:37:42<12:48,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9868/10186 [6:37:42<12:48,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9869/10186 [6:37:43<12:46,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9869/10186 [6:37:43<12:46,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9870/10186 [6:37:44<12:44,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9870/10186 [6:37:44<12:44,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9871/10186 [6:37:45<12:41,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9871/10186 [6:37:45<12:41,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9872/10186 [6:37:52<12:39,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  97%|▉| 9872/10186 [6:37:52<12:39,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9873/10186 [6:37:53<12:36,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  97%|▉| 9873/10186 [6:37:53<12:36,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9874/10186 [6:37:54<12:34,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9874/10186 [6:37:54<12:34,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9875/10186 [6:37:55<12:31,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9875/10186 [6:37:55<12:31,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9876/10186 [6:38:01<12:29,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9876/10186 [6:38:01<12:29,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9877/10186 [6:38:02<12:27,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9877/10186 [6:38:02<12:27,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9878/10186 [6:38:03<12:24,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9878/10186 [6:38:03<12:24,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9879/10186 [6:38:04<12:22,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9879/10186 [6:38:04<12:22,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9880/10186 [6:38:11<12:19,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  97%|▉| 9880/10186 [6:38:11<12:19,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9881/10186 [6:38:12<12:17,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9881/10186 [6:38:12<12:17,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9882/10186 [6:38:13<12:15,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9882/10186 [6:38:13<12:15,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9883/10186 [6:38:14<12:12,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9883/10186 [6:38:14<12:12,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9884/10186 [6:38:20<12:10,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9884/10186 [6:38:20<12:10,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9885/10186 [6:38:21<12:07,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9885/10186 [6:38:21<12:07,  2.42s/it, v_num=uqm9, train/loss=2."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9886/10186 [6:38:23<12:05,  2.42s/it, v_num=uqm9, train/loss=2.\r",
+      "Epoch 0:  97%|▉| 9886/10186 [6:38:23<12:05,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9887/10186 [6:38:24<12:02,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9887/10186 [6:38:24<12:02,  2.42s/it, v_num=uqm9, train/loss=2."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9888/10186 [6:38:30<12:00,  2.42s/it, v_num=uqm9, train/loss=2.\r",
+      "Epoch 0:  97%|▉| 9888/10186 [6:38:30<12:00,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9889/10186 [6:38:31<11:58,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9889/10186 [6:38:31<11:58,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9890/10186 [6:38:32<11:55,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9890/10186 [6:38:32<11:55,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9891/10186 [6:38:33<11:53,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  97%|▉| 9891/10186 [6:38:33<11:53,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9892/10186 [6:38:40<11:50,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9892/10186 [6:38:40<11:50,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9893/10186 [6:38:41<11:48,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9893/10186 [6:38:41<11:48,  2.42s/it, v_num=uqm9, train/loss=2."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9894/10186 [6:38:42<11:46,  2.42s/it, v_num=uqm9, train/loss=2.\r",
+      "Epoch 0:  97%|▉| 9894/10186 [6:38:42<11:46,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9895/10186 [6:38:43<11:43,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9895/10186 [6:38:43<11:43,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9896/10186 [6:38:49<11:41,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9896/10186 [6:38:49<11:41,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9897/10186 [6:38:50<11:38,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9897/10186 [6:38:50<11:38,  2.42s/it, v_num=uqm9, train/loss=2."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9898/10186 [6:38:51<11:36,  2.42s/it, v_num=uqm9, train/loss=2.\r",
+      "Epoch 0:  97%|▉| 9898/10186 [6:38:51<11:36,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9899/10186 [6:38:52<11:33,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9899/10186 [6:38:52<11:33,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9900/10186 [6:38:59<11:31,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9900/10186 [6:38:59<11:31,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9901/10186 [6:39:00<11:29,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9901/10186 [6:39:00<11:29,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9902/10186 [6:39:01<11:26,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9902/10186 [6:39:01<11:26,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9903/10186 [6:39:02<11:24,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9903/10186 [6:39:02<11:24,  2.42s/it, v_num=uqm9, train/loss=2."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9904/10186 [6:39:08<11:21,  2.42s/it, v_num=uqm9, train/loss=2.\r",
+      "Epoch 0:  97%|▉| 9904/10186 [6:39:08<11:21,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9905/10186 [6:39:09<11:19,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9905/10186 [6:39:09<11:19,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9906/10186 [6:39:10<11:16,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9906/10186 [6:39:10<11:16,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9907/10186 [6:39:11<11:14,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  97%|▉| 9907/10186 [6:39:11<11:14,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9908/10186 [6:39:18<11:12,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9908/10186 [6:39:18<11:12,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9909/10186 [6:39:19<11:09,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  97%|▉| 9909/10186 [6:39:19<11:09,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9910/10186 [6:39:20<11:07,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  97%|▉| 9910/10186 [6:39:20<11:07,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9911/10186 [6:39:21<11:04,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9911/10186 [6:39:21<11:04,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9912/10186 [6:39:27<11:02,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9912/10186 [6:39:27<11:02,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9913/10186 [6:39:28<11:00,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9913/10186 [6:39:28<11:00,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9914/10186 [6:39:30<10:57,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9914/10186 [6:39:30<10:57,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9915/10186 [6:39:31<10:55,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  97%|▉| 9915/10186 [6:39:31<10:55,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9916/10186 [6:39:37<10:52,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9916/10186 [6:39:37<10:52,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9917/10186 [6:39:38<10:50,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9917/10186 [6:39:38<10:50,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9918/10186 [6:39:39<10:47,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9918/10186 [6:39:39<10:47,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9919/10186 [6:39:40<10:45,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9919/10186 [6:39:40<10:45,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9920/10186 [6:39:47<10:43,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9920/10186 [6:39:47<10:43,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9921/10186 [6:39:48<10:40,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9921/10186 [6:39:48<10:40,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9922/10186 [6:39:49<10:38,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9922/10186 [6:39:49<10:38,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9923/10186 [6:39:50<10:35,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9923/10186 [6:39:50<10:35,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9924/10186 [6:39:56<10:33,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9924/10186 [6:39:56<10:33,  2.42s/it, v_num=uqm9, train/loss=2."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9925/10186 [6:39:57<10:31,  2.42s/it, v_num=uqm9, train/loss=2.\r",
+      "Epoch 0:  97%|▉| 9925/10186 [6:39:57<10:31,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9926/10186 [6:39:58<10:28,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9926/10186 [6:39:58<10:28,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9927/10186 [6:39:59<10:26,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9927/10186 [6:39:59<10:26,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9928/10186 [6:40:06<10:23,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9928/10186 [6:40:06<10:23,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9929/10186 [6:40:07<10:21,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9929/10186 [6:40:07<10:21,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9930/10186 [6:40:08<10:18,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  97%|▉| 9930/10186 [6:40:08<10:18,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9931/10186 [6:40:09<10:16,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 9931/10186 [6:40:09<10:16,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 9932/10186 [6:40:15<10:14,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  98%|▉| 9932/10186 [6:40:15<10:14,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 9933/10186 [6:40:16<10:11,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  98%|▉| 9933/10186 [6:40:16<10:11,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 9934/10186 [6:40:17<10:09,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  98%|▉| 9934/10186 [6:40:17<10:09,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 9935/10186 [6:40:18<10:06,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  98%|▉| 9935/10186 [6:40:18<10:06,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 9936/10186 [6:40:25<10:04,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  98%|▉| 9936/10186 [6:40:25<10:04,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 9937/10186 [6:40:26<10:02,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  98%|▉| 9937/10186 [6:40:26<10:02,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 9938/10186 [6:40:27<09:59,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  98%|▉| 9938/10186 [6:40:27<09:59,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 9939/10186 [6:40:28<09:57,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  98%|▉| 9939/10186 [6:40:28<09:57,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 9940/10186 [6:40:34<09:54,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  98%|▉| 9940/10186 [6:40:34<09:54,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 9941/10186 [6:40:35<09:52,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  98%|▉| 9941/10186 [6:40:35<09:52,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 9942/10186 [6:40:36<09:49,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  98%|▉| 9942/10186 [6:40:36<09:49,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 9943/10186 [6:40:38<09:47,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  98%|▉| 9943/10186 [6:40:38<09:47,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 9944/10186 [6:40:44<09:45,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  98%|▉| 9944/10186 [6:40:44<09:45,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 9945/10186 [6:40:45<09:42,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  98%|▉| 9945/10186 [6:40:45<09:42,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 9946/10186 [6:40:46<09:40,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  98%|▉| 9946/10186 [6:40:46<09:40,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 9947/10186 [6:40:47<09:37,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  98%|▉| 9947/10186 [6:40:47<09:37,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 9948/10186 [6:40:54<09:35,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  98%|▉| 9948/10186 [6:40:54<09:35,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 9949/10186 [6:40:55<09:33,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  98%|▉| 9949/10186 [6:40:55<09:33,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 9950/10186 [6:40:56<09:30,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  98%|▉| 9950/10186 [6:40:56<09:30,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 9951/10186 [6:40:57<09:28,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  98%|▉| 9951/10186 [6:40:57<09:28,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 9952/10186 [6:41:03<09:25,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  98%|▉| 9952/10186 [6:41:03<09:25,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 9953/10186 [6:41:04<09:23,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  98%|▉| 9953/10186 [6:41:04<09:23,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 9954/10186 [6:41:05<09:20,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  98%|▉| 9954/10186 [6:41:05<09:20,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 9955/10186 [6:41:06<09:18,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  98%|▉| 9955/10186 [6:41:06<09:18,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 9956/10186 [6:41:13<09:16,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  98%|▉| 9956/10186 [6:41:13<09:16,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 9957/10186 [6:41:14<09:13,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  98%|▉| 9957/10186 [6:41:14<09:13,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 9958/10186 [6:41:15<09:11,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  98%|▉| 9958/10186 [6:41:15<09:11,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 9959/10186 [6:41:16<09:08,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  98%|▉| 9959/10186 [6:41:16<09:08,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 9960/10186 [6:41:22<09:06,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  98%|▉| 9960/10186 [6:41:22<09:06,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 9961/10186 [6:41:23<09:04,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  98%|▉| 9961/10186 [6:41:23<09:04,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 9962/10186 [6:41:24<09:01,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  98%|▉| 9962/10186 [6:41:24<09:01,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 9963/10186 [6:41:25<08:59,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  98%|▉| 9963/10186 [6:41:25<08:59,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 9964/10186 [6:41:32<08:56,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  98%|▉| 9964/10186 [6:41:32<08:56,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 9965/10186 [6:41:33<08:54,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  98%|▉| 9965/10186 [6:41:33<08:54,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 9966/10186 [6:41:34<08:51,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  98%|▉| 9966/10186 [6:41:34<08:51,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 9967/10186 [6:41:35<08:49,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  98%|▉| 9967/10186 [6:41:35<08:49,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 9968/10186 [6:41:41<08:47,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  98%|▉| 9968/10186 [6:41:41<08:47,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 9969/10186 [6:41:42<08:44,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  98%|▉| 9969/10186 [6:41:42<08:44,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 9970/10186 [6:41:43<08:42,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  98%|▉| 9970/10186 [6:41:43<08:42,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 9971/10186 [6:41:45<08:39,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  98%|▉| 9971/10186 [6:41:45<08:39,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 9972/10186 [6:41:51<08:37,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 9972/10186 [6:41:51<08:37,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 9973/10186 [6:41:52<08:34,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  98%|▉| 9973/10186 [6:41:52<08:34,  2.42s/it, v_num=uqm9, train/loss=4."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 9974/10186 [6:41:53<08:32,  2.42s/it, v_num=uqm9, train/loss=4.\r",
+      "Epoch 0:  98%|▉| 9974/10186 [6:41:53<08:32,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 9975/10186 [6:41:54<08:30,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  98%|▉| 9975/10186 [6:41:54<08:30,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 9976/10186 [6:42:01<08:27,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  98%|▉| 9976/10186 [6:42:01<08:27,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 9977/10186 [6:42:02<08:25,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  98%|▉| 9977/10186 [6:42:02<08:25,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 9978/10186 [6:42:03<08:22,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  98%|▉| 9978/10186 [6:42:03<08:22,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 9979/10186 [6:42:04<08:20,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  98%|▉| 9979/10186 [6:42:04<08:20,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 9980/10186 [6:42:10<08:18,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  98%|▉| 9980/10186 [6:42:10<08:18,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 9981/10186 [6:42:11<08:15,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  98%|▉| 9981/10186 [6:42:11<08:15,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 9982/10186 [6:42:12<08:13,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  98%|▉| 9982/10186 [6:42:12<08:13,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 9983/10186 [6:42:13<08:10,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  98%|▉| 9983/10186 [6:42:13<08:10,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 9984/10186 [6:42:20<08:08,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  98%|▉| 9984/10186 [6:42:20<08:08,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 9985/10186 [6:42:21<08:05,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  98%|▉| 9985/10186 [6:42:21<08:05,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 9986/10186 [6:42:22<08:03,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  98%|▉| 9986/10186 [6:42:22<08:03,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 9987/10186 [6:42:23<08:01,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  98%|▉| 9987/10186 [6:42:23<08:01,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 9988/10186 [6:42:29<07:58,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 9988/10186 [6:42:29<07:58,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 9989/10186 [6:42:30<07:56,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  98%|▉| 9989/10186 [6:42:30<07:56,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 9990/10186 [6:42:31<07:53,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 9990/10186 [6:42:31<07:53,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 9991/10186 [6:42:32<07:51,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  98%|▉| 9991/10186 [6:42:32<07:51,  2.42s/it, v_num=uqm9, train/loss=2."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 9992/10186 [6:42:39<07:49,  2.42s/it, v_num=uqm9, train/loss=2.\r",
+      "Epoch 0:  98%|▉| 9992/10186 [6:42:39<07:49,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 9993/10186 [6:42:40<07:46,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  98%|▉| 9993/10186 [6:42:40<07:46,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 9994/10186 [6:42:41<07:44,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  98%|▉| 9994/10186 [6:42:41<07:44,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 9995/10186 [6:42:42<07:41,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  98%|▉| 9995/10186 [6:42:42<07:41,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 9996/10186 [6:42:48<07:39,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  98%|▉| 9996/10186 [6:42:48<07:39,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 9997/10186 [6:42:49<07:36,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  98%|▉| 9997/10186 [6:42:49<07:36,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 9998/10186 [6:42:50<07:34,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  98%|▉| 9998/10186 [6:42:50<07:34,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 9999/10186 [6:42:51<07:32,  2.42s/it, v_num=uqm9, train/loss=3.\r",
+      "Epoch 0:  98%|▉| 9999/10186 [6:42:51<07:32,  2.42s/it, v_num=uqm9, train/loss=3."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 10000/10186 [6:42:58<07:29,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  98%|▉| 10000/10186 [6:42:58<07:29,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 10001/10186 [6:43:25<07:27,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  98%|▉| 10001/10186 [6:43:25<07:27,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 10002/10186 [6:43:26<07:25,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  98%|▉| 10002/10186 [6:43:26<07:25,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 10003/10186 [6:43:27<07:22,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  98%|▉| 10003/10186 [6:43:27<07:22,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 10004/10186 [6:43:33<07:20,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  98%|▉| 10004/10186 [6:43:33<07:20,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 10005/10186 [6:43:34<07:18,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  98%|▉| 10005/10186 [6:43:34<07:18,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 10006/10186 [6:43:36<07:15,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  98%|▉| 10006/10186 [6:43:36<07:15,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 10007/10186 [6:43:37<07:13,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  98%|▉| 10007/10186 [6:43:37<07:13,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 10008/10186 [6:43:43<07:10,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  98%|▉| 10008/10186 [6:43:43<07:10,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 10009/10186 [6:43:44<07:08,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  98%|▉| 10009/10186 [6:43:44<07:08,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 10010/10186 [6:43:45<07:05,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 10010/10186 [6:43:45<07:05,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 10011/10186 [6:43:46<07:03,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  98%|▉| 10011/10186 [6:43:46<07:03,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 10012/10186 [6:43:53<07:01,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  98%|▉| 10012/10186 [6:43:53<07:01,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 10013/10186 [6:43:54<06:58,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  98%|▉| 10013/10186 [6:43:54<06:58,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 10014/10186 [6:43:55<06:56,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  98%|▉| 10014/10186 [6:43:55<06:56,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 10015/10186 [6:43:56<06:53,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  98%|▉| 10015/10186 [6:43:56<06:53,  2.42s/it, v_num=uqm9, train/loss=2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 10016/10186 [6:44:02<06:51,  2.42s/it, v_num=uqm9, train/loss=2\r",
+      "Epoch 0:  98%|▉| 10016/10186 [6:44:02<06:51,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 10017/10186 [6:44:03<06:49,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  98%|▉| 10017/10186 [6:44:03<06:49,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 10018/10186 [6:44:04<06:46,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  98%|▉| 10018/10186 [6:44:04<06:46,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 10019/10186 [6:44:05<06:44,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  98%|▉| 10019/10186 [6:44:05<06:44,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 10020/10186 [6:44:12<06:41,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  98%|▉| 10020/10186 [6:44:12<06:41,  2.42s/it, v_num=uqm9, train/loss=4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 10021/10186 [6:44:13<06:39,  2.42s/it, v_num=uqm9, train/loss=4\r",
+      "Epoch 0:  98%|▉| 10021/10186 [6:44:13<06:39,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 10022/10186 [6:44:14<06:36,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  98%|▉| 10022/10186 [6:44:14<06:36,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 10023/10186 [6:44:15<06:34,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  98%|▉| 10023/10186 [6:44:15<06:34,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 10024/10186 [6:44:21<06:32,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  98%|▉| 10024/10186 [6:44:21<06:32,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 10025/10186 [6:44:22<06:29,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  98%|▉| 10025/10186 [6:44:22<06:29,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 10026/10186 [6:44:23<06:27,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  98%|▉| 10026/10186 [6:44:23<06:27,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 10027/10186 [6:44:24<06:24,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  98%|▉| 10027/10186 [6:44:24<06:24,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 10028/10186 [6:44:31<06:22,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  98%|▉| 10028/10186 [6:44:31<06:22,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 10029/10186 [6:44:32<06:19,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  98%|▉| 10029/10186 [6:44:32<06:19,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 10030/10186 [6:44:33<06:17,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  98%|▉| 10030/10186 [6:44:33<06:17,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 10031/10186 [6:44:34<06:15,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  98%|▉| 10031/10186 [6:44:34<06:15,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 10032/10186 [6:44:40<06:12,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  98%|▉| 10032/10186 [6:44:40<06:12,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 10033/10186 [6:44:41<06:10,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  98%|▉| 10033/10186 [6:44:41<06:10,  2.42s/it, v_num=uqm9, train/loss=4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10034/10186 [6:44:42<06:07,  2.42s/it, v_num=uqm9, train/loss=4\r",
+      "Epoch 0:  99%|▉| 10034/10186 [6:44:42<06:07,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10035/10186 [6:44:44<06:05,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10035/10186 [6:44:44<06:05,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10036/10186 [6:44:50<06:03,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10036/10186 [6:44:50<06:03,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10037/10186 [6:44:51<06:00,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10037/10186 [6:44:51<06:00,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10038/10186 [6:44:52<05:58,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10038/10186 [6:44:52<05:58,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10039/10186 [6:44:53<05:55,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10039/10186 [6:44:53<05:55,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10040/10186 [6:45:00<05:53,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10040/10186 [6:45:00<05:53,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10041/10186 [6:45:01<05:50,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10041/10186 [6:45:01<05:50,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10042/10186 [6:45:02<05:48,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10042/10186 [6:45:02<05:48,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10043/10186 [6:45:03<05:46,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10043/10186 [6:45:03<05:46,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10044/10186 [6:45:09<05:43,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10044/10186 [6:45:09<05:43,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10045/10186 [6:45:10<05:41,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10045/10186 [6:45:10<05:41,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10046/10186 [6:45:11<05:38,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10046/10186 [6:45:11<05:38,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10047/10186 [6:45:12<05:36,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10047/10186 [6:45:12<05:36,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10048/10186 [6:45:19<05:34,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10048/10186 [6:45:19<05:34,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10049/10186 [6:45:20<05:31,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10049/10186 [6:45:20<05:31,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10050/10186 [6:45:21<05:29,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10050/10186 [6:45:21<05:29,  2.42s/it, v_num=uqm9, train/loss=4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10051/10186 [6:45:22<05:26,  2.42s/it, v_num=uqm9, train/loss=4\r",
+      "Epoch 0:  99%|▉| 10051/10186 [6:45:22<05:26,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10052/10186 [6:45:28<05:24,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10052/10186 [6:45:28<05:24,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10053/10186 [6:45:29<05:21,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10053/10186 [6:45:29<05:21,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10054/10186 [6:45:30<05:19,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10054/10186 [6:45:30<05:19,  2.42s/it, v_num=uqm9, train/loss=4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10055/10186 [6:45:31<05:17,  2.42s/it, v_num=uqm9, train/loss=4\r",
+      "Epoch 0:  99%|▉| 10055/10186 [6:45:31<05:17,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10056/10186 [6:45:38<05:14,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10056/10186 [6:45:38<05:14,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10057/10186 [6:45:39<05:12,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10057/10186 [6:45:39<05:12,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10058/10186 [6:45:40<05:09,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10058/10186 [6:45:40<05:09,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10059/10186 [6:45:41<05:07,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10059/10186 [6:45:41<05:07,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10060/10186 [6:45:47<05:04,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10060/10186 [6:45:47<05:04,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10061/10186 [6:45:48<05:02,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10061/10186 [6:45:48<05:02,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10062/10186 [6:45:50<05:00,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10062/10186 [6:45:50<05:00,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10063/10186 [6:45:51<04:57,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10063/10186 [6:45:51<04:57,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10064/10186 [6:45:57<04:55,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10064/10186 [6:45:57<04:55,  2.42s/it, v_num=uqm9, train/loss=2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10065/10186 [6:45:58<04:52,  2.42s/it, v_num=uqm9, train/loss=2\r",
+      "Epoch 0:  99%|▉| 10065/10186 [6:45:58<04:52,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10066/10186 [6:45:59<04:50,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10066/10186 [6:45:59<04:50,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10067/10186 [6:46:00<04:47,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10067/10186 [6:46:00<04:47,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10068/10186 [6:46:07<04:45,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10068/10186 [6:46:07<04:45,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10069/10186 [6:46:08<04:43,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10069/10186 [6:46:08<04:43,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10070/10186 [6:46:09<04:40,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10070/10186 [6:46:09<04:40,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10071/10186 [6:46:10<04:38,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10071/10186 [6:46:10<04:38,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10072/10186 [6:46:16<04:35,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10072/10186 [6:46:16<04:35,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10073/10186 [6:46:17<04:33,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10073/10186 [6:46:17<04:33,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10074/10186 [6:46:18<04:31,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10074/10186 [6:46:18<04:31,  2.42s/it, v_num=uqm9, train/loss=4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10075/10186 [6:46:19<04:28,  2.42s/it, v_num=uqm9, train/loss=4\r",
+      "Epoch 0:  99%|▉| 10075/10186 [6:46:19<04:28,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10076/10186 [6:46:26<04:26,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10076/10186 [6:46:26<04:26,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10077/10186 [6:46:27<04:23,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10077/10186 [6:46:27<04:23,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10078/10186 [6:46:28<04:21,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10078/10186 [6:46:28<04:21,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10079/10186 [6:46:29<04:18,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10079/10186 [6:46:29<04:18,  2.42s/it, v_num=uqm9, train/loss=2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10080/10186 [6:46:35<04:16,  2.42s/it, v_num=uqm9, train/loss=2\r",
+      "Epoch 0:  99%|▉| 10080/10186 [6:46:35<04:16,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10081/10186 [6:46:36<04:14,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10081/10186 [6:46:36<04:14,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10082/10186 [6:46:37<04:11,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10082/10186 [6:46:37<04:11,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10083/10186 [6:46:38<04:09,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10083/10186 [6:46:38<04:09,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10084/10186 [6:46:45<04:06,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10084/10186 [6:46:45<04:06,  2.42s/it, v_num=uqm9, train/loss=2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10085/10186 [6:46:46<04:04,  2.42s/it, v_num=uqm9, train/loss=2\r",
+      "Epoch 0:  99%|▉| 10085/10186 [6:46:46<04:04,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10086/10186 [6:46:47<04:01,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10086/10186 [6:46:47<04:01,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10087/10186 [6:46:48<03:59,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10087/10186 [6:46:48<03:59,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10088/10186 [6:46:54<03:57,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10088/10186 [6:46:54<03:57,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10089/10186 [6:46:55<03:54,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10089/10186 [6:46:55<03:54,  2.42s/it, v_num=uqm9, train/loss=4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10090/10186 [6:46:57<03:52,  2.42s/it, v_num=uqm9, train/loss=4\r",
+      "Epoch 0:  99%|▉| 10090/10186 [6:46:57<03:52,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10091/10186 [6:46:58<03:49,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10091/10186 [6:46:58<03:49,  2.42s/it, v_num=uqm9, train/loss=4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10092/10186 [6:47:04<03:47,  2.42s/it, v_num=uqm9, train/loss=4\r",
+      "Epoch 0:  99%|▉| 10092/10186 [6:47:04<03:47,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10093/10186 [6:47:05<03:45,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10093/10186 [6:47:05<03:45,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10094/10186 [6:47:06<03:42,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10094/10186 [6:47:06<03:42,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10095/10186 [6:47:07<03:40,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10095/10186 [6:47:07<03:40,  2.42s/it, v_num=uqm9, train/loss=2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10096/10186 [6:47:14<03:37,  2.42s/it, v_num=uqm9, train/loss=2\r",
+      "Epoch 0:  99%|▉| 10096/10186 [6:47:14<03:37,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10097/10186 [6:47:15<03:35,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10097/10186 [6:47:15<03:35,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10098/10186 [6:47:16<03:32,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10098/10186 [6:47:16<03:32,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10099/10186 [6:47:17<03:30,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10099/10186 [6:47:17<03:30,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10100/10186 [6:47:23<03:28,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10100/10186 [6:47:23<03:28,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10101/10186 [6:47:24<03:25,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10101/10186 [6:47:24<03:25,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10102/10186 [6:47:25<03:23,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10102/10186 [6:47:25<03:23,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10103/10186 [6:47:26<03:20,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10103/10186 [6:47:26<03:20,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10104/10186 [6:47:33<03:18,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10104/10186 [6:47:33<03:18,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10105/10186 [6:47:34<03:16,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10105/10186 [6:47:34<03:16,  2.42s/it, v_num=uqm9, train/loss=2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10106/10186 [6:47:35<03:13,  2.42s/it, v_num=uqm9, train/loss=2\r",
+      "Epoch 0:  99%|▉| 10106/10186 [6:47:35<03:13,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10107/10186 [6:47:36<03:11,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10107/10186 [6:47:36<03:11,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10108/10186 [6:47:42<03:08,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10108/10186 [6:47:42<03:08,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10109/10186 [6:47:43<03:06,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10109/10186 [6:47:43<03:06,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10110/10186 [6:47:44<03:03,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10110/10186 [6:47:44<03:03,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10111/10186 [6:47:45<03:01,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10111/10186 [6:47:45<03:01,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10112/10186 [6:47:52<02:59,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10112/10186 [6:47:52<02:59,  2.42s/it, v_num=uqm9, train/loss=4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10113/10186 [6:47:53<02:56,  2.42s/it, v_num=uqm9, train/loss=4\r",
+      "Epoch 0:  99%|▉| 10113/10186 [6:47:53<02:56,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10114/10186 [6:47:54<02:54,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10114/10186 [6:47:54<02:54,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10115/10186 [6:47:55<02:51,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10115/10186 [6:47:55<02:51,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10116/10186 [6:48:01<02:49,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10116/10186 [6:48:01<02:49,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10117/10186 [6:48:02<02:46,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10117/10186 [6:48:02<02:46,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10118/10186 [6:48:04<02:44,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10118/10186 [6:48:04<02:44,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10119/10186 [6:48:05<02:42,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10119/10186 [6:48:05<02:42,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10120/10186 [6:48:11<02:39,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10120/10186 [6:48:11<02:39,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10121/10186 [6:48:12<02:37,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10121/10186 [6:48:12<02:37,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10122/10186 [6:48:13<02:34,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10122/10186 [6:48:13<02:34,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10123/10186 [6:48:14<02:32,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10123/10186 [6:48:14<02:32,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10124/10186 [6:48:21<02:30,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10124/10186 [6:48:21<02:30,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10125/10186 [6:48:22<02:27,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10125/10186 [6:48:22<02:27,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10126/10186 [6:48:23<02:25,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10126/10186 [6:48:23<02:25,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10127/10186 [6:48:24<02:22,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10127/10186 [6:48:24<02:22,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10128/10186 [6:48:30<02:20,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10128/10186 [6:48:30<02:20,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10129/10186 [6:48:31<02:17,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10129/10186 [6:48:31<02:17,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10130/10186 [6:48:32<02:15,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10130/10186 [6:48:32<02:15,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10131/10186 [6:48:33<02:13,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10131/10186 [6:48:33<02:13,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10132/10186 [6:48:40<02:10,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10132/10186 [6:48:40<02:10,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10133/10186 [6:48:41<02:08,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10133/10186 [6:48:41<02:08,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10134/10186 [6:48:42<02:05,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10134/10186 [6:48:42<02:05,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 10135/10186 [6:48:43<02:03,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0:  99%|▉| 10135/10186 [6:48:43<02:03,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0: 100%|▉| 10136/10186 [6:48:49<02:01,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0: 100%|▉| 10136/10186 [6:48:49<02:01,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0: 100%|▉| 10137/10186 [6:48:50<01:58,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0: 100%|▉| 10137/10186 [6:48:50<01:58,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0: 100%|▉| 10138/10186 [6:48:51<01:56,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0: 100%|▉| 10138/10186 [6:48:51<01:56,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0: 100%|▉| 10139/10186 [6:48:52<01:53,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0: 100%|▉| 10139/10186 [6:48:52<01:53,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0: 100%|▉| 10140/10186 [6:48:59<01:51,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0: 100%|▉| 10140/10186 [6:48:59<01:51,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0: 100%|▉| 10141/10186 [6:49:00<01:48,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0: 100%|▉| 10141/10186 [6:49:00<01:48,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0: 100%|▉| 10142/10186 [6:49:01<01:46,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0: 100%|▉| 10142/10186 [6:49:01<01:46,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0: 100%|▉| 10143/10186 [6:49:02<01:44,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0: 100%|▉| 10143/10186 [6:49:02<01:44,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0: 100%|▉| 10144/10186 [6:49:08<01:41,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0: 100%|▉| 10144/10186 [6:49:08<01:41,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0: 100%|▉| 10145/10186 [6:49:09<01:39,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0: 100%|▉| 10145/10186 [6:49:09<01:39,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0: 100%|▉| 10146/10186 [6:49:11<01:36,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0: 100%|▉| 10146/10186 [6:49:11<01:36,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0: 100%|▉| 10147/10186 [6:49:12<01:34,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0: 100%|▉| 10147/10186 [6:49:12<01:34,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0: 100%|▉| 10148/10186 [6:49:18<01:31,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0: 100%|▉| 10148/10186 [6:49:18<01:31,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0: 100%|▉| 10149/10186 [6:49:19<01:29,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0: 100%|▉| 10149/10186 [6:49:19<01:29,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0: 100%|▉| 10150/10186 [6:49:20<01:27,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0: 100%|▉| 10150/10186 [6:49:20<01:27,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0: 100%|▉| 10151/10186 [6:49:21<01:24,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0: 100%|▉| 10151/10186 [6:49:21<01:24,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0: 100%|▉| 10152/10186 [6:49:28<01:22,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0: 100%|▉| 10152/10186 [6:49:28<01:22,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0: 100%|▉| 10153/10186 [6:49:29<01:19,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0: 100%|▉| 10153/10186 [6:49:29<01:19,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0: 100%|▉| 10154/10186 [6:49:30<01:17,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0: 100%|▉| 10154/10186 [6:49:30<01:17,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0: 100%|▉| 10155/10186 [6:49:31<01:15,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0: 100%|▉| 10155/10186 [6:49:31<01:15,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0: 100%|▉| 10156/10186 [6:49:37<01:12,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0: 100%|▉| 10156/10186 [6:49:37<01:12,  2.42s/it, v_num=uqm9, train/loss=2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0: 100%|▉| 10157/10186 [6:49:38<01:10,  2.42s/it, v_num=uqm9, train/loss=2\r",
+      "Epoch 0: 100%|▉| 10157/10186 [6:49:38<01:10,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0: 100%|▉| 10158/10186 [6:49:39<01:07,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0: 100%|▉| 10158/10186 [6:49:39<01:07,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0: 100%|▉| 10159/10186 [6:49:40<01:05,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0: 100%|▉| 10159/10186 [6:49:40<01:05,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0: 100%|▉| 10160/10186 [6:49:47<01:02,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0: 100%|▉| 10160/10186 [6:49:47<01:02,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0: 100%|▉| 10161/10186 [6:49:48<01:00,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0: 100%|▉| 10161/10186 [6:49:48<01:00,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0: 100%|▉| 10162/10186 [6:49:49<00:58,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0: 100%|▉| 10162/10186 [6:49:49<00:58,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0: 100%|▉| 10163/10186 [6:49:50<00:55,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0: 100%|▉| 10163/10186 [6:49:50<00:55,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0: 100%|▉| 10164/10186 [6:49:56<00:53,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0: 100%|▉| 10164/10186 [6:49:56<00:53,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0: 100%|▉| 10165/10186 [6:49:57<00:50,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0: 100%|▉| 10165/10186 [6:49:57<00:50,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0: 100%|▉| 10166/10186 [6:49:58<00:48,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0: 100%|▉| 10166/10186 [6:49:58<00:48,  2.42s/it, v_num=uqm9, train/loss=2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0: 100%|▉| 10167/10186 [6:49:59<00:45,  2.42s/it, v_num=uqm9, train/loss=2\r",
+      "Epoch 0: 100%|▉| 10167/10186 [6:49:59<00:45,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0: 100%|▉| 10168/10186 [6:50:06<00:43,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0: 100%|▉| 10168/10186 [6:50:06<00:43,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0: 100%|▉| 10169/10186 [6:50:07<00:41,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0: 100%|▉| 10169/10186 [6:50:07<00:41,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0: 100%|▉| 10170/10186 [6:50:08<00:38,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0: 100%|▉| 10170/10186 [6:50:08<00:38,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0: 100%|▉| 10171/10186 [6:50:09<00:36,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0: 100%|▉| 10171/10186 [6:50:09<00:36,  2.42s/it, v_num=uqm9, train/loss=4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0: 100%|▉| 10172/10186 [6:50:15<00:33,  2.42s/it, v_num=uqm9, train/loss=4\r",
+      "Epoch 0: 100%|▉| 10172/10186 [6:50:15<00:33,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0: 100%|▉| 10173/10186 [6:50:17<00:31,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0: 100%|▉| 10173/10186 [6:50:17<00:31,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0: 100%|▉| 10174/10186 [6:50:18<00:29,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0: 100%|▉| 10174/10186 [6:50:18<00:29,  2.42s/it, v_num=uqm9, train/loss=2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0: 100%|▉| 10175/10186 [6:50:19<00:26,  2.42s/it, v_num=uqm9, train/loss=2\r",
+      "Epoch 0: 100%|▉| 10175/10186 [6:50:19<00:26,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0: 100%|▉| 10176/10186 [6:50:25<00:24,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0: 100%|▉| 10176/10186 [6:50:25<00:24,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0: 100%|▉| 10177/10186 [6:50:26<00:21,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0: 100%|▉| 10177/10186 [6:50:26<00:21,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0: 100%|▉| 10178/10186 [6:50:27<00:19,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0: 100%|▉| 10178/10186 [6:50:27<00:19,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0: 100%|▉| 10179/10186 [6:50:28<00:16,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0: 100%|▉| 10179/10186 [6:50:28<00:16,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0: 100%|▉| 10180/10186 [6:50:35<00:14,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0: 100%|▉| 10180/10186 [6:50:35<00:14,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0: 100%|▉| 10181/10186 [6:50:36<00:12,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0: 100%|▉| 10181/10186 [6:50:36<00:12,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0: 100%|▉| 10182/10186 [6:50:37<00:09,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0: 100%|▉| 10182/10186 [6:50:37<00:09,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0: 100%|▉| 10183/10186 [6:50:38<00:07,  2.42s/it, v_num=uqm9, train/loss=3\r",
+      "Epoch 0: 100%|▉| 10183/10186 [6:50:38<00:07,  2.42s/it, v_num=uqm9, train/loss=2"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0: 100%|▉| 10184/10186 [6:50:44<00:04,  2.42s/it, v_num=uqm9, train/loss=2\r",
+      "Epoch 0: 100%|▉| 10184/10186 [6:50:44<00:04,  2.42s/it, v_num=uqm9, train/loss=1"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0: 100%|▉| 10185/10186 [6:50:45<00:02,  2.42s/it, v_num=uqm9, train/loss=1\r",
+      "Epoch 0: 100%|▉| 10185/10186 [6:50:45<00:02,  2.42s/it, v_num=uqm9, train/loss=4"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0: 100%|█| 10186/10186 [6:50:46<00:00,  2.42s/it, v_num=uqm9, train/loss=4\r",
+      "Epoch 0: 100%|█| 10186/10186 [6:50:46<00:00,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r\n",
+      "\r",
+      "Validation: 0it [00:00, ?it/s]\u001b[A\r\n",
+      "\r",
+      "Validation:   0%|                                        | 0/52 [00:00<?, ?it/s]\u001b[A\r\n",
+      "\r",
+      "Validation DataLoader 0:   0%|                           | 0/52 [00:00<?, ?it/s]\u001b[A"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r\n",
+      "\r",
+      "Validation DataLoader 0:   2%|▎                  | 1/52 [00:00<00:23,  2.14it/s]\u001b[A"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r\n",
+      "\r",
+      "Validation DataLoader 0:   4%|▋                  | 2/52 [00:00<00:21,  2.30it/s]\u001b[A"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r\n",
+      "\r",
+      "Validation DataLoader 0:   6%|█                  | 3/52 [00:01<00:20,  2.40it/s]\u001b[A"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r\n",
+      "\r",
+      "Validation DataLoader 0:   8%|█▍                 | 4/52 [00:01<00:19,  2.44it/s]\u001b[A"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r\n",
+      "\r",
+      "Validation DataLoader 0:  10%|█▊                 | 5/52 [00:02<00:19,  2.47it/s]\u001b[A"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r\n",
+      "\r",
+      "Validation DataLoader 0:  12%|██▏                | 6/52 [00:02<00:18,  2.49it/s]\u001b[A"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r\n",
+      "\r",
+      "Validation DataLoader 0:  13%|██▌                | 7/52 [00:02<00:17,  2.50it/s]\u001b[A"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r\n",
+      "\r",
+      "Validation DataLoader 0:  15%|██▉                | 8/52 [00:03<00:17,  2.52it/s]\u001b[A"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r\n",
+      "\r",
+      "Validation DataLoader 0:  17%|███▎               | 9/52 [00:03<00:17,  2.52it/s]\u001b[A"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r\n",
+      "\r",
+      "Validation DataLoader 0:  19%|███▍              | 10/52 [00:03<00:16,  2.53it/s]\u001b[A"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r\n",
+      "\r",
+      "Validation DataLoader 0:  21%|███▊              | 11/52 [00:04<00:16,  2.53it/s]\u001b[A"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r\n",
+      "\r",
+      "Validation DataLoader 0:  23%|████▏             | 12/52 [00:04<00:15,  2.54it/s]\u001b[A"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r\n",
+      "\r",
+      "Validation DataLoader 0:  25%|████▌             | 13/52 [00:05<00:15,  2.54it/s]\u001b[A"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r\n",
+      "\r",
+      "Validation DataLoader 0:  27%|████▊             | 14/52 [00:05<00:14,  2.54it/s]\u001b[A"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r\n",
+      "\r",
+      "Validation DataLoader 0:  29%|█████▏            | 15/52 [00:05<00:14,  2.55it/s]\u001b[A"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r\n",
+      "\r",
+      "Validation DataLoader 0:  31%|█████▌            | 16/52 [00:06<00:14,  2.55it/s]\u001b[A"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r\n",
+      "\r",
+      "Validation DataLoader 0:  33%|█████▉            | 17/52 [00:06<00:13,  2.52it/s]\u001b[A"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r\n",
+      "\r",
+      "Validation DataLoader 0:  35%|██████▏           | 18/52 [00:07<00:13,  2.52it/s]\u001b[A"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r\n",
+      "\r",
+      "Validation DataLoader 0:  37%|██████▌           | 19/52 [00:07<00:13,  2.52it/s]\u001b[A"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r\n",
+      "\r",
+      "Validation DataLoader 0:  38%|██████▉           | 20/52 [00:07<00:12,  2.53it/s]\u001b[A"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r\n",
+      "\r",
+      "Validation DataLoader 0:  40%|███████▎          | 21/52 [00:08<00:12,  2.53it/s]\u001b[A"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r\n",
+      "\r",
+      "Validation DataLoader 0:  42%|███████▌          | 22/52 [00:08<00:11,  2.53it/s]\u001b[A"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r\n",
+      "\r",
+      "Validation DataLoader 0:  44%|███████▉          | 23/52 [00:09<00:11,  2.53it/s]\u001b[A"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r\n",
+      "\r",
+      "Validation DataLoader 0:  46%|████████▎         | 24/52 [00:09<00:11,  2.53it/s]\u001b[A"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r\n",
+      "\r",
+      "Validation DataLoader 0:  48%|████████▋         | 25/52 [00:09<00:10,  2.53it/s]\u001b[A"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r\n",
+      "\r",
+      "Validation DataLoader 0:  50%|█████████         | 26/52 [00:10<00:10,  2.53it/s]\u001b[A"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r\n",
+      "\r",
+      "Validation DataLoader 0:  52%|█████████▎        | 27/52 [00:10<00:09,  2.53it/s]\u001b[A"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r\n",
+      "\r",
+      "Validation DataLoader 0:  54%|█████████▋        | 28/52 [00:11<00:09,  2.53it/s]\u001b[A"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r\n",
+      "\r",
+      "Validation DataLoader 0:  56%|██████████        | 29/52 [00:11<00:09,  2.53it/s]\u001b[A"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r\n",
+      "\r",
+      "Validation DataLoader 0:  58%|██████████▍       | 30/52 [00:11<00:08,  2.52it/s]\u001b[A"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r\n",
+      "\r",
+      "Validation DataLoader 0:  60%|██████████▋       | 31/52 [00:12<00:08,  2.52it/s]\u001b[A"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r\n",
+      "\r",
+      "Validation DataLoader 0:  62%|███████████       | 32/52 [00:12<00:07,  2.51it/s]\u001b[A"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r\n",
+      "\r",
+      "Validation DataLoader 0:  63%|███████████▍      | 33/52 [00:13<00:07,  2.51it/s]\u001b[A"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r\n",
+      "\r",
+      "Validation DataLoader 0:  65%|███████████▊      | 34/52 [00:13<00:07,  2.51it/s]\u001b[A"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r\n",
+      "\r",
+      "Validation DataLoader 0:  67%|████████████      | 35/52 [00:13<00:06,  2.51it/s]\u001b[A"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r\n",
+      "\r",
+      "Validation DataLoader 0:  69%|████████████▍     | 36/52 [00:14<00:06,  2.51it/s]\u001b[A"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r\n",
+      "\r",
+      "Validation DataLoader 0:  71%|████████████▊     | 37/52 [00:14<00:05,  2.51it/s]\u001b[A"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r\n",
+      "\r",
+      "Validation DataLoader 0:  73%|█████████████▏    | 38/52 [00:15<00:05,  2.51it/s]\u001b[A"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r\n",
+      "\r",
+      "Validation DataLoader 0:  75%|█████████████▌    | 39/52 [00:15<00:05,  2.52it/s]\u001b[A"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Validation DataLoader 0:  77%|█████████████▊    | 40/52 [00:15<00:04,  2.52it/s]\u001b[A"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r\n",
+      "\r",
+      "Validation DataLoader 0:  79%|██████████████▏   | 41/52 [00:16<00:04,  2.52it/s]\u001b[A"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r\n",
+      "\r",
+      "Validation DataLoader 0:  81%|██████████████▌   | 42/52 [00:16<00:03,  2.52it/s]\u001b[A"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r\n",
+      "\r",
+      "Validation DataLoader 0:  83%|██████████████▉   | 43/52 [00:17<00:03,  2.52it/s]\u001b[A"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r\n",
+      "\r",
+      "Validation DataLoader 0:  85%|███████████████▏  | 44/52 [00:17<00:03,  2.52it/s]\u001b[A"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r\n",
+      "\r",
+      "Validation DataLoader 0:  87%|███████████████▌  | 45/52 [00:17<00:02,  2.52it/s]\u001b[A"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r\n",
+      "\r",
+      "Validation DataLoader 0:  88%|███████████████▉  | 46/52 [00:18<00:02,  2.52it/s]\u001b[A"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r\n",
+      "\r",
+      "Validation DataLoader 0:  90%|████████████████▎ | 47/52 [00:18<00:01,  2.52it/s]\u001b[A"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r\n",
+      "\r",
+      "Validation DataLoader 0:  92%|████████████████▌ | 48/52 [00:19<00:01,  2.53it/s]\u001b[A"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Validation DataLoader 0:  94%|████████████████▉ | 49/52 [00:19<00:01,  2.53it/s]\u001b[A"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r\n",
+      "\r",
+      "Validation DataLoader 0:  96%|█████████████████▎| 50/52 [00:19<00:00,  2.53it/s]\u001b[A"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r\n",
+      "\r",
+      "Validation DataLoader 0:  98%|█████████████████▋| 51/52 [00:20<00:00,  2.53it/s]\u001b[A"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r\n",
+      "\r",
+      "Validation DataLoader 0: 100%|██████████████████| 52/52 [00:20<00:00,  2.53it/s]\u001b[A"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0: 100%|█| 10186/10186 [6:51:16<00:00,  2.42s/it, v_num=uqm9, train/loss=3\r\n",
+      "\r",
+      "                                                                                \u001b[A\r",
+      "Epoch 0: 100%|█| 10186/10186 [6:51:16<00:00,  2.42s/it, v_num=uqm9, train/loss=3"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "`Trainer.fit` stopped: `max_epochs=1` reached.\r\n",
+      "\r",
+      "Epoch 0: 100%|█| 10186/10186 [6:51:32<00:00,  2.42s/it, v_num=uqm9, train/loss=3\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\u001b[34m\u001b[1mwandb\u001b[0m: Waiting for W&B process to finish... \u001b[32m(success).\u001b[0m\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\u001b[34m\u001b[1mwandb\u001b[0m: \r\n",
+      "\u001b[34m\u001b[1mwandb\u001b[0m: Run history:\r\n",
+      "\u001b[34m\u001b[1mwandb\u001b[0m:              batchidx ▁▁▁▂▂▂▂▂▂▃▃▃▃▃▄▄▄▄▄▄▅▅▅▅▅▅▆▆▆▆▆▇▇▇▇▇▇███\r\n",
+      "\u001b[34m\u001b[1mwandb\u001b[0m:                 epoch ▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁\r\n",
+      "\u001b[34m\u001b[1mwandb\u001b[0m:           global_rank ▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁\r\n",
+      "\u001b[34m\u001b[1mwandb\u001b[0m:          real_ctx_len ▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁\r\n",
+      "\u001b[34m\u001b[1mwandb\u001b[0m:               substep ▁▁▁▂▂▂▂▂▂▃▃▃▃▃▄▄▄▄▄▄▅▅▅▅▅▅▆▆▆▆▆▇▇▇▇▇▇███\r\n",
+      "\u001b[34m\u001b[1mwandb\u001b[0m:            train/loss █▆▆▆▅▅▄▄▄▄▂▄▃▃▃▃▃▃▃▃▃▂▁▃▂▃▂▂▂▂▂▃▂▁▂▁▁▂▂▂\r\n",
+      "\u001b[34m\u001b[1mwandb\u001b[0m:   trainer/global_step ▁▁▁▂▂▂▂▂▂▃▃▃▃▃▃▄▄▄▄▄▅▅▅▅▅▅▆▆▆▆▆▆▇▇▇▇▇███\r\n",
+      "\u001b[34m\u001b[1mwandb\u001b[0m: trainer/learning_rate ███▇▇▇▇▇▇▆▆▆▆▆▅▅▅▅▅▅▄▄▄▄▄▄▃▃▃▃▃▂▂▂▂▂▂▁▁▁\r\n",
+      "\u001b[34m\u001b[1mwandb\u001b[0m:       validation/loss ▁\r\n",
+      "\u001b[34m\u001b[1mwandb\u001b[0m: \r\n",
+      "\u001b[34m\u001b[1mwandb\u001b[0m: Run summary:\r\n",
+      "\u001b[34m\u001b[1mwandb\u001b[0m:              batchidx 51\r\n",
+      "\u001b[34m\u001b[1mwandb\u001b[0m:                 epoch 0\r\n",
+      "\u001b[34m\u001b[1mwandb\u001b[0m:           global_rank 0\r\n",
+      "\u001b[34m\u001b[1mwandb\u001b[0m:          real_ctx_len 4095\r\n",
+      "\u001b[34m\u001b[1mwandb\u001b[0m:               substep 408\r\n",
+      "\u001b[34m\u001b[1mwandb\u001b[0m:            train/loss 3.875\r\n",
+      "\u001b[34m\u001b[1mwandb\u001b[0m:   trainer/global_step 2546\r\n",
+      "\u001b[34m\u001b[1mwandb\u001b[0m: trainer/learning_rate 0.0004\r\n",
+      "\u001b[34m\u001b[1mwandb\u001b[0m:       validation/loss 3.51589\r\n",
+      "\u001b[34m\u001b[1mwandb\u001b[0m: \r\n",
+      "\u001b[34m\u001b[1mwandb\u001b[0m: 🚀 View run \u001b[33mv5-hs2x-L6-D4096-E0.1 - Enwiki-4k Foundation (train-ctx=4k, deepspeed_stage_1)\u001b[0m at: \u001b[34m\u001b[4mhttps://wandb.ai/rwkv-x-dev/RWKV-X-Experiments/runs/ai5tuqm9\u001b[0m\r\n",
+      "\u001b[34m\u001b[1mwandb\u001b[0m: ️⚡ View job at \u001b[34m\u001b[4mhttps://wandb.ai/rwkv-x-dev/RWKV-X-Experiments/jobs/QXJ0aWZhY3RDb2xsZWN0aW9uOjkyNDI2MjYz/version_details/v16\u001b[0m\r\n",
+      "\u001b[34m\u001b[1mwandb\u001b[0m: Synced 5 W&B file(s), 0 media file(s), 2 artifact file(s) and 0 other file(s)\r\n",
+      "\u001b[34m\u001b[1mwandb\u001b[0m: Find logs at: \u001b[35m\u001b[1m./wandb/run-20230828_184714-ai5tuqm9/logs\u001b[0m\r\n"
+     ]
+    }
+   ],
+   "source": [
+    "# Start the foundation model training\n",
+    "!cd \"{TRAINER_DIR}\" && \\\n",
+    "    export RWKV_WAVENET_LAYERS=\"{RWKV_WAVENET_LAYERS}\" && \\\n",
+    "    export WANDB_MODE=\"{WANDB_MODE}\" && \\\n",
+    "    python lightning_trainer.py fit \\\n",
+    "        -c \"{NOTEBOOK_DIR}/v5base-enwiki-4k.yaml\" \\\n",
+    "        --trainer.logger.init_args.name=\"{WANDB_PREFIX} - Enwiki-4k Foundation (train-ctx=4k, {DEEPSPEED_STRAT})\" \\\n",
+    "        --trainer.strategy=\"{DEEPSPEED_STRAT}\" \\\n",
+    "        --trainer.devices=\"{GPU_DEVICES}\" \\\n",
+    "        --trainer.callbacks.init_args.dirpath=\"../checkpoint/{FILENAME_PREFIX}-enwiki-4k/\" \\\n",
+    "        --model.load_model=\"../model/L{LAYER_COUNT}-D{EMBED_DIM}-E{EMBED_SCALE_LABEL}-neox-v5base-init.pth\" \\\n",
+    "        --model.ctx_len=4096 \\\n",
+    "        --model.bptt_learning_range=1"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 7,
+   "id": "ef75baf9",
+   "metadata": {
+    "execution": {
+     "iopub.execute_input": "2023-08-29T01:40:55.349706Z",
+     "iopub.status.busy": "2023-08-29T01:40:55.349477Z",
+     "iopub.status.idle": "2023-08-29T01:41:14.348925Z",
+     "shell.execute_reply": "2023-08-29T01:41:14.348005Z"
+    },
+    "papermill": {
+     "duration": 19.562882,
+     "end_time": "2023-08-29T01:41:14.350313",
+     "exception": false,
+     "start_time": "2023-08-29T01:40:54.787431",
+     "status": "completed"
+    },
+    "tags": []
+   },
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Setting ds_accelerator to cuda (auto detect)\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Processing zero checkpoint '../checkpoint/v5-hs2x-L6-D4096-E0_1-enwiki-4k/last.ckpt/checkpoint'\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Detected checkpoint of type zero stage ZeroStageEnum.optimizer_states, world_size: 8\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Parsing checkpoint created by deepspeed==0.9.3\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Reconstructed fp32 state dict with 126 params 1720779136 elements\r\n",
+      "Saving bf16 state dict to ../model/v5-hs2x-L6-D4096-E0_1-enwiki-4k.pth\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "-rw-r--r-- 1 root root 3.3G Aug 29 01:41 ../model/v5-hs2x-L6-D4096-E0_1-enwiki-4k.pth\r\n"
+     ]
+    }
+   ],
+   "source": [
+    "# Lets export the model from the checkpoint\n",
+    "!cd \"{TRAINER_DIR}\" && \\\n",
+    "    python export_checkpoint.py \"../checkpoint/{FILENAME_PREFIX}-enwiki-4k/last.ckpt\" \"../model/{FILENAME_PREFIX}-enwiki-4k.pth\" \"bf16\"\n",
+    "!cd \"{TRAINER_DIR}\" && ls -alh \"../model/{FILENAME_PREFIX}-enwiki-4k.pth\""
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 8,
+   "id": "a31b72c7",
+   "metadata": {
+    "execution": {
+     "iopub.execute_input": "2023-08-29T01:41:15.567611Z",
+     "iopub.status.busy": "2023-08-29T01:41:15.567266Z",
+     "iopub.status.idle": "2023-08-29T01:42:47.779461Z",
+     "shell.execute_reply": "2023-08-29T01:42:47.778440Z"
+    },
+    "papermill": {
+     "duration": 92.766884,
+     "end_time": "2023-08-29T01:42:47.781584",
+     "exception": false,
+     "start_time": "2023-08-29T01:41:15.014700",
+     "status": "completed"
+    },
+    "tags": []
+   },
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Setting ds_accelerator to cuda (auto detect)\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "[RWKV.model] Running RWKV model using 'torch-jit' with torch '2.0.1+cu118'\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "--- DRAGON PROMPT ---\r\n",
+      "In a shocking finding, scientist discovered a herd of dragons living in a remote, previously unexplored valley, in Tibet. Even more surprising to the researchers was the fact that the dragons spoke perfect Chinese."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " This"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " discovery"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " was"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " subsequently"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " proposed"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " by"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " researchers"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " and"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " scientists"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      ","
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " who"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " used"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " Chinese"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " and"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " Chinese"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " researchers"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " to"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " find"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " evidence"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " that"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " the"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " presence"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " of"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " Chinese"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " at"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " the"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " bottom"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " of"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " the"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " pool"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " was"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " responsible"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " for"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " a"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " subsequent"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " discovery"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " of"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " Chinese"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " sh"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "aman"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      ","
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " which"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " was"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " used"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " for"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " Chinese"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " characters"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " The"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " treasure"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " found"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " by"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " Chinese"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " scientists"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " revealed"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " that"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " Chinese"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " researchers"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " had"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " discovered"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " and"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " traced"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " the"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " tiger"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "'s"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " fossil"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " teeth"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "In"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " early"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " February"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " 2017"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      ","
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " researchers"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " reported"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " that"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " Chinese"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " scientists"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " at"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " the"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " Royal"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " Canadian"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " Mount"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "ed"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " Police"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " ("
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "J"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "T"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "CO"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      ")"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " claim"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " that"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " Chinese"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " scientists"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " discovered"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " evidence"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " of"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " the"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " bark"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " of"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " Chinese"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " din"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "osaurs"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " The"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " Chinese"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " team"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " uncovered"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " an"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " unnamed"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " Chinese"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " team"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " at"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " Mount"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " Mer"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "ion"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      ","
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " near"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " L"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "ian"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "yang"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      ","
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " and"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " described"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " a"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " Chinese"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " ship"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "w"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "ocal"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " who"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " traveled"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " on"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " foot"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " in"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " search"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " of"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " evidence"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " They"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " discovered"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " that"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " the"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " Chinese"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " attacked"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " the"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " Chinese"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "-"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "backed"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " Chinese"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " people"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " in"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " the"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " region"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " They"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " collected"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " the"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " specimen"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " of"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " the"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " known"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " Chinese"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " ch"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "ian"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "ium"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " ("
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Chinese"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      ":"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " "
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "�"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "�"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "�"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "�"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "),"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " and"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " then"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " detected"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " the"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " Chinese"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " sch"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "oon"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "er"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " The"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " Chinese"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " officials"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " also"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " examined"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " the"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " Chinese"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " find"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " and"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " found"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " that"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " the"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " Chinese"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " specimen"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r\n"
+     ]
+    }
+   ],
+   "source": [
+    "# # Lets do a quick dragon prompt validation\n",
+    "!cd \"{INFERENCE_DIR}\" && \\\n",
+    "    export RWKV_WAVENET_LAYERS=\"{RWKV_WAVENET_LAYERS}\" && \\\n",
+    "    python3 dragon_test.py \"../model/{FILENAME_PREFIX}-enwiki-4k.pth\" \"cuda fp32\""
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 9,
+   "id": "db7b403d",
+   "metadata": {
+    "execution": {
+     "iopub.execute_input": "2023-08-29T01:42:49.086221Z",
+     "iopub.status.busy": "2023-08-29T01:42:49.085941Z",
+     "iopub.status.idle": "2023-08-29T01:43:13.155630Z",
+     "shell.execute_reply": "2023-08-29T01:43:13.154742Z"
+    },
+    "papermill": {
+     "duration": 24.795195,
+     "end_time": "2023-08-29T01:43:13.157761",
+     "exception": false,
+     "start_time": "2023-08-29T01:42:48.362566",
+     "status": "completed"
+    },
+    "tags": []
+   },
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Setting ds_accelerator to cuda (auto detect)\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "[RWKV.model] Running RWKV model using 'torch-jit' with torch '2.0.1+cu118'\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Traceback (most recent call last):\r\n",
+      "  File \"/actions-runner/_work/RWKV-infctx-trainer/RWKV-infctx-trainer/notebook/experiment/rwkv-x-exp/v5-headsize2x/../memory_script/eval_v5_memory_guided.py\", line 366, in <module>\r\n",
+      "    asyncio.run(main_function())\r\n",
+      "  File \"/usr/lib/python3.11/asyncio/runners.py\", line 190, in run\r\n",
+      "    return runner.run(main)\r\n",
+      "           ^^^^^^^^^^^^^^^^\r\n",
+      "  File \"/usr/lib/python3.11/asyncio/runners.py\", line 118, in run\r\n",
+      "    return self._loop.run_until_complete(task)\r\n",
+      "           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^\r\n",
+      "  File \"/usr/lib/python3.11/asyncio/base_events.py\", line 653, in run_until_complete\r\n",
+      "    return future.result()\r\n",
+      "           ^^^^^^^^^^^^^^^\r\n",
+      "  File \"/actions-runner/_work/RWKV-infctx-trainer/RWKV-infctx-trainer/notebook/experiment/rwkv-x-exp/v5-headsize2x/../memory_script/eval_v5_memory_guided.py\", line 58, in main_function\r\n",
+      "    model = SimpleRWKV(model_path, device=\"cuda\")\r\n",
+      "            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^\r\n",
+      "  File \"/actions-runner/_work/RWKV-infctx-trainer/RWKV-infctx-trainer/RWKV-v5/src/model.py\", line 1378, in __init__\r\n",
+      "    self.model = RWKV(**model_config)\r\n",
+      "                 ^^^^^^^^^^^^^^^^^^^^\r\n",
+      "  File \"/actions-runner/_work/RWKV-infctx-trainer/RWKV-infctx-trainer/RWKV-v5/src/model.py\", line 650, in __init__\r\n",
+      "    self.load_state_dict(model_weights)\r\n",
+      "  File \"/usr/local/lib/python3.11/dist-packages/torch/nn/modules/module.py\", line 2041, in load_state_dict\r\n",
+      "    raise RuntimeError('Error(s) in loading state_dict for {}:\\n\\t{}'.format(\r\n",
+      "RuntimeError: Error(s) in loading state_dict for RWKV:\r\n",
+      "\tsize mismatch for blocks.0.att.time_decay: copying a param with shape torch.Size([32]) from checkpoint, the shape in current model is torch.Size([64]).\r\n",
+      "\tsize mismatch for blocks.0.att.time_faaaa: copying a param with shape torch.Size([32]) from checkpoint, the shape in current model is torch.Size([64]).\r\n",
+      "\tsize mismatch for blocks.1.att.time_decay: copying a param with shape torch.Size([32]) from checkpoint, the shape in current model is torch.Size([64]).\r\n",
+      "\tsize mismatch for blocks.1.att.time_faaaa: copying a param with shape torch.Size([32]) from checkpoint, the shape in current model is torch.Size([64]).\r\n",
+      "\tsize mismatch for blocks.2.att.time_decay: copying a param with shape torch.Size([32]) from checkpoint, the shape in current model is torch.Size([64]).\r\n",
+      "\tsize mismatch for blocks.2.att.time_faaaa: copying a param with shape torch.Size([32]) from checkpoint, the shape in current model is torch.Size([64]).\r\n",
+      "\tsize mismatch for blocks.3.att.time_decay: copying a param with shape torch.Size([32]) from checkpoint, the shape in current model is torch.Size([64]).\r\n",
+      "\tsize mismatch for blocks.3.att.time_faaaa: copying a param with shape torch.Size([32]) from checkpoint, the shape in current model is torch.Size([64]).\r\n",
+      "\tsize mismatch for blocks.4.att.time_decay: copying a param with shape torch.Size([32]) from checkpoint, the shape in current model is torch.Size([64]).\r\n",
+      "\tsize mismatch for blocks.4.att.time_faaaa: copying a param with shape torch.Size([32]) from checkpoint, the shape in current model is torch.Size([64]).\r\n",
+      "\tsize mismatch for blocks.5.att.time_decay: copying a param with shape torch.Size([32]) from checkpoint, the shape in current model is torch.Size([64]).\r\n",
+      "\tsize mismatch for blocks.5.att.time_faaaa: copying a param with shape torch.Size([32]) from checkpoint, the shape in current model is torch.Size([64]).\r\n"
+     ]
+    }
+   ],
+   "source": [
+    "# Lets do a quick memory test\n",
+    "!export RWKV_WAVENET_LAYERS=\"{RWKV_WAVENET_LAYERS}\" && \\\n",
+    "        python3 ../memory_script/eval_v5_memory_guided.py \"{PROJECT_DIR}/model/{FILENAME_PREFIX}-enwiki-4k.pth\""
+   ]
+  },
+  {
+   "attachments": {},
+   "cell_type": "markdown",
+   "id": "1e197c3b",
+   "metadata": {
+    "papermill": {
+     "duration": 0.584635,
+     "end_time": "2023-08-29T01:43:14.328059",
+     "exception": false,
+     "start_time": "2023-08-29T01:43:13.743424",
+     "status": "completed"
+    },
+    "tags": []
+   },
+   "source": [
+    "# Enwiki Stage 2 : Basic Instruct Tuning"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 10,
+   "id": "9f645ad6",
+   "metadata": {
+    "execution": {
+     "iopub.execute_input": "2023-08-29T01:43:15.622056Z",
+     "iopub.status.busy": "2023-08-29T01:43:15.621812Z",
+     "iopub.status.idle": "2023-08-29T01:43:22.600320Z",
+     "shell.execute_reply": "2023-08-29T01:43:22.599545Z"
+    },
+    "papermill": {
+     "duration": 7.694583,
+     "end_time": "2023-08-29T01:43:22.602460",
+     "exception": false,
+     "start_time": "2023-08-29T01:43:14.907877",
+     "status": "completed"
+    },
+    "tags": []
+   },
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Found cached dataset parquet (/actions-runner/.cache/huggingface/datasets/c-s-ale___parquet/c-s-ale--dolly-15k-instruction-alpaca-format-9dfbb23260d63d9d/0.0.0/14a00e99c0d15a23649d0db8944380ac81082d4b021f398733dd84f3a6c569a7)\r\n",
+      "\r",
+      "  0%|                                                     | 0/1 [00:00<?, ?it/s]\r",
+      "100%|████████████████████████████████████████████| 1/1 [00:00<00:00, 624.34it/s]\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Loading cached processed dataset at /actions-runner/.cache/huggingface/datasets/c-s-ale___parquet/c-s-ale--dolly-15k-instruction-alpaca-format-9dfbb23260d63d9d/0.0.0/14a00e99c0d15a23649d0db8944380ac81082d4b021f398733dd84f3a6c569a7/cache-3a81f68e4498c60a_*_of_00064.arrow\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Loading cached processed dataset at /actions-runner/.cache/huggingface/datasets/c-s-ale___parquet/c-s-ale--dolly-15k-instruction-alpaca-format-9dfbb23260d63d9d/0.0.0/14a00e99c0d15a23649d0db8944380ac81082d4b021f398733dd84f3a6c569a7/cache-36c9ee56cc63a264_*_of_00064.arrow\r\n",
+      "Loading cached split indices for dataset at /actions-runner/.cache/huggingface/datasets/c-s-ale___parquet/c-s-ale--dolly-15k-instruction-alpaca-format-9dfbb23260d63d9d/0.0.0/14a00e99c0d15a23649d0db8944380ac81082d4b021f398733dd84f3a6c569a7/cache-4f2b89ca1acce20d.arrow and /actions-runner/.cache/huggingface/datasets/c-s-ale___parquet/c-s-ale--dolly-15k-instruction-alpaca-format-9dfbb23260d63d9d/0.0.0/14a00e99c0d15a23649d0db8944380ac81082d4b021f398733dd84f3a6c569a7/cache-c7f7bd164be56255.arrow\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Saving the dataset (0/1 shards):   0%|         | 0/14932 [00:00<?, ? examples/s]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Saving the dataset (1/1 shards): 100%|█| 14932/14932 [00:00<00:00, 155846.35 exa\r",
+      "                                                                                \r",
+      "\r",
+      "Saving the dataset (0/1 shards):   0%|            | 0/76 [00:00<?, ? examples/s]\r",
+      "Saving the dataset (1/1 shards): 100%|█| 76/76 [00:00<00:00, 6679.67 examples/s]\r",
+      "                                                                                \r"
+     ]
+    }
+   ],
+   "source": [
+    "# Lets preload the requried dataset\n",
+    "!cd \"{TRAINER_DIR}\" && \\\n",
+    "    python3 preload_datapath.py \"{NOTEBOOK_DIR}/v5base-enwiki-instruct.yaml\""
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 11,
+   "id": "98a19c70",
+   "metadata": {
+    "execution": {
+     "iopub.execute_input": "2023-08-29T01:43:23.743581Z",
+     "iopub.status.busy": "2023-08-29T01:43:23.743387Z",
+     "iopub.status.idle": "2023-08-29T02:32:56.297277Z",
+     "shell.execute_reply": "2023-08-29T02:32:56.296278Z"
+    },
+    "papermill": {
+     "duration": 2973.129417,
+     "end_time": "2023-08-29T02:32:56.299426",
+     "exception": false,
+     "start_time": "2023-08-29T01:43:23.170009",
+     "status": "completed"
+    },
+    "tags": []
+   },
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Setting ds_accelerator to cuda (auto detect)\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "[RWKV.model] Running RWKV model using 'torch-jit' with torch '2.0.1+cu118'\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "/usr/local/lib/python3.11/dist-packages/lightning/pytorch/cli.py:484: UserWarning: LightningCLI's args parameter is intended to run from within Python like if it were from the command line. To prevent mistakes it is not recommended to provide both args and command line arguments, got: sys.argv[1:]=['fit', '-c', '/actions-runner/_work/RWKV-infctx-trainer/RWKV-infctx-trainer/notebook/experiment/rwkv-x-exp/v5-headsize2x/v5base-enwiki-instruct.yaml', '--trainer.logger.init_args.name=v5-hs2x-L6-D4096-E0.1 - Enwiki-Instruct (train-ctx=4k, deepspeed_stage_1)', '--trainer.strategy=deepspeed_stage_1', '--trainer.devices=auto', '--trainer.callbacks.init_args.dirpath=../checkpoint/v5-hs2x-L6-D4096-E0_1-enwiki-instruct/', '--model.load_model=../model/v5-hs2x-L6-D4096-E0_1-enwiki-4k.pth', '--model.ctx_len=4096', '--model.bptt_learning_range=1'], args=['fit', '-c', '/actions-runner/_work/RWKV-infctx-trainer/RWKV-infctx-trainer/notebook/experiment/rwkv-x-exp/v5-headsize2x/v5base-enwiki-instruct.yaml', '--trainer.logger.init_args.name=v5-hs2x-L6-D4096-E0.1 - Enwiki-Instruct (train-ctx=4k, deepspeed_stage_1)', '--trainer.strategy=deepspeed_stage_1', '--trainer.devices=auto', '--trainer.callbacks.init_args.dirpath=../checkpoint/v5-hs2x-L6-D4096-E0_1-enwiki-instruct/', '--model.load_model=../model/v5-hs2x-L6-D4096-E0_1-enwiki-4k.pth', '--model.ctx_len=4096', '--model.bptt_learning_range=1'].\r\n",
+      "  rank_zero_warn(\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "/usr/local/lib/python3.11/dist-packages/lightning/fabric/utilities/seed.py:39: UserWarning: No seed found, seed set to 345418194\r\n",
+      "  rank_zero_warn(f\"No seed found, seed set to {seed}\")\r\n",
+      "Global seed set to 345418194\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\u001b[34m\u001b[1mwandb\u001b[0m: Currently logged in as: \u001b[33mpicocreator\u001b[0m (\u001b[33mrwkv-x-dev\u001b[0m). Use \u001b[1m`wandb login --relogin`\u001b[0m to force relogin\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\u001b[34m\u001b[1mwandb\u001b[0m: wandb version 0.15.9 is available!  To upgrade, please run:\r\n",
+      "\u001b[34m\u001b[1mwandb\u001b[0m:  $ pip install wandb --upgrade\r\n",
+      "\u001b[34m\u001b[1mwandb\u001b[0m: Tracking run with wandb version 0.15.8\r\n",
+      "\u001b[34m\u001b[1mwandb\u001b[0m: Run data is saved locally in \u001b[35m\u001b[1m./wandb/run-20230829_014329-scmucbeq\u001b[0m\r\n",
+      "\u001b[34m\u001b[1mwandb\u001b[0m: Run \u001b[1m`wandb offline`\u001b[0m to turn off syncing.\r\n",
+      "\u001b[34m\u001b[1mwandb\u001b[0m: Syncing run \u001b[33mv5-hs2x-L6-D4096-E0.1 - Enwiki-Instruct (train-ctx=4k, deepspeed_stage_1)\u001b[0m\r\n",
+      "\u001b[34m\u001b[1mwandb\u001b[0m: ⭐️ View project at \u001b[34m\u001b[4mhttps://wandb.ai/rwkv-x-dev/RWKV-X-Experiments\u001b[0m\r\n",
+      "\u001b[34m\u001b[1mwandb\u001b[0m: 🚀 View run at \u001b[34m\u001b[4mhttps://wandb.ai/rwkv-x-dev/RWKV-X-Experiments/runs/scmucbeq\u001b[0m\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "/usr/local/lib/python3.11/dist-packages/lightning/fabric/connector.py:562: UserWarning: bf16 is supported for historical reasons but its usage is discouraged. Please set your precision to bf16-mixed instead!\r\n",
+      "  rank_zero_warn(\r\n",
+      "GPU available: True (cuda), used: True\r\n",
+      "TPU available: False, using: 0 TPU cores\r\n",
+      "IPU available: False, using: 0 IPUs\r\n",
+      "HPU available: False, using: 0 HPUs\r\n",
+      "\r\n",
+      "\r\n",
+      "[RWKV.Trainer] Applying 'target_batch_size' with the following:\r\n",
+      "   - target_batch_size:       32\r\n",
+      "   - num_nodes:               1\r\n",
+      "   - num_devices:             8\r\n",
+      "   - accumulate_grad_batches: 4\r\n",
+      "   - effective_batch_size:    32\r\n",
+      "\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Found cached dataset parquet (/actions-runner/.cache/huggingface/datasets/c-s-ale___parquet/c-s-ale--dolly-15k-instruction-alpaca-format-9dfbb23260d63d9d/0.0.0/14a00e99c0d15a23649d0db8944380ac81082d4b021f398733dd84f3a6c569a7)\r\n",
+      "\r",
+      "  0%|                                                     | 0/1 [00:00<?, ?it/s]\r",
+      "100%|████████████████████████████████████████████| 1/1 [00:00<00:00, 642.51it/s]\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Loading cached processed dataset at /actions-runner/.cache/huggingface/datasets/c-s-ale___parquet/c-s-ale--dolly-15k-instruction-alpaca-format-9dfbb23260d63d9d/0.0.0/14a00e99c0d15a23649d0db8944380ac81082d4b021f398733dd84f3a6c569a7/cache-3a81f68e4498c60a_*_of_00064.arrow\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Loading cached processed dataset at /actions-runner/.cache/huggingface/datasets/c-s-ale___parquet/c-s-ale--dolly-15k-instruction-alpaca-format-9dfbb23260d63d9d/0.0.0/14a00e99c0d15a23649d0db8944380ac81082d4b021f398733dd84f3a6c569a7/cache-36c9ee56cc63a264_*_of_00064.arrow\r\n",
+      "Loading cached split indices for dataset at /actions-runner/.cache/huggingface/datasets/c-s-ale___parquet/c-s-ale--dolly-15k-instruction-alpaca-format-9dfbb23260d63d9d/0.0.0/14a00e99c0d15a23649d0db8944380ac81082d4b021f398733dd84f3a6c569a7/cache-4f2b89ca1acce20d.arrow and /actions-runner/.cache/huggingface/datasets/c-s-ale___parquet/c-s-ale--dolly-15k-instruction-alpaca-format-9dfbb23260d63d9d/0.0.0/14a00e99c0d15a23649d0db8944380ac81082d4b021f398733dd84f3a6c569a7/cache-c7f7bd164be56255.arrow\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Saving the dataset (0/1 shards):   0%|         | 0/14932 [00:00<?, ? examples/s]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Saving the dataset (0/1 shards): 100%|█| 14932/14932 [00:00<00:00, 148283.58 exa\r",
+      "Saving the dataset (1/1 shards): 100%|█| 14932/14932 [00:00<00:00, 148283.58 exa\r",
+      "                                                                                \r",
+      "\r",
+      "Saving the dataset (0/1 shards):   0%|            | 0/76 [00:00<?, ? examples/s]\r",
+      "Saving the dataset (1/1 shards): 100%|█| 76/76 [00:00<00:00, 5570.51 examples/s]\r",
+      "                                                                                \r"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "[rank: 0] Global seed set to 345418194\r\n",
+      "initializing deepspeed distributed: GLOBAL_RANK: 0, MEMBER: 1/8\r\n",
+      "[2023-08-29 01:43:48,471] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Setting ds_accelerator to cuda (auto detect)\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Setting ds_accelerator to cuda (auto detect)\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Setting ds_accelerator to cuda (auto detect)\r\n",
+      "Setting ds_accelerator to cuda (auto detect)\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Setting ds_accelerator to cuda (auto detect)\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Setting ds_accelerator to cuda (auto detect)\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Setting ds_accelerator to cuda (auto detect)\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "[RWKV.model] Running RWKV model using 'torch-jit' with torch '2.0.1+cu118'\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "[RWKV.model] Running RWKV model using 'torch-jit' with torch '2.0.1+cu118'\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "[RWKV.model] Running RWKV model using 'torch-jit' with torch '2.0.1+cu118'\r\n",
+      "[RWKV.model] Running RWKV model using 'torch-jit' with torch '2.0.1+cu118'\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "[RWKV.model] Running RWKV model using 'torch-jit' with torch '2.0.1+cu118'\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "[RWKV.model] Running RWKV model using 'torch-jit' with torch '2.0.1+cu118'\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "[RWKV.model] Running RWKV model using 'torch-jit' with torch '2.0.1+cu118'\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "[rank: 2] Global seed set to 345418194\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "[rank: 6] Global seed set to 345418194\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "[rank: 7] Global seed set to 345418194\r\n",
+      "[rank: 5] Global seed set to 345418194\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "[rank: 1] Global seed set to 345418194\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "[rank: 4] Global seed set to 345418194\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "[rank: 3] Global seed set to 345418194\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "[rank: 4] Global seed set to 345418194\r\n",
+      "initializing deepspeed distributed: GLOBAL_RANK: 4, MEMBER: 5/8\r\n",
+      "[2023-08-29 01:44:17,619] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "[rank: 1] Global seed set to 345418194\r\n",
+      "initializing deepspeed distributed: GLOBAL_RANK: 1, MEMBER: 2/8\r\n",
+      "[2023-08-29 01:44:18,661] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "[rank: 2] Global seed set to 345418194\r\n",
+      "initializing deepspeed distributed: GLOBAL_RANK: 2, MEMBER: 3/8\r\n",
+      "[2023-08-29 01:44:18,702] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "[rank: 3] Global seed set to 345418194\r\n",
+      "initializing deepspeed distributed: GLOBAL_RANK: 3, MEMBER: 4/8\r\n",
+      "[2023-08-29 01:44:18,753] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "[rank: 6] Global seed set to 345418194\r\n",
+      "initializing deepspeed distributed: GLOBAL_RANK: 6, MEMBER: 7/8\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "[2023-08-29 01:44:18,897] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "[rank: 7] Global seed set to 345418194\r\n",
+      "initializing deepspeed distributed: GLOBAL_RANK: 7, MEMBER: 8/8\r\n",
+      "[2023-08-29 01:44:18,958] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "[rank: 5] Global seed set to 345418194\r\n",
+      "initializing deepspeed distributed: GLOBAL_RANK: 5, MEMBER: 6/8\r\n",
+      "[2023-08-29 01:44:19,262] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Enabling DeepSpeed BF16.\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "LOCAL_RANK: 2 - CUDA_VISIBLE_DEVICES: [0,1,2,3,4,5,6,7]\r\n",
+      "LOCAL_RANK: 0 - CUDA_VISIBLE_DEVICES: [0,1,2,3,4,5,6,7]\r\n",
+      "LOCAL_RANK: 1 - CUDA_VISIBLE_DEVICES: [0,1,2,3,4,5,6,7]\r\n",
+      "LOCAL_RANK: 3 - CUDA_VISIBLE_DEVICES: [0,1,2,3,4,5,6,7]\r\n",
+      "LOCAL_RANK: 4 - CUDA_VISIBLE_DEVICES: [0,1,2,3,4,5,6,7]\r\n",
+      "LOCAL_RANK: 5 - CUDA_VISIBLE_DEVICES: [0,1,2,3,4,5,6,7]\r\n",
+      "LOCAL_RANK: 7 - CUDA_VISIBLE_DEVICES: [0,1,2,3,4,5,6,7]\r\n",
+      "LOCAL_RANK: 6 - CUDA_VISIBLE_DEVICES: [0,1,2,3,4,5,6,7]\r\n",
+      "#\r\n",
+      "# RWKV lighting_trainer.py important notes \r\n",
+      "# https://github.com/RWKV/RWKV-infctx-trainer \r\n",
+      "#\r\n",
+      "# - Ensure your host is not running cuda 12.0 (use either 11.8, or >=12.1), as this is known to have freeze issues\r\n",
+      "# - The terms used in wandb / the progress bar can be confusing, see the github README.md for beter clarifications\r\n",
+      "# - When resuming from checkpoint, the estimated time is inaccurate\r\n",
+      "#\r\n",
+      "\r\n",
+      "[RWKV.model] Configuring optimizer with\r\n",
+      "    - lr_init:  4.000e-04 (0.0004)\r\n",
+      "    - lr_final: 3.000e-04 (0.0003)\r\n",
+      "\r\n",
+      "Using /root/.cache/torch_extensions/py311_cu118 as PyTorch extensions root...\r\n",
+      "Using /root/.cache/torch_extensions/py311_cu118 as PyTorch extensions root...\r\n",
+      "Using /root/.cache/torch_extensions/py311_cu118 as PyTorch extensions root...\r\n",
+      "Using /root/.cache/torch_extensions/py311_cu118 as PyTorch extensions root...\r\n",
+      "Using /root/.cache/torch_extensions/py311_cu118 as PyTorch extensions root...\r\n",
+      "Using /root/.cache/torch_extensions/py311_cu118 as PyTorch extensions root...\r\n",
+      "Using /root/.cache/torch_extensions/py311_cu118 as PyTorch extensions root...\r\n",
+      "Using /root/.cache/torch_extensions/py311_cu118 as PyTorch extensions root...\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Detected CUDA files, patching ldflags\r\n",
+      "Emitting ninja build file /root/.cache/torch_extensions/py311_cu118/fused_adam/build.ninja...\r\n",
+      "Building extension module fused_adam...\r\n",
+      "Allowing ninja to set a default number of workers... (overridable by setting the environment variable MAX_JOBS=N)\r\n",
+      "ninja: no work to do.\r\n",
+      "Loading extension module fused_adam...\r\n",
+      "Time to load fused_adam op: 0.07155156135559082 seconds\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Loading extension module fused_adam...\r\n",
+      "Loading extension module fused_adam...\r\n",
+      "Loading extension module fused_adam...\r\n",
+      "Loading extension module fused_adam...\r\n",
+      "Loading extension module fused_adam...\r\n",
+      "Loading extension module fused_adam...\r\n",
+      "Loading extension module fused_adam...\r\n",
+      "Time to load fused_adam op: 0.10176849365234375 seconds\r\n",
+      "Time to load fused_adam op: 0.10148835182189941 seconds\r\n",
+      "Time to load fused_adam op: 0.1015634536743164 seconds\r\n",
+      "Time to load fused_adam op: 0.10209345817565918 seconds\r\n",
+      "Time to load fused_adam op: 0.10170292854309082 seconds\r\n",
+      "Time to load fused_adam op: 0.10150504112243652 seconds\r\n",
+      "Time to load fused_adam op: 0.10160398483276367 seconds\r\n",
+      "Loading `train_dataloader` to estimate number of stepping batches.\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Using /root/.cache/torch_extensions/py311_cu118 as PyTorch extensions root...\r\n",
+      "Using /root/.cache/torch_extensions/py311_cu118 as PyTorch extensions root...\r\n",
+      "Using /root/.cache/torch_extensions/py311_cu118 as PyTorch extensions root...\r\n",
+      "Using /root/.cache/torch_extensions/py311_cu118 as PyTorch extensions root...\r\n",
+      "Using /root/.cache/torch_extensions/py311_cu118 as PyTorch extensions root...\r\n",
+      "Using /root/.cache/torch_extensions/py311_cu118 as PyTorch extensions root...\r\n",
+      "Using /root/.cache/torch_extensions/py311_cu118 as PyTorch extensions root...\r\n",
+      "Using /root/.cache/torch_extensions/py311_cu118 as PyTorch extensions root...\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Emitting ninja build file /root/.cache/torch_extensions/py311_cu118/utils/build.ninja...\r\n",
+      "Building extension module utils...\r\n",
+      "Allowing ninja to set a default number of workers... (overridable by setting the environment variable MAX_JOBS=N)\r\n",
+      "ninja: no work to do.\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Loading extension module utils...\r\n",
+      "Time to load utils op: 0.07130551338195801 seconds\r\n",
+      "Loading extension module utils...\r\n",
+      "Loading extension module utils...\r\n",
+      "Time to load utils op: 0.10222482681274414 seconds\r\n",
+      "Time to load utils op: 0.10239815711975098 seconds\r\n",
+      "Loading extension module utils...\r\n",
+      "Loading extension module utils...\r\n",
+      "Time to load utils op: 0.10255551338195801 seconds\r\n",
+      "Loading extension module utils...\r\n",
+      "Time to load utils op: 0.1025240421295166 seconds\r\n",
+      "Loading extension module utils...\r\n",
+      "Time to load utils op: 0.10241293907165527 seconds\r\n",
+      "Loading extension module utils...\r\n",
+      "Time to load utils op: 0.10340571403503418 seconds\r\n",
+      "Time to load utils op: 0.1028285026550293 seconds\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Rank: 6 partition count [8, 8] and sizes[(215097344, False), (48, False)] \r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Rank: 4 partition count [8, 8] and sizes[(215097344, False), (48, False)] \r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Rank: 1 partition count [8, 8] and sizes[(215097344, False), (48, False)] \r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Rank: 3 partition count [8, 8] and sizes[(215097344, False), (48, False)] \r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Rank: 0 partition count [8, 8] and sizes[(215097344, False), (48, False)] \r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Rank: 7 partition count [8, 8] and sizes[(215097344, False), (48, False)] \r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Rank: 5 partition count [8, 8] and sizes[(215097344, False), (48, False)] \r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Rank: 2 partition count [8, 8] and sizes[(215097344, False), (48, False)] \r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Using /root/.cache/torch_extensions/py311_cu118 as PyTorch extensions root...\r\n",
+      "No modifications detected for re-loaded extension module utils, skipping build step...\r\n",
+      "Loading extension module utils...\r\n",
+      "Time to load utils op: 0.0006301403045654297 seconds\r\n",
+      "Using /root/.cache/torch_extensions/py311_cu118 as PyTorch extensions root...\r\n",
+      "No modifications detected for re-loaded extension module utils, skipping build step...\r\n",
+      "Loading extension module utils...\r\n",
+      "Using /root/.cache/torch_extensions/py311_cu118 as PyTorch extensions root...\r\n",
+      "Time to load utils op: 0.0006008148193359375 seconds\r\n",
+      "No modifications detected for re-loaded extension module utils, skipping build step...\r\n",
+      "Loading extension module utils...\r\n",
+      "Using /root/.cache/torch_extensions/py311_cu118 as PyTorch extensions root...\r\n",
+      "Time to load utils op: 0.0006322860717773438 seconds\r\n",
+      "No modifications detected for re-loaded extension module utils, skipping build step...\r\n",
+      "Loading extension module utils...\r\n",
+      "Using /root/.cache/torch_extensions/py311_cu118 as PyTorch extensions root...\r\n",
+      "Time to load utils op: 0.0006577968597412109 seconds\r\n",
+      "Using /root/.cache/torch_extensions/py311_cu118 as PyTorch extensions root...\r\n",
+      "No modifications detected for re-loaded extension module utils, skipping build step...\r\n",
+      "Loading extension module utils...\r\n",
+      "No modifications detected for re-loaded extension module utils, skipping build step...\r\n",
+      "Loading extension module utils...\r\n",
+      "Time to load utils op: 0.0010302066802978516 seconds\r\n",
+      "Time to load utils op: 0.0007059574127197266 seconds\r\n",
+      "Using /root/.cache/torch_extensions/py311_cu118 as PyTorch extensions root...\r\n",
+      "No modifications detected for re-loaded extension module utils, skipping build step...\r\n",
+      "Loading extension module utils...\r\n",
+      "Time to load utils op: 0.001132965087890625 seconds\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Using /root/.cache/torch_extensions/py311_cu118 as PyTorch extensions root...\r\n",
+      "No modifications detected for re-loaded extension module utils, skipping build step...\r\n",
+      "Loading extension module utils...\r\n",
+      "Time to load utils op: 0.0008440017700195312 seconds\r\n",
+      "\r\n",
+      "  | Name   | Type       | Params\r\n",
+      "--------------------------------------\r\n",
+      "0 | emb    | Embedding  | 205 M \r\n",
+      "1 | blocks | ModuleList | 1.3 B \r\n",
+      "2 | ln_out | LayerNorm  | 8.2 K \r\n",
+      "3 | head   | Linear     | 205 M \r\n",
+      "--------------------------------------\r\n",
+      "1.7 B     Trainable params\r\n",
+      "0         Non-trainable params\r\n",
+      "1.7 B     Total params\r\n",
+      "6,883.117 Total estimated model params size (MB)\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Training: 0it [00:00, ?it/s]\r",
+      "Training:   0%|                                        | 0/1867 [00:00<?, ?it/s]\r",
+      "Epoch 0:   0%|                                         | 0/1867 [00:00<?, ?it/s]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   0%|                               | 1/1867 [00:12<6:17:10, 12.13s/it]\r",
+      "Epoch 0:   0%| | 1/1867 [00:12<6:17:13, 12.13s/it, v_num=cbeq, train/loss=7.310]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   0%| | 2/1867 [00:13<3:35:42,  6.94s/it, v_num=cbeq, train/loss=7.310]\r",
+      "Epoch 0:   0%| | 2/1867 [00:13<3:35:45,  6.94s/it, v_num=cbeq, train/loss=5.500]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   0%| | 3/1867 [00:15<2:42:29,  5.23s/it, v_num=cbeq, train/loss=5.500]\r",
+      "Epoch 0:   0%| | 3/1867 [00:15<2:42:32,  5.23s/it, v_num=cbeq, train/loss=5.970]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   0%| | 4/1867 [00:19<2:35:06,  5.00s/it, v_num=cbeq, train/loss=5.970]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   0%| | 4/1867 [00:21<2:49:40,  5.46s/it, v_num=cbeq, train/loss=5.000]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   0%| | 5/1867 [00:22<2:20:31,  4.53s/it, v_num=cbeq, train/loss=5.000]\r",
+      "Epoch 0:   0%| | 5/1867 [00:22<2:20:31,  4.53s/it, v_num=cbeq, train/loss=4.340]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   0%| | 6/1867 [00:22<1:57:22,  3.78s/it, v_num=cbeq, train/loss=4.340]\r",
+      "Epoch 0:   0%| | 6/1867 [00:22<1:57:23,  3.78s/it, v_num=cbeq, train/loss=4.500]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   0%| | 7/1867 [00:22<1:40:50,  3.25s/it, v_num=cbeq, train/loss=4.500]\r",
+      "Epoch 0:   0%| | 7/1867 [00:22<1:40:51,  3.25s/it, v_num=cbeq, train/loss=4.250]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   0%| | 8/1867 [00:29<1:55:46,  3.74s/it, v_num=cbeq, train/loss=4.250]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   0%| | 8/1867 [00:31<2:03:07,  3.97s/it, v_num=cbeq, train/loss=4.000]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   0%| | 9/1867 [00:32<1:50:36,  3.57s/it, v_num=cbeq, train/loss=4.000]\r",
+      "Epoch 0:   0%| | 9/1867 [00:32<1:50:36,  3.57s/it, v_num=cbeq, train/loss=4.160]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 10/1867 [00:32<1:41:31,  3.28s/it, v_num=cbeq, train/loss=4.160\r",
+      "Epoch 0:   1%| | 10/1867 [00:32<1:41:31,  3.28s/it, v_num=cbeq, train/loss=4.220"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 11/1867 [00:32<1:32:26,  2.99s/it, v_num=cbeq, train/loss=4.220\r",
+      "Epoch 0:   1%| | 11/1867 [00:32<1:32:26,  2.99s/it, v_num=cbeq, train/loss=4.120"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 12/1867 [00:41<1:46:35,  3.45s/it, v_num=cbeq, train/loss=4.120\r",
+      "Epoch 0:   1%| | 12/1867 [00:41<1:46:35,  3.45s/it, v_num=cbeq, train/loss=2.910"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 13/1867 [00:41<1:38:31,  3.19s/it, v_num=cbeq, train/loss=2.910\r",
+      "Epoch 0:   1%| | 13/1867 [00:41<1:38:31,  3.19s/it, v_num=cbeq, train/loss=5.060"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 14/1867 [00:41<1:31:35,  2.97s/it, v_num=cbeq, train/loss=5.060\r",
+      "Epoch 0:   1%| | 14/1867 [00:41<1:31:35,  2.97s/it, v_num=cbeq, train/loss=2.920"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 15/1867 [00:42<1:27:08,  2.82s/it, v_num=cbeq, train/loss=2.920\r",
+      "Epoch 0:   1%| | 15/1867 [00:42<1:27:08,  2.82s/it, v_num=cbeq, train/loss=4.470"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 16/1867 [00:48<1:34:15,  3.06s/it, v_num=cbeq, train/loss=4.470\r",
+      "Epoch 0:   1%| | 16/1867 [00:48<1:34:15,  3.06s/it, v_num=cbeq, train/loss=4.220"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 17/1867 [00:49<1:29:08,  2.89s/it, v_num=cbeq, train/loss=4.220\r",
+      "Epoch 0:   1%| | 17/1867 [00:49<1:29:08,  2.89s/it, v_num=cbeq, train/loss=4.470"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 18/1867 [00:49<1:24:16,  2.73s/it, v_num=cbeq, train/loss=4.470\r",
+      "Epoch 0:   1%| | 18/1867 [00:49<1:24:16,  2.73s/it, v_num=cbeq, train/loss=3.720"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 19/1867 [00:50<1:21:05,  2.63s/it, v_num=cbeq, train/loss=3.720\r",
+      "Epoch 0:   1%| | 19/1867 [00:50<1:21:05,  2.63s/it, v_num=cbeq, train/loss=3.640"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 20/1867 [00:56<1:26:20,  2.80s/it, v_num=cbeq, train/loss=3.640\r",
+      "Epoch 0:   1%| | 20/1867 [00:56<1:26:20,  2.81s/it, v_num=cbeq, train/loss=4.090"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 21/1867 [00:56<1:22:16,  2.67s/it, v_num=cbeq, train/loss=4.090\r",
+      "Epoch 0:   1%| | 21/1867 [00:56<1:22:16,  2.67s/it, v_num=cbeq, train/loss=3.110"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 22/1867 [00:56<1:18:34,  2.56s/it, v_num=cbeq, train/loss=3.110\r",
+      "Epoch 0:   1%| | 22/1867 [00:56<1:18:34,  2.56s/it, v_num=cbeq, train/loss=4.500"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 23/1867 [00:56<1:15:18,  2.45s/it, v_num=cbeq, train/loss=4.500\r",
+      "Epoch 0:   1%| | 23/1867 [00:56<1:15:18,  2.45s/it, v_num=cbeq, train/loss=3.050"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 24/1867 [01:02<1:20:27,  2.62s/it, v_num=cbeq, train/loss=3.050\r",
+      "Epoch 0:   1%| | 24/1867 [01:02<1:20:27,  2.62s/it, v_num=cbeq, train/loss=2.580"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 25/1867 [01:02<1:17:16,  2.52s/it, v_num=cbeq, train/loss=2.580\r",
+      "Epoch 0:   1%| | 25/1867 [01:02<1:17:16,  2.52s/it, v_num=cbeq, train/loss=4.030"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 26/1867 [01:02<1:14:19,  2.42s/it, v_num=cbeq, train/loss=4.030\r",
+      "Epoch 0:   1%| | 26/1867 [01:02<1:14:19,  2.42s/it, v_num=cbeq, train/loss=4.120"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 27/1867 [01:03<1:11:38,  2.34s/it, v_num=cbeq, train/loss=4.120\r",
+      "Epoch 0:   1%| | 27/1867 [01:03<1:11:38,  2.34s/it, v_num=cbeq, train/loss=2.800"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   1%| | 28/1867 [01:09<1:16:33,  2.50s/it, v_num=cbeq, train/loss=2.800\r",
+      "Epoch 0:   1%| | 28/1867 [01:09<1:16:33,  2.50s/it, v_num=cbeq, train/loss=2.640"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 29/1867 [01:09<1:13:55,  2.41s/it, v_num=cbeq, train/loss=2.640\r",
+      "Epoch 0:   2%| | 29/1867 [01:09<1:13:56,  2.41s/it, v_num=cbeq, train/loss=3.560"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 30/1867 [01:10<1:11:29,  2.34s/it, v_num=cbeq, train/loss=3.560\r",
+      "Epoch 0:   2%| | 30/1867 [01:10<1:11:29,  2.34s/it, v_num=cbeq, train/loss=3.230"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 31/1867 [01:10<1:09:12,  2.26s/it, v_num=cbeq, train/loss=3.230\r",
+      "Epoch 0:   2%| | 31/1867 [01:10<1:09:12,  2.26s/it, v_num=cbeq, train/loss=4.220"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 32/1867 [01:16<1:13:13,  2.39s/it, v_num=cbeq, train/loss=4.220\r",
+      "Epoch 0:   2%| | 32/1867 [01:16<1:13:13,  2.39s/it, v_num=cbeq, train/loss=4.560"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 33/1867 [01:16<1:11:02,  2.32s/it, v_num=cbeq, train/loss=4.560\r",
+      "Epoch 0:   2%| | 33/1867 [01:16<1:11:02,  2.32s/it, v_num=cbeq, train/loss=3.160"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 34/1867 [01:16<1:08:59,  2.26s/it, v_num=cbeq, train/loss=3.160\r",
+      "Epoch 0:   2%| | 34/1867 [01:16<1:08:59,  2.26s/it, v_num=cbeq, train/loss=1.950"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 35/1867 [01:16<1:07:02,  2.20s/it, v_num=cbeq, train/loss=1.950\r",
+      "Epoch 0:   2%| | 35/1867 [01:16<1:07:02,  2.20s/it, v_num=cbeq, train/loss=2.810"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 36/1867 [01:23<1:10:23,  2.31s/it, v_num=cbeq, train/loss=2.810\r",
+      "Epoch 0:   2%| | 36/1867 [01:23<1:10:23,  2.31s/it, v_num=cbeq, train/loss=3.410"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 37/1867 [01:23<1:08:30,  2.25s/it, v_num=cbeq, train/loss=3.410\r",
+      "Epoch 0:   2%| | 37/1867 [01:23<1:08:30,  2.25s/it, v_num=cbeq, train/loss=4.810"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 38/1867 [01:23<1:06:43,  2.19s/it, v_num=cbeq, train/loss=4.810\r",
+      "Epoch 0:   2%| | 38/1867 [01:23<1:06:43,  2.19s/it, v_num=cbeq, train/loss=4.340"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 39/1867 [01:23<1:05:03,  2.14s/it, v_num=cbeq, train/loss=4.340\r",
+      "Epoch 0:   2%| | 39/1867 [01:23<1:05:03,  2.14s/it, v_num=cbeq, train/loss=3.480"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 40/1867 [01:29<1:08:30,  2.25s/it, v_num=cbeq, train/loss=3.480\r",
+      "Epoch 0:   2%| | 40/1867 [01:29<1:08:30,  2.25s/it, v_num=cbeq, train/loss=4.190"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 41/1867 [01:30<1:06:50,  2.20s/it, v_num=cbeq, train/loss=4.190\r",
+      "Epoch 0:   2%| | 41/1867 [01:30<1:06:50,  2.20s/it, v_num=cbeq, train/loss=1.730"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 42/1867 [01:30<1:05:15,  2.15s/it, v_num=cbeq, train/loss=1.730\r",
+      "Epoch 0:   2%| | 42/1867 [01:30<1:05:15,  2.15s/it, v_num=cbeq, train/loss=3.730"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 43/1867 [01:30<1:03:45,  2.10s/it, v_num=cbeq, train/loss=3.730\r",
+      "Epoch 0:   2%| | 43/1867 [01:30<1:03:45,  2.10s/it, v_num=cbeq, train/loss=5.030"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 44/1867 [01:37<1:07:15,  2.21s/it, v_num=cbeq, train/loss=5.030\r",
+      "Epoch 0:   2%| | 44/1867 [01:37<1:07:15,  2.21s/it, v_num=cbeq, train/loss=3.580"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 45/1867 [01:37<1:05:45,  2.17s/it, v_num=cbeq, train/loss=3.580\r",
+      "Epoch 0:   2%| | 45/1867 [01:37<1:05:45,  2.17s/it, v_num=cbeq, train/loss=4.500"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   2%| | 46/1867 [01:37<1:04:21,  2.12s/it, v_num=cbeq, train/loss=4.500\r",
+      "Epoch 0:   2%| | 46/1867 [01:37<1:04:21,  2.12s/it, v_num=cbeq, train/loss=3.940"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 47/1867 [01:37<1:02:59,  2.08s/it, v_num=cbeq, train/loss=3.940\r",
+      "Epoch 0:   3%| | 47/1867 [01:37<1:02:59,  2.08s/it, v_num=cbeq, train/loss=4.780"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 48/1867 [01:43<1:05:09,  2.15s/it, v_num=cbeq, train/loss=4.780\r",
+      "Epoch 0:   3%| | 48/1867 [01:43<1:05:09,  2.15s/it, v_num=cbeq, train/loss=4.840"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 49/1867 [01:43<1:03:49,  2.11s/it, v_num=cbeq, train/loss=4.840\r",
+      "Epoch 0:   3%| | 49/1867 [01:43<1:03:49,  2.11s/it, v_num=cbeq, train/loss=3.560"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 50/1867 [01:43<1:02:33,  2.07s/it, v_num=cbeq, train/loss=3.560\r",
+      "Epoch 0:   3%| | 50/1867 [01:43<1:02:33,  2.07s/it, v_num=cbeq, train/loss=4.810"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 51/1867 [01:43<1:01:23,  2.03s/it, v_num=cbeq, train/loss=4.810\r",
+      "Epoch 0:   3%| | 51/1867 [01:43<1:01:23,  2.03s/it, v_num=cbeq, train/loss=4.440"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 52/1867 [01:48<1:03:23,  2.10s/it, v_num=cbeq, train/loss=4.440\r",
+      "Epoch 0:   3%| | 52/1867 [01:48<1:03:23,  2.10s/it, v_num=cbeq, train/loss=3.420"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 53/1867 [01:49<1:02:11,  2.06s/it, v_num=cbeq, train/loss=3.420\r",
+      "Epoch 0:   3%| | 53/1867 [01:49<1:02:11,  2.06s/it, v_num=cbeq, train/loss=2.500"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 54/1867 [01:49<1:01:02,  2.02s/it, v_num=cbeq, train/loss=2.500\r",
+      "Epoch 0:   3%| | 54/1867 [01:49<1:01:02,  2.02s/it, v_num=cbeq, train/loss=3.780"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%|  | 55/1867 [01:49<59:55,  1.98s/it, v_num=cbeq, train/loss=3.780]\r",
+      "Epoch 0:   3%|  | 55/1867 [01:49<59:55,  1.98s/it, v_num=cbeq, train/loss=2.950]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 56/1867 [01:55<1:02:25,  2.07s/it, v_num=cbeq, train/loss=2.950\r",
+      "Epoch 0:   3%| | 56/1867 [01:55<1:02:25,  2.07s/it, v_num=cbeq, train/loss=4.000"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 57/1867 [01:55<1:01:19,  2.03s/it, v_num=cbeq, train/loss=4.000\r",
+      "Epoch 0:   3%| | 57/1867 [01:55<1:01:19,  2.03s/it, v_num=cbeq, train/loss=2.620"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 58/1867 [01:55<1:00:16,  2.00s/it, v_num=cbeq, train/loss=2.620\r",
+      "Epoch 0:   3%| | 58/1867 [01:55<1:00:16,  2.00s/it, v_num=cbeq, train/loss=3.170"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%|  | 59/1867 [01:56<59:15,  1.97s/it, v_num=cbeq, train/loss=3.170]\r",
+      "Epoch 0:   3%|  | 59/1867 [01:56<59:15,  1.97s/it, v_num=cbeq, train/loss=3.330]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 60/1867 [02:01<1:01:04,  2.03s/it, v_num=cbeq, train/loss=3.330\r",
+      "Epoch 0:   3%| | 60/1867 [02:01<1:01:04,  2.03s/it, v_num=cbeq, train/loss=4.780"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 61/1867 [02:01<1:00:04,  2.00s/it, v_num=cbeq, train/loss=4.780\r",
+      "Epoch 0:   3%| | 61/1867 [02:01<1:00:04,  2.00s/it, v_num=cbeq, train/loss=3.620"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%|  | 62/1867 [02:01<59:05,  1.96s/it, v_num=cbeq, train/loss=3.620]\r",
+      "Epoch 0:   3%|  | 62/1867 [02:01<59:05,  1.96s/it, v_num=cbeq, train/loss=3.280]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%|  | 63/1867 [02:01<58:09,  1.93s/it, v_num=cbeq, train/loss=3.280]\r",
+      "Epoch 0:   3%|  | 63/1867 [02:01<58:09,  1.93s/it, v_num=cbeq, train/loss=3.950]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%| | 64/1867 [02:07<1:00:05,  2.00s/it, v_num=cbeq, train/loss=3.950\r",
+      "Epoch 0:   3%| | 64/1867 [02:07<1:00:05,  2.00s/it, v_num=cbeq, train/loss=3.860"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   3%|  | 65/1867 [02:08<59:10,  1.97s/it, v_num=cbeq, train/loss=3.860]\r",
+      "Epoch 0:   3%|  | 65/1867 [02:08<59:10,  1.97s/it, v_num=cbeq, train/loss=4.810]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%|  | 66/1867 [02:08<58:15,  1.94s/it, v_num=cbeq, train/loss=4.810]\r",
+      "Epoch 0:   4%|  | 66/1867 [02:08<58:15,  1.94s/it, v_num=cbeq, train/loss=3.700]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%|  | 67/1867 [02:08<57:23,  1.91s/it, v_num=cbeq, train/loss=3.700]\r",
+      "Epoch 0:   4%|  | 67/1867 [02:08<57:23,  1.91s/it, v_num=cbeq, train/loss=2.420]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%|  | 68/1867 [02:14<59:12,  1.97s/it, v_num=cbeq, train/loss=2.420]\r",
+      "Epoch 0:   4%|  | 68/1867 [02:14<59:12,  1.97s/it, v_num=cbeq, train/loss=2.840]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%|  | 69/1867 [02:14<58:21,  1.95s/it, v_num=cbeq, train/loss=2.840]\r",
+      "Epoch 0:   4%|  | 69/1867 [02:14<58:21,  1.95s/it, v_num=cbeq, train/loss=2.910]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%|  | 70/1867 [02:14<57:30,  1.92s/it, v_num=cbeq, train/loss=2.910]\r",
+      "Epoch 0:   4%|  | 70/1867 [02:14<57:30,  1.92s/it, v_num=cbeq, train/loss=5.120]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%|  | 71/1867 [02:14<56:54,  1.90s/it, v_num=cbeq, train/loss=5.120]\r",
+      "Epoch 0:   4%|  | 71/1867 [02:14<56:54,  1.90s/it, v_num=cbeq, train/loss=3.620]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%|  | 72/1867 [02:21<58:55,  1.97s/it, v_num=cbeq, train/loss=3.620]\r",
+      "Epoch 0:   4%|  | 72/1867 [02:21<58:55,  1.97s/it, v_num=cbeq, train/loss=4.720]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%|  | 73/1867 [02:21<58:06,  1.94s/it, v_num=cbeq, train/loss=4.720]\r",
+      "Epoch 0:   4%|  | 73/1867 [02:21<58:06,  1.94s/it, v_num=cbeq, train/loss=3.770]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%|  | 74/1867 [02:21<57:18,  1.92s/it, v_num=cbeq, train/loss=3.770]\r",
+      "Epoch 0:   4%|  | 74/1867 [02:21<57:18,  1.92s/it, v_num=cbeq, train/loss=2.610]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%|  | 75/1867 [02:21<56:32,  1.89s/it, v_num=cbeq, train/loss=2.610]\r",
+      "Epoch 0:   4%|  | 75/1867 [02:21<56:32,  1.89s/it, v_num=cbeq, train/loss=3.660]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%|  | 76/1867 [02:28<58:07,  1.95s/it, v_num=cbeq, train/loss=3.660]\r",
+      "Epoch 0:   4%|  | 76/1867 [02:28<58:08,  1.95s/it, v_num=cbeq, train/loss=2.310]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%|  | 77/1867 [02:28<57:22,  1.92s/it, v_num=cbeq, train/loss=2.310]\r",
+      "Epoch 0:   4%|  | 77/1867 [02:28<57:22,  1.92s/it, v_num=cbeq, train/loss=3.970]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%|  | 78/1867 [02:28<56:38,  1.90s/it, v_num=cbeq, train/loss=3.970]\r",
+      "Epoch 0:   4%|  | 78/1867 [02:28<56:38,  1.90s/it, v_num=cbeq, train/loss=3.230]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%|  | 79/1867 [02:28<55:55,  1.88s/it, v_num=cbeq, train/loss=3.230]\r",
+      "Epoch 0:   4%|  | 79/1867 [02:28<55:55,  1.88s/it, v_num=cbeq, train/loss=3.580]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%|  | 80/1867 [02:33<57:16,  1.92s/it, v_num=cbeq, train/loss=3.580]\r",
+      "Epoch 0:   4%|  | 80/1867 [02:33<57:16,  1.92s/it, v_num=cbeq, train/loss=1.970]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%|  | 81/1867 [02:33<56:34,  1.90s/it, v_num=cbeq, train/loss=1.970]\r",
+      "Epoch 0:   4%|  | 81/1867 [02:33<56:34,  1.90s/it, v_num=cbeq, train/loss=3.000]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%|  | 82/1867 [02:34<55:52,  1.88s/it, v_num=cbeq, train/loss=3.000]\r",
+      "Epoch 0:   4%|  | 82/1867 [02:34<55:52,  1.88s/it, v_num=cbeq, train/loss=3.090]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%|  | 83/1867 [02:34<55:12,  1.86s/it, v_num=cbeq, train/loss=3.090]\r",
+      "Epoch 0:   4%|  | 83/1867 [02:34<55:12,  1.86s/it, v_num=cbeq, train/loss=4.970]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   4%|  | 84/1867 [02:39<56:31,  1.90s/it, v_num=cbeq, train/loss=4.970]\r",
+      "Epoch 0:   4%|  | 84/1867 [02:39<56:32,  1.90s/it, v_num=cbeq, train/loss=3.440]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%|  | 85/1867 [02:39<55:51,  1.88s/it, v_num=cbeq, train/loss=3.440]\r",
+      "Epoch 0:   5%|  | 85/1867 [02:39<55:51,  1.88s/it, v_num=cbeq, train/loss=3.920]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%|  | 86/1867 [02:39<55:13,  1.86s/it, v_num=cbeq, train/loss=3.920]\r",
+      "Epoch 0:   5%|  | 86/1867 [02:39<55:13,  1.86s/it, v_num=cbeq, train/loss=3.950]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%|  | 87/1867 [02:40<54:34,  1.84s/it, v_num=cbeq, train/loss=3.950]\r",
+      "Epoch 0:   5%|  | 87/1867 [02:40<54:34,  1.84s/it, v_num=cbeq, train/loss=2.200]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%|  | 88/1867 [02:46<56:00,  1.89s/it, v_num=cbeq, train/loss=2.200]\r",
+      "Epoch 0:   5%|  | 88/1867 [02:46<56:00,  1.89s/it, v_num=cbeq, train/loss=4.220]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%|  | 89/1867 [02:46<55:22,  1.87s/it, v_num=cbeq, train/loss=4.220]\r",
+      "Epoch 0:   5%|  | 89/1867 [02:46<55:22,  1.87s/it, v_num=cbeq, train/loss=4.280]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%|  | 90/1867 [02:46<54:45,  1.85s/it, v_num=cbeq, train/loss=4.280]\r",
+      "Epoch 0:   5%|  | 90/1867 [02:46<54:45,  1.85s/it, v_num=cbeq, train/loss=4.120]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%|  | 91/1867 [02:46<54:08,  1.83s/it, v_num=cbeq, train/loss=4.120]\r",
+      "Epoch 0:   5%|  | 91/1867 [02:46<54:08,  1.83s/it, v_num=cbeq, train/loss=4.120]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%|  | 92/1867 [02:51<55:17,  1.87s/it, v_num=cbeq, train/loss=4.120]\r",
+      "Epoch 0:   5%|  | 92/1867 [02:51<55:17,  1.87s/it, v_num=cbeq, train/loss=4.720]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%|  | 93/1867 [02:52<54:41,  1.85s/it, v_num=cbeq, train/loss=4.720]\r",
+      "Epoch 0:   5%|  | 93/1867 [02:52<54:41,  1.85s/it, v_num=cbeq, train/loss=3.660]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%|  | 94/1867 [02:52<54:06,  1.83s/it, v_num=cbeq, train/loss=3.660]\r",
+      "Epoch 0:   5%|  | 94/1867 [02:52<54:06,  1.83s/it, v_num=cbeq, train/loss=4.380]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%|  | 95/1867 [02:52<53:32,  1.81s/it, v_num=cbeq, train/loss=4.380]\r",
+      "Epoch 0:   5%|  | 95/1867 [02:52<53:32,  1.81s/it, v_num=cbeq, train/loss=4.160]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%|  | 96/1867 [02:57<54:43,  1.85s/it, v_num=cbeq, train/loss=4.160]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%|  | 96/1867 [02:57<54:43,  1.85s/it, v_num=cbeq, train/loss=3.590]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%|  | 97/1867 [02:58<54:09,  1.84s/it, v_num=cbeq, train/loss=3.590]\r",
+      "Epoch 0:   5%|  | 97/1867 [02:58<54:09,  1.84s/it, v_num=cbeq, train/loss=2.950]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%|  | 98/1867 [02:58<53:35,  1.82s/it, v_num=cbeq, train/loss=2.950]\r",
+      "Epoch 0:   5%|  | 98/1867 [02:58<53:35,  1.82s/it, v_num=cbeq, train/loss=4.530]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%|  | 99/1867 [02:58<53:02,  1.80s/it, v_num=cbeq, train/loss=4.530]\r",
+      "Epoch 0:   5%|  | 99/1867 [02:58<53:02,  1.80s/it, v_num=cbeq, train/loss=2.280]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 100/1867 [03:03<54:08,  1.84s/it, v_num=cbeq, train/loss=2.280]\r",
+      "Epoch 0:   5%| | 100/1867 [03:03<54:08,  1.84s/it, v_num=cbeq, train/loss=2.390]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 101/1867 [03:03<53:37,  1.82s/it, v_num=cbeq, train/loss=2.390]\r",
+      "Epoch 0:   5%| | 101/1867 [03:03<53:37,  1.82s/it, v_num=cbeq, train/loss=3.770]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   5%| | 102/1867 [03:04<53:04,  1.80s/it, v_num=cbeq, train/loss=3.770]\r",
+      "Epoch 0:   5%| | 102/1867 [03:04<53:04,  1.80s/it, v_num=cbeq, train/loss=2.560]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 103/1867 [03:04<52:33,  1.79s/it, v_num=cbeq, train/loss=2.560]\r",
+      "Epoch 0:   6%| | 103/1867 [03:04<52:33,  1.79s/it, v_num=cbeq, train/loss=3.910]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 104/1867 [03:10<53:42,  1.83s/it, v_num=cbeq, train/loss=3.910]\r",
+      "Epoch 0:   6%| | 104/1867 [03:10<53:42,  1.83s/it, v_num=cbeq, train/loss=2.880]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 105/1867 [03:10<53:10,  1.81s/it, v_num=cbeq, train/loss=2.880]\r",
+      "Epoch 0:   6%| | 105/1867 [03:10<53:10,  1.81s/it, v_num=cbeq, train/loss=3.610]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 106/1867 [03:10<52:39,  1.79s/it, v_num=cbeq, train/loss=3.610]\r",
+      "Epoch 0:   6%| | 106/1867 [03:10<52:39,  1.79s/it, v_num=cbeq, train/loss=4.120]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 107/1867 [03:10<52:09,  1.78s/it, v_num=cbeq, train/loss=4.120]\r",
+      "Epoch 0:   6%| | 107/1867 [03:10<52:09,  1.78s/it, v_num=cbeq, train/loss=3.920]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 108/1867 [03:15<53:10,  1.81s/it, v_num=cbeq, train/loss=3.920]\r",
+      "Epoch 0:   6%| | 108/1867 [03:15<53:10,  1.81s/it, v_num=cbeq, train/loss=2.750]\r",
+      "Epoch 0:   6%| | 109/1867 [03:15<52:39,  1.80s/it, v_num=cbeq, train/loss=2.750]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 109/1867 [03:15<52:39,  1.80s/it, v_num=cbeq, train/loss=4.160]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 110/1867 [03:15<52:10,  1.78s/it, v_num=cbeq, train/loss=4.160]\r",
+      "Epoch 0:   6%| | 110/1867 [03:15<52:10,  1.78s/it, v_num=cbeq, train/loss=2.120]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 111/1867 [03:16<51:41,  1.77s/it, v_num=cbeq, train/loss=2.120]\r",
+      "Epoch 0:   6%| | 111/1867 [03:16<51:41,  1.77s/it, v_num=cbeq, train/loss=2.840]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 112/1867 [03:21<52:42,  1.80s/it, v_num=cbeq, train/loss=2.840]\r",
+      "Epoch 0:   6%| | 112/1867 [03:21<52:42,  1.80s/it, v_num=cbeq, train/loss=3.140]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 113/1867 [03:21<52:13,  1.79s/it, v_num=cbeq, train/loss=3.140]\r",
+      "Epoch 0:   6%| | 113/1867 [03:21<52:13,  1.79s/it, v_num=cbeq, train/loss=3.060]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 114/1867 [03:21<51:45,  1.77s/it, v_num=cbeq, train/loss=3.060]\r",
+      "Epoch 0:   6%| | 114/1867 [03:21<51:45,  1.77s/it, v_num=cbeq, train/loss=3.530]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 115/1867 [03:22<51:18,  1.76s/it, v_num=cbeq, train/loss=3.530]\r",
+      "Epoch 0:   6%| | 115/1867 [03:22<51:18,  1.76s/it, v_num=cbeq, train/loss=4.690]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 116/1867 [03:27<52:15,  1.79s/it, v_num=cbeq, train/loss=4.690]\r",
+      "Epoch 0:   6%| | 116/1867 [03:27<52:15,  1.79s/it, v_num=cbeq, train/loss=4.000]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 117/1867 [03:27<51:48,  1.78s/it, v_num=cbeq, train/loss=4.000]\r",
+      "Epoch 0:   6%| | 117/1867 [03:27<51:48,  1.78s/it, v_num=cbeq, train/loss=3.080]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 118/1867 [03:27<51:21,  1.76s/it, v_num=cbeq, train/loss=3.080]\r",
+      "Epoch 0:   6%| | 118/1867 [03:27<51:21,  1.76s/it, v_num=cbeq, train/loss=3.250]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 119/1867 [03:27<50:54,  1.75s/it, v_num=cbeq, train/loss=3.250]\r",
+      "Epoch 0:   6%| | 119/1867 [03:27<50:54,  1.75s/it, v_num=cbeq, train/loss=3.410]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 120/1867 [03:33<51:49,  1.78s/it, v_num=cbeq, train/loss=3.410]\r",
+      "Epoch 0:   6%| | 120/1867 [03:33<51:49,  1.78s/it, v_num=cbeq, train/loss=4.780]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   6%| | 121/1867 [03:33<51:23,  1.77s/it, v_num=cbeq, train/loss=4.780]\r",
+      "Epoch 0:   6%| | 121/1867 [03:33<51:23,  1.77s/it, v_num=cbeq, train/loss=3.810]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 122/1867 [03:33<50:57,  1.75s/it, v_num=cbeq, train/loss=3.810]\r",
+      "Epoch 0:   7%| | 122/1867 [03:33<50:57,  1.75s/it, v_num=cbeq, train/loss=4.310]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 123/1867 [03:33<50:32,  1.74s/it, v_num=cbeq, train/loss=4.310]\r",
+      "Epoch 0:   7%| | 123/1867 [03:33<50:32,  1.74s/it, v_num=cbeq, train/loss=3.950]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 124/1867 [03:39<51:23,  1.77s/it, v_num=cbeq, train/loss=3.950]\r",
+      "Epoch 0:   7%| | 124/1867 [03:39<51:23,  1.77s/it, v_num=cbeq, train/loss=4.060]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 125/1867 [03:39<50:57,  1.76s/it, v_num=cbeq, train/loss=4.060]\r",
+      "Epoch 0:   7%| | 125/1867 [03:39<50:57,  1.76s/it, v_num=cbeq, train/loss=2.480]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 126/1867 [03:39<50:32,  1.74s/it, v_num=cbeq, train/loss=2.480]\r",
+      "Epoch 0:   7%| | 126/1867 [03:39<50:32,  1.74s/it, v_num=cbeq, train/loss=4.910]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 127/1867 [03:39<50:08,  1.73s/it, v_num=cbeq, train/loss=4.910]\r",
+      "Epoch 0:   7%| | 127/1867 [03:39<50:08,  1.73s/it, v_num=cbeq, train/loss=2.800]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 128/1867 [03:45<50:58,  1.76s/it, v_num=cbeq, train/loss=2.800]\r",
+      "Epoch 0:   7%| | 128/1867 [03:45<50:58,  1.76s/it, v_num=cbeq, train/loss=3.360]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 129/1867 [03:45<50:34,  1.75s/it, v_num=cbeq, train/loss=3.360]\r",
+      "Epoch 0:   7%| | 129/1867 [03:45<50:34,  1.75s/it, v_num=cbeq, train/loss=2.610]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 130/1867 [03:45<50:09,  1.73s/it, v_num=cbeq, train/loss=2.610]\r",
+      "Epoch 0:   7%| | 130/1867 [03:45<50:09,  1.73s/it, v_num=cbeq, train/loss=2.860]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 131/1867 [03:45<49:47,  1.72s/it, v_num=cbeq, train/loss=2.860]\r",
+      "Epoch 0:   7%| | 131/1867 [03:45<49:47,  1.72s/it, v_num=cbeq, train/loss=3.590]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 132/1867 [03:50<50:35,  1.75s/it, v_num=cbeq, train/loss=3.590]\r",
+      "Epoch 0:   7%| | 132/1867 [03:50<50:35,  1.75s/it, v_num=cbeq, train/loss=4.030]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 133/1867 [03:50<50:11,  1.74s/it, v_num=cbeq, train/loss=4.030]\r",
+      "Epoch 0:   7%| | 133/1867 [03:50<50:11,  1.74s/it, v_num=cbeq, train/loss=2.690]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 134/1867 [03:51<49:48,  1.72s/it, v_num=cbeq, train/loss=2.690]\r",
+      "Epoch 0:   7%| | 134/1867 [03:51<49:48,  1.72s/it, v_num=cbeq, train/loss=2.410]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 135/1867 [03:51<49:25,  1.71s/it, v_num=cbeq, train/loss=2.410]\r",
+      "Epoch 0:   7%| | 135/1867 [03:51<49:25,  1.71s/it, v_num=cbeq, train/loss=2.560]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 136/1867 [03:56<50:15,  1.74s/it, v_num=cbeq, train/loss=2.560]\r",
+      "Epoch 0:   7%| | 136/1867 [03:56<50:15,  1.74s/it, v_num=cbeq, train/loss=3.520]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 137/1867 [03:57<49:53,  1.73s/it, v_num=cbeq, train/loss=3.520]\r",
+      "Epoch 0:   7%| | 137/1867 [03:57<49:53,  1.73s/it, v_num=cbeq, train/loss=2.090]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 138/1867 [03:57<49:31,  1.72s/it, v_num=cbeq, train/loss=2.090]\r",
+      "Epoch 0:   7%| | 138/1867 [03:57<49:31,  1.72s/it, v_num=cbeq, train/loss=3.090]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 139/1867 [03:57<49:09,  1.71s/it, v_num=cbeq, train/loss=3.090]\r",
+      "Epoch 0:   7%| | 139/1867 [03:57<49:09,  1.71s/it, v_num=cbeq, train/loss=3.620]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   7%| | 140/1867 [04:02<49:55,  1.73s/it, v_num=cbeq, train/loss=3.620]\r",
+      "Epoch 0:   7%| | 140/1867 [04:02<49:55,  1.73s/it, v_num=cbeq, train/loss=2.440]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 141/1867 [04:03<49:34,  1.72s/it, v_num=cbeq, train/loss=2.440]\r",
+      "Epoch 0:   8%| | 141/1867 [04:03<49:34,  1.72s/it, v_num=cbeq, train/loss=2.500]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 142/1867 [04:03<49:12,  1.71s/it, v_num=cbeq, train/loss=2.500]\r",
+      "Epoch 0:   8%| | 142/1867 [04:03<49:12,  1.71s/it, v_num=cbeq, train/loss=4.220]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 143/1867 [04:03<48:51,  1.70s/it, v_num=cbeq, train/loss=4.220]\r",
+      "Epoch 0:   8%| | 143/1867 [04:03<48:51,  1.70s/it, v_num=cbeq, train/loss=3.230]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 144/1867 [04:09<49:39,  1.73s/it, v_num=cbeq, train/loss=3.230]\r",
+      "Epoch 0:   8%| | 144/1867 [04:09<49:39,  1.73s/it, v_num=cbeq, train/loss=4.190]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 145/1867 [04:09<49:18,  1.72s/it, v_num=cbeq, train/loss=4.190]\r",
+      "Epoch 0:   8%| | 145/1867 [04:09<49:18,  1.72s/it, v_num=cbeq, train/loss=3.530]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 146/1867 [04:09<48:57,  1.71s/it, v_num=cbeq, train/loss=3.530]\r",
+      "Epoch 0:   8%| | 146/1867 [04:09<48:57,  1.71s/it, v_num=cbeq, train/loss=3.810]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 147/1867 [04:09<48:36,  1.70s/it, v_num=cbeq, train/loss=3.810]\r",
+      "Epoch 0:   8%| | 147/1867 [04:09<48:36,  1.70s/it, v_num=cbeq, train/loss=3.390]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 148/1867 [04:14<49:20,  1.72s/it, v_num=cbeq, train/loss=3.390]\r",
+      "Epoch 0:   8%| | 148/1867 [04:14<49:20,  1.72s/it, v_num=cbeq, train/loss=2.940]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 149/1867 [04:14<48:59,  1.71s/it, v_num=cbeq, train/loss=2.940]\r",
+      "Epoch 0:   8%| | 149/1867 [04:14<48:59,  1.71s/it, v_num=cbeq, train/loss=3.580]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 150/1867 [04:15<48:38,  1.70s/it, v_num=cbeq, train/loss=3.580]\r",
+      "Epoch 0:   8%| | 150/1867 [04:15<48:38,  1.70s/it, v_num=cbeq, train/loss=4.880]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 151/1867 [04:15<48:18,  1.69s/it, v_num=cbeq, train/loss=4.880]\r",
+      "Epoch 0:   8%| | 151/1867 [04:15<48:18,  1.69s/it, v_num=cbeq, train/loss=1.880]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 152/1867 [04:20<49:01,  1.71s/it, v_num=cbeq, train/loss=1.880]\r",
+      "Epoch 0:   8%| | 152/1867 [04:20<49:01,  1.71s/it, v_num=cbeq, train/loss=3.640]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 153/1867 [04:20<48:40,  1.70s/it, v_num=cbeq, train/loss=3.640]\r",
+      "Epoch 0:   8%| | 153/1867 [04:20<48:40,  1.70s/it, v_num=cbeq, train/loss=1.970]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 154/1867 [04:20<48:21,  1.69s/it, v_num=cbeq, train/loss=1.970]\r",
+      "Epoch 0:   8%| | 154/1867 [04:20<48:21,  1.69s/it, v_num=cbeq, train/loss=4.120]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 155/1867 [04:20<48:01,  1.68s/it, v_num=cbeq, train/loss=4.120]\r",
+      "Epoch 0:   8%| | 155/1867 [04:20<48:01,  1.68s/it, v_num=cbeq, train/loss=3.980]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 156/1867 [04:26<48:42,  1.71s/it, v_num=cbeq, train/loss=3.980]\r",
+      "Epoch 0:   8%| | 156/1867 [04:26<48:42,  1.71s/it, v_num=cbeq, train/loss=3.610]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 157/1867 [04:26<48:23,  1.70s/it, v_num=cbeq, train/loss=3.610]\r",
+      "Epoch 0:   8%| | 157/1867 [04:26<48:23,  1.70s/it, v_num=cbeq, train/loss=2.910]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   8%| | 158/1867 [04:26<48:03,  1.69s/it, v_num=cbeq, train/loss=2.910]\r",
+      "Epoch 0:   8%| | 158/1867 [04:26<48:03,  1.69s/it, v_num=cbeq, train/loss=3.920]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 159/1867 [04:26<47:45,  1.68s/it, v_num=cbeq, train/loss=3.920]\r",
+      "Epoch 0:   9%| | 159/1867 [04:26<47:45,  1.68s/it, v_num=cbeq, train/loss=2.390]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 160/1867 [04:32<48:24,  1.70s/it, v_num=cbeq, train/loss=2.390]\r",
+      "Epoch 0:   9%| | 160/1867 [04:32<48:24,  1.70s/it, v_num=cbeq, train/loss=3.080]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 161/1867 [04:32<48:05,  1.69s/it, v_num=cbeq, train/loss=3.080]\r",
+      "Epoch 0:   9%| | 161/1867 [04:32<48:05,  1.69s/it, v_num=cbeq, train/loss=4.560]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 162/1867 [04:32<47:46,  1.68s/it, v_num=cbeq, train/loss=4.560]\r",
+      "Epoch 0:   9%| | 162/1867 [04:32<47:46,  1.68s/it, v_num=cbeq, train/loss=3.450]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 163/1867 [04:32<47:28,  1.67s/it, v_num=cbeq, train/loss=3.450]\r",
+      "Epoch 0:   9%| | 163/1867 [04:32<47:28,  1.67s/it, v_num=cbeq, train/loss=2.140]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 164/1867 [04:38<48:12,  1.70s/it, v_num=cbeq, train/loss=2.140]\r",
+      "Epoch 0:   9%| | 164/1867 [04:38<48:12,  1.70s/it, v_num=cbeq, train/loss=3.670]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 165/1867 [04:38<47:53,  1.69s/it, v_num=cbeq, train/loss=3.670]\r",
+      "Epoch 0:   9%| | 165/1867 [04:38<47:53,  1.69s/it, v_num=cbeq, train/loss=3.970]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 166/1867 [04:38<47:35,  1.68s/it, v_num=cbeq, train/loss=3.970]\r",
+      "Epoch 0:   9%| | 166/1867 [04:38<47:35,  1.68s/it, v_num=cbeq, train/loss=4.380]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 167/1867 [04:38<47:17,  1.67s/it, v_num=cbeq, train/loss=4.380]\r",
+      "Epoch 0:   9%| | 167/1867 [04:38<47:17,  1.67s/it, v_num=cbeq, train/loss=3.720]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 168/1867 [04:44<47:58,  1.69s/it, v_num=cbeq, train/loss=3.720]\r",
+      "Epoch 0:   9%| | 168/1867 [04:44<47:58,  1.69s/it, v_num=cbeq, train/loss=4.660]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 169/1867 [04:44<47:40,  1.68s/it, v_num=cbeq, train/loss=4.660]\r",
+      "Epoch 0:   9%| | 169/1867 [04:44<47:40,  1.68s/it, v_num=cbeq, train/loss=3.860]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 170/1867 [04:44<47:22,  1.67s/it, v_num=cbeq, train/loss=3.860]\r",
+      "Epoch 0:   9%| | 170/1867 [04:44<47:22,  1.67s/it, v_num=cbeq, train/loss=2.910]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 171/1867 [04:44<47:04,  1.67s/it, v_num=cbeq, train/loss=2.910]\r",
+      "Epoch 0:   9%| | 171/1867 [04:44<47:04,  1.67s/it, v_num=cbeq, train/loss=2.970]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 172/1867 [04:50<47:41,  1.69s/it, v_num=cbeq, train/loss=2.970]\r",
+      "Epoch 0:   9%| | 172/1867 [04:50<47:41,  1.69s/it, v_num=cbeq, train/loss=3.840]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 173/1867 [04:50<47:24,  1.68s/it, v_num=cbeq, train/loss=3.840]\r",
+      "Epoch 0:   9%| | 173/1867 [04:50<47:24,  1.68s/it, v_num=cbeq, train/loss=3.020]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 174/1867 [04:50<47:06,  1.67s/it, v_num=cbeq, train/loss=3.020]\r",
+      "Epoch 0:   9%| | 174/1867 [04:50<47:06,  1.67s/it, v_num=cbeq, train/loss=3.310]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 175/1867 [04:50<46:49,  1.66s/it, v_num=cbeq, train/loss=3.310]\r",
+      "Epoch 0:   9%| | 175/1867 [04:50<46:49,  1.66s/it, v_num=cbeq, train/loss=3.950]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 176/1867 [04:56<47:27,  1.68s/it, v_num=cbeq, train/loss=3.950]\r",
+      "Epoch 0:   9%| | 176/1867 [04:56<47:27,  1.68s/it, v_num=cbeq, train/loss=4.280]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:   9%| | 177/1867 [04:56<47:10,  1.67s/it, v_num=cbeq, train/loss=4.280]\r",
+      "Epoch 0:   9%| | 177/1867 [04:56<47:10,  1.67s/it, v_num=cbeq, train/loss=3.560]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 178/1867 [04:56<46:53,  1.67s/it, v_num=cbeq, train/loss=3.560]\r",
+      "Epoch 0:  10%| | 178/1867 [04:56<46:53,  1.67s/it, v_num=cbeq, train/loss=1.780]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 179/1867 [04:56<46:37,  1.66s/it, v_num=cbeq, train/loss=1.780]\r",
+      "Epoch 0:  10%| | 179/1867 [04:56<46:37,  1.66s/it, v_num=cbeq, train/loss=3.620]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 180/1867 [05:02<47:12,  1.68s/it, v_num=cbeq, train/loss=3.620]\r",
+      "Epoch 0:  10%| | 180/1867 [05:02<47:12,  1.68s/it, v_num=cbeq, train/loss=3.670]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 181/1867 [05:02<46:55,  1.67s/it, v_num=cbeq, train/loss=3.670]\r",
+      "Epoch 0:  10%| | 181/1867 [05:02<46:55,  1.67s/it, v_num=cbeq, train/loss=2.660]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 182/1867 [05:02<46:38,  1.66s/it, v_num=cbeq, train/loss=2.660]\r",
+      "Epoch 0:  10%| | 182/1867 [05:02<46:38,  1.66s/it, v_num=cbeq, train/loss=4.000]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 183/1867 [05:02<46:22,  1.65s/it, v_num=cbeq, train/loss=4.000]\r",
+      "Epoch 0:  10%| | 183/1867 [05:02<46:22,  1.65s/it, v_num=cbeq, train/loss=3.060]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 184/1867 [05:07<46:57,  1.67s/it, v_num=cbeq, train/loss=3.060]\r",
+      "Epoch 0:  10%| | 184/1867 [05:07<46:57,  1.67s/it, v_num=cbeq, train/loss=3.270]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 185/1867 [05:08<46:40,  1.67s/it, v_num=cbeq, train/loss=3.270]\r",
+      "Epoch 0:  10%| | 185/1867 [05:08<46:40,  1.67s/it, v_num=cbeq, train/loss=5.530]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 186/1867 [05:08<46:24,  1.66s/it, v_num=cbeq, train/loss=5.530]\r",
+      "Epoch 0:  10%| | 186/1867 [05:08<46:24,  1.66s/it, v_num=cbeq, train/loss=3.340]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 187/1867 [05:08<46:08,  1.65s/it, v_num=cbeq, train/loss=3.340]\r",
+      "Epoch 0:  10%| | 187/1867 [05:08<46:08,  1.65s/it, v_num=cbeq, train/loss=1.620]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 188/1867 [05:14<46:47,  1.67s/it, v_num=cbeq, train/loss=1.620]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 188/1867 [05:14<46:47,  1.67s/it, v_num=cbeq, train/loss=3.060]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 189/1867 [05:14<46:31,  1.66s/it, v_num=cbeq, train/loss=3.060]\r",
+      "Epoch 0:  10%| | 189/1867 [05:14<46:31,  1.66s/it, v_num=cbeq, train/loss=3.380]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 190/1867 [05:14<46:15,  1.66s/it, v_num=cbeq, train/loss=3.380]\r",
+      "Epoch 0:  10%| | 190/1867 [05:14<46:15,  1.66s/it, v_num=cbeq, train/loss=4.840]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 191/1867 [05:14<46:00,  1.65s/it, v_num=cbeq, train/loss=4.840]\r",
+      "Epoch 0:  10%| | 191/1867 [05:14<46:00,  1.65s/it, v_num=cbeq, train/loss=1.810]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 192/1867 [05:20<46:32,  1.67s/it, v_num=cbeq, train/loss=1.810]\r",
+      "Epoch 0:  10%| | 192/1867 [05:20<46:32,  1.67s/it, v_num=cbeq, train/loss=3.080]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 193/1867 [05:20<46:16,  1.66s/it, v_num=cbeq, train/loss=3.080]\r",
+      "Epoch 0:  10%| | 193/1867 [05:20<46:16,  1.66s/it, v_num=cbeq, train/loss=3.030]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 194/1867 [05:20<46:00,  1.65s/it, v_num=cbeq, train/loss=3.030]\r",
+      "Epoch 0:  10%| | 194/1867 [05:20<46:00,  1.65s/it, v_num=cbeq, train/loss=3.120]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 195/1867 [05:20<45:46,  1.64s/it, v_num=cbeq, train/loss=3.120]\r",
+      "Epoch 0:  10%| | 195/1867 [05:20<45:46,  1.64s/it, v_num=cbeq, train/loss=3.910]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  10%| | 196/1867 [05:25<46:18,  1.66s/it, v_num=cbeq, train/loss=3.910]\r",
+      "Epoch 0:  10%| | 196/1867 [05:25<46:18,  1.66s/it, v_num=cbeq, train/loss=4.560]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 197/1867 [05:25<46:03,  1.65s/it, v_num=cbeq, train/loss=4.560]\r",
+      "Epoch 0:  11%| | 197/1867 [05:25<46:03,  1.65s/it, v_num=cbeq, train/loss=2.910]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 198/1867 [05:26<45:48,  1.65s/it, v_num=cbeq, train/loss=2.910]\r",
+      "Epoch 0:  11%| | 198/1867 [05:26<45:48,  1.65s/it, v_num=cbeq, train/loss=3.500]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 199/1867 [05:26<45:33,  1.64s/it, v_num=cbeq, train/loss=3.500]\r",
+      "Epoch 0:  11%| | 199/1867 [05:26<45:33,  1.64s/it, v_num=cbeq, train/loss=3.550]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 200/1867 [05:31<46:04,  1.66s/it, v_num=cbeq, train/loss=3.550]\r",
+      "Epoch 0:  11%| | 200/1867 [05:31<46:04,  1.66s/it, v_num=cbeq, train/loss=4.340]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 201/1867 [05:31<45:49,  1.65s/it, v_num=cbeq, train/loss=4.340]\r",
+      "Epoch 0:  11%| | 201/1867 [05:31<45:49,  1.65s/it, v_num=cbeq, train/loss=1.460]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 202/1867 [05:31<45:35,  1.64s/it, v_num=cbeq, train/loss=1.460]\r",
+      "Epoch 0:  11%| | 202/1867 [05:31<45:35,  1.64s/it, v_num=cbeq, train/loss=4.440]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 203/1867 [05:31<45:20,  1.63s/it, v_num=cbeq, train/loss=4.440]\r",
+      "Epoch 0:  11%| | 203/1867 [05:31<45:20,  1.63s/it, v_num=cbeq, train/loss=3.530]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 204/1867 [05:37<45:50,  1.65s/it, v_num=cbeq, train/loss=3.530]\r",
+      "Epoch 0:  11%| | 204/1867 [05:37<45:50,  1.65s/it, v_num=cbeq, train/loss=2.950]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 205/1867 [05:37<45:36,  1.65s/it, v_num=cbeq, train/loss=2.950]\r",
+      "Epoch 0:  11%| | 205/1867 [05:37<45:36,  1.65s/it, v_num=cbeq, train/loss=3.480]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 206/1867 [05:37<45:22,  1.64s/it, v_num=cbeq, train/loss=3.480]\r",
+      "Epoch 0:  11%| | 206/1867 [05:37<45:22,  1.64s/it, v_num=cbeq, train/loss=2.830]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 207/1867 [05:37<45:08,  1.63s/it, v_num=cbeq, train/loss=2.830]\r",
+      "Epoch 0:  11%| | 207/1867 [05:37<45:08,  1.63s/it, v_num=cbeq, train/loss=4.690]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 208/1867 [05:43<45:37,  1.65s/it, v_num=cbeq, train/loss=4.690]\r",
+      "Epoch 0:  11%| | 208/1867 [05:43<45:37,  1.65s/it, v_num=cbeq, train/loss=4.310]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 209/1867 [05:43<45:23,  1.64s/it, v_num=cbeq, train/loss=4.310]\r",
+      "Epoch 0:  11%| | 209/1867 [05:43<45:23,  1.64s/it, v_num=cbeq, train/loss=4.500]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 210/1867 [05:43<45:09,  1.64s/it, v_num=cbeq, train/loss=4.500]\r",
+      "Epoch 0:  11%| | 210/1867 [05:43<45:09,  1.64s/it, v_num=cbeq, train/loss=2.560]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 211/1867 [05:43<44:55,  1.63s/it, v_num=cbeq, train/loss=2.560]\r",
+      "Epoch 0:  11%| | 211/1867 [05:43<44:55,  1.63s/it, v_num=cbeq, train/loss=4.090]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 212/1867 [05:49<45:25,  1.65s/it, v_num=cbeq, train/loss=4.090]\r",
+      "Epoch 0:  11%| | 212/1867 [05:49<45:25,  1.65s/it, v_num=cbeq, train/loss=3.560]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 213/1867 [05:49<45:11,  1.64s/it, v_num=cbeq, train/loss=3.560]\r",
+      "Epoch 0:  11%| | 213/1867 [05:49<45:11,  1.64s/it, v_num=cbeq, train/loss=3.530]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  11%| | 214/1867 [05:49<44:57,  1.63s/it, v_num=cbeq, train/loss=3.530]\r",
+      "Epoch 0:  11%| | 214/1867 [05:49<44:57,  1.63s/it, v_num=cbeq, train/loss=3.190]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 215/1867 [05:50<44:54,  1.63s/it, v_num=cbeq, train/loss=3.190]\r",
+      "Epoch 0:  12%| | 215/1867 [05:50<44:54,  1.63s/it, v_num=cbeq, train/loss=3.090]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 216/1867 [05:56<45:21,  1.65s/it, v_num=cbeq, train/loss=3.090]\r",
+      "Epoch 0:  12%| | 216/1867 [05:56<45:21,  1.65s/it, v_num=cbeq, train/loss=2.780]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 217/1867 [05:56<45:08,  1.64s/it, v_num=cbeq, train/loss=2.780]\r",
+      "Epoch 0:  12%| | 217/1867 [05:56<45:08,  1.64s/it, v_num=cbeq, train/loss=2.530]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 218/1867 [05:56<44:55,  1.63s/it, v_num=cbeq, train/loss=2.530]\r",
+      "Epoch 0:  12%| | 218/1867 [05:56<44:55,  1.63s/it, v_num=cbeq, train/loss=3.360]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 219/1867 [05:56<44:42,  1.63s/it, v_num=cbeq, train/loss=3.360]\r",
+      "Epoch 0:  12%| | 219/1867 [05:56<44:42,  1.63s/it, v_num=cbeq, train/loss=3.860]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 220/1867 [06:01<45:09,  1.65s/it, v_num=cbeq, train/loss=3.860]\r",
+      "Epoch 0:  12%| | 220/1867 [06:01<45:10,  1.65s/it, v_num=cbeq, train/loss=3.190]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 221/1867 [06:02<44:56,  1.64s/it, v_num=cbeq, train/loss=3.190]\r",
+      "Epoch 0:  12%| | 221/1867 [06:02<44:56,  1.64s/it, v_num=cbeq, train/loss=2.700]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 222/1867 [06:02<44:43,  1.63s/it, v_num=cbeq, train/loss=2.700]\r",
+      "Epoch 0:  12%| | 222/1867 [06:02<44:43,  1.63s/it, v_num=cbeq, train/loss=3.060]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 223/1867 [06:02<44:30,  1.62s/it, v_num=cbeq, train/loss=3.060]\r",
+      "Epoch 0:  12%| | 223/1867 [06:02<44:30,  1.62s/it, v_num=cbeq, train/loss=3.910]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 224/1867 [06:07<44:58,  1.64s/it, v_num=cbeq, train/loss=3.910]\r",
+      "Epoch 0:  12%| | 224/1867 [06:07<44:58,  1.64s/it, v_num=cbeq, train/loss=3.060]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 225/1867 [06:07<44:44,  1.64s/it, v_num=cbeq, train/loss=3.060]\r",
+      "Epoch 0:  12%| | 225/1867 [06:07<44:44,  1.64s/it, v_num=cbeq, train/loss=2.890]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 226/1867 [06:07<44:31,  1.63s/it, v_num=cbeq, train/loss=2.890]\r",
+      "Epoch 0:  12%| | 226/1867 [06:07<44:31,  1.63s/it, v_num=cbeq, train/loss=2.620]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 227/1867 [06:08<44:18,  1.62s/it, v_num=cbeq, train/loss=2.620]\r",
+      "Epoch 0:  12%| | 227/1867 [06:08<44:18,  1.62s/it, v_num=cbeq, train/loss=2.860]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 228/1867 [06:13<44:48,  1.64s/it, v_num=cbeq, train/loss=2.860]\r",
+      "Epoch 0:  12%| | 228/1867 [06:13<44:48,  1.64s/it, v_num=cbeq, train/loss=1.910]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 229/1867 [06:14<44:36,  1.63s/it, v_num=cbeq, train/loss=1.910]\r",
+      "Epoch 0:  12%| | 229/1867 [06:14<44:36,  1.63s/it, v_num=cbeq, train/loss=2.860]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 230/1867 [06:14<44:23,  1.63s/it, v_num=cbeq, train/loss=2.860]\r",
+      "Epoch 0:  12%| | 230/1867 [06:14<44:23,  1.63s/it, v_num=cbeq, train/loss=3.690]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 231/1867 [06:14<44:11,  1.62s/it, v_num=cbeq, train/loss=3.690]\r",
+      "Epoch 0:  12%| | 231/1867 [06:14<44:11,  1.62s/it, v_num=cbeq, train/loss=4.060]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 232/1867 [06:19<44:37,  1.64s/it, v_num=cbeq, train/loss=4.060]\r",
+      "Epoch 0:  12%| | 232/1867 [06:19<44:37,  1.64s/it, v_num=cbeq, train/loss=5.530]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  12%| | 233/1867 [06:19<44:24,  1.63s/it, v_num=cbeq, train/loss=5.530]\r",
+      "Epoch 0:  12%| | 233/1867 [06:19<44:24,  1.63s/it, v_num=cbeq, train/loss=2.380]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 234/1867 [06:20<44:12,  1.62s/it, v_num=cbeq, train/loss=2.380]\r",
+      "Epoch 0:  13%|▏| 234/1867 [06:20<44:12,  1.62s/it, v_num=cbeq, train/loss=3.440]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 235/1867 [06:20<43:59,  1.62s/it, v_num=cbeq, train/loss=3.440]\r",
+      "Epoch 0:  13%|▏| 235/1867 [06:20<43:59,  1.62s/it, v_num=cbeq, train/loss=4.690]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 236/1867 [06:25<44:25,  1.63s/it, v_num=cbeq, train/loss=4.690]\r",
+      "Epoch 0:  13%|▏| 236/1867 [06:25<44:25,  1.63s/it, v_num=cbeq, train/loss=3.500]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 237/1867 [06:25<44:13,  1.63s/it, v_num=cbeq, train/loss=3.500]\r",
+      "Epoch 0:  13%|▏| 237/1867 [06:25<44:13,  1.63s/it, v_num=cbeq, train/loss=4.310]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 238/1867 [06:25<44:00,  1.62s/it, v_num=cbeq, train/loss=4.310]\r",
+      "Epoch 0:  13%|▏| 238/1867 [06:25<44:00,  1.62s/it, v_num=cbeq, train/loss=2.120]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 239/1867 [06:25<43:48,  1.61s/it, v_num=cbeq, train/loss=2.120]\r",
+      "Epoch 0:  13%|▏| 239/1867 [06:25<43:48,  1.61s/it, v_num=cbeq, train/loss=3.640]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 240/1867 [06:31<44:15,  1.63s/it, v_num=cbeq, train/loss=3.640]\r",
+      "Epoch 0:  13%|▏| 240/1867 [06:31<44:15,  1.63s/it, v_num=cbeq, train/loss=3.340]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 241/1867 [06:31<44:03,  1.63s/it, v_num=cbeq, train/loss=3.340]\r",
+      "Epoch 0:  13%|▏| 241/1867 [06:31<44:03,  1.63s/it, v_num=cbeq, train/loss=2.050]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 242/1867 [06:31<43:50,  1.62s/it, v_num=cbeq, train/loss=2.050]\r",
+      "Epoch 0:  13%|▏| 242/1867 [06:31<43:50,  1.62s/it, v_num=cbeq, train/loss=3.360]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 243/1867 [06:31<43:38,  1.61s/it, v_num=cbeq, train/loss=3.360]\r",
+      "Epoch 0:  13%|▏| 243/1867 [06:31<43:38,  1.61s/it, v_num=cbeq, train/loss=3.120]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 244/1867 [06:37<44:04,  1.63s/it, v_num=cbeq, train/loss=3.120]\r",
+      "Epoch 0:  13%|▏| 244/1867 [06:37<44:04,  1.63s/it, v_num=cbeq, train/loss=2.720]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 245/1867 [06:37<43:53,  1.62s/it, v_num=cbeq, train/loss=2.720]\r",
+      "Epoch 0:  13%|▏| 245/1867 [06:37<43:53,  1.62s/it, v_num=cbeq, train/loss=3.360]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 246/1867 [06:37<43:41,  1.62s/it, v_num=cbeq, train/loss=3.360]\r",
+      "Epoch 0:  13%|▏| 246/1867 [06:37<43:41,  1.62s/it, v_num=cbeq, train/loss=3.450]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 247/1867 [06:37<43:29,  1.61s/it, v_num=cbeq, train/loss=3.450]\r",
+      "Epoch 0:  13%|▏| 247/1867 [06:37<43:29,  1.61s/it, v_num=cbeq, train/loss=1.870]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 248/1867 [06:43<43:54,  1.63s/it, v_num=cbeq, train/loss=1.870]\r",
+      "Epoch 0:  13%|▏| 248/1867 [06:43<43:54,  1.63s/it, v_num=cbeq, train/loss=3.620]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 249/1867 [06:43<43:42,  1.62s/it, v_num=cbeq, train/loss=3.620]\r",
+      "Epoch 0:  13%|▏| 249/1867 [06:43<43:42,  1.62s/it, v_num=cbeq, train/loss=2.420]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 250/1867 [06:44<43:33,  1.62s/it, v_num=cbeq, train/loss=2.420]\r",
+      "Epoch 0:  13%|▏| 250/1867 [06:44<43:33,  1.62s/it, v_num=cbeq, train/loss=4.970]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 251/1867 [06:44<43:21,  1.61s/it, v_num=cbeq, train/loss=4.970]\r",
+      "Epoch 0:  13%|▏| 251/1867 [06:44<43:21,  1.61s/it, v_num=cbeq, train/loss=2.770]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  13%|▏| 252/1867 [06:49<43:45,  1.63s/it, v_num=cbeq, train/loss=2.770]\r",
+      "Epoch 0:  13%|▏| 252/1867 [06:49<43:45,  1.63s/it, v_num=cbeq, train/loss=2.770]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 253/1867 [06:49<43:33,  1.62s/it, v_num=cbeq, train/loss=2.770]\r",
+      "Epoch 0:  14%|▏| 253/1867 [06:49<43:33,  1.62s/it, v_num=cbeq, train/loss=4.500]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 254/1867 [06:49<43:22,  1.61s/it, v_num=cbeq, train/loss=4.500]\r",
+      "Epoch 0:  14%|▏| 254/1867 [06:49<43:22,  1.61s/it, v_num=cbeq, train/loss=2.920]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 255/1867 [06:49<43:10,  1.61s/it, v_num=cbeq, train/loss=2.920]\r",
+      "Epoch 0:  14%|▏| 255/1867 [06:49<43:10,  1.61s/it, v_num=cbeq, train/loss=4.030]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 256/1867 [06:55<43:33,  1.62s/it, v_num=cbeq, train/loss=4.030]\r",
+      "Epoch 0:  14%|▏| 256/1867 [06:55<43:33,  1.62s/it, v_num=cbeq, train/loss=2.300]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 257/1867 [06:55<43:22,  1.62s/it, v_num=cbeq, train/loss=2.300]\r",
+      "Epoch 0:  14%|▏| 257/1867 [06:55<43:22,  1.62s/it, v_num=cbeq, train/loss=1.390]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 258/1867 [06:55<43:11,  1.61s/it, v_num=cbeq, train/loss=1.390]\r",
+      "Epoch 0:  14%|▏| 258/1867 [06:55<43:11,  1.61s/it, v_num=cbeq, train/loss=2.280]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 259/1867 [06:55<43:00,  1.60s/it, v_num=cbeq, train/loss=2.280]\r",
+      "Epoch 0:  14%|▏| 259/1867 [06:55<43:00,  1.60s/it, v_num=cbeq, train/loss=3.310]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 260/1867 [07:01<43:24,  1.62s/it, v_num=cbeq, train/loss=3.310]\r",
+      "Epoch 0:  14%|▏| 260/1867 [07:01<43:24,  1.62s/it, v_num=cbeq, train/loss=3.980]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 261/1867 [07:01<43:13,  1.61s/it, v_num=cbeq, train/loss=3.980]\r",
+      "Epoch 0:  14%|▏| 261/1867 [07:01<43:13,  1.61s/it, v_num=cbeq, train/loss=4.160]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 262/1867 [07:01<43:02,  1.61s/it, v_num=cbeq, train/loss=4.160]\r",
+      "Epoch 0:  14%|▏| 262/1867 [07:01<43:02,  1.61s/it, v_num=cbeq, train/loss=3.580]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 263/1867 [07:01<42:51,  1.60s/it, v_num=cbeq, train/loss=3.580]\r",
+      "Epoch 0:  14%|▏| 263/1867 [07:01<42:51,  1.60s/it, v_num=cbeq, train/loss=3.840]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 264/1867 [07:07<43:14,  1.62s/it, v_num=cbeq, train/loss=3.840]\r",
+      "Epoch 0:  14%|▏| 264/1867 [07:07<43:14,  1.62s/it, v_num=cbeq, train/loss=4.880]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 265/1867 [07:07<43:04,  1.61s/it, v_num=cbeq, train/loss=4.880]\r",
+      "Epoch 0:  14%|▏| 265/1867 [07:07<43:04,  1.61s/it, v_num=cbeq, train/loss=3.110]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 266/1867 [07:07<42:53,  1.61s/it, v_num=cbeq, train/loss=3.110]\r",
+      "Epoch 0:  14%|▏| 266/1867 [07:07<42:53,  1.61s/it, v_num=cbeq, train/loss=4.000]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 267/1867 [07:07<42:42,  1.60s/it, v_num=cbeq, train/loss=4.000]\r",
+      "Epoch 0:  14%|▏| 267/1867 [07:07<42:42,  1.60s/it, v_num=cbeq, train/loss=3.980]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 268/1867 [07:13<43:04,  1.62s/it, v_num=cbeq, train/loss=3.980]\r",
+      "Epoch 0:  14%|▏| 268/1867 [07:13<43:04,  1.62s/it, v_num=cbeq, train/loss=4.250]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 269/1867 [07:13<42:53,  1.61s/it, v_num=cbeq, train/loss=4.250]\r",
+      "Epoch 0:  14%|▏| 269/1867 [07:13<42:53,  1.61s/it, v_num=cbeq, train/loss=2.940]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  14%|▏| 270/1867 [07:13<42:43,  1.60s/it, v_num=cbeq, train/loss=2.940]\r",
+      "Epoch 0:  14%|▏| 270/1867 [07:13<42:43,  1.60s/it, v_num=cbeq, train/loss=3.890]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 271/1867 [07:13<42:33,  1.60s/it, v_num=cbeq, train/loss=3.890]\r",
+      "Epoch 0:  15%|▏| 271/1867 [07:13<42:33,  1.60s/it, v_num=cbeq, train/loss=3.800]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 272/1867 [07:19<42:54,  1.61s/it, v_num=cbeq, train/loss=3.800]\r",
+      "Epoch 0:  15%|▏| 272/1867 [07:19<42:54,  1.61s/it, v_num=cbeq, train/loss=4.620]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 273/1867 [07:19<42:43,  1.61s/it, v_num=cbeq, train/loss=4.620]\r",
+      "Epoch 0:  15%|▏| 273/1867 [07:19<42:43,  1.61s/it, v_num=cbeq, train/loss=3.410]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 274/1867 [07:19<42:33,  1.60s/it, v_num=cbeq, train/loss=3.410]\r",
+      "Epoch 0:  15%|▏| 274/1867 [07:19<42:33,  1.60s/it, v_num=cbeq, train/loss=3.360]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 275/1867 [07:19<42:22,  1.60s/it, v_num=cbeq, train/loss=3.360]\r",
+      "Epoch 0:  15%|▏| 275/1867 [07:19<42:22,  1.60s/it, v_num=cbeq, train/loss=3.470]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 276/1867 [07:24<42:44,  1.61s/it, v_num=cbeq, train/loss=3.470]\r",
+      "Epoch 0:  15%|▏| 276/1867 [07:24<42:44,  1.61s/it, v_num=cbeq, train/loss=2.920]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 277/1867 [07:24<42:34,  1.61s/it, v_num=cbeq, train/loss=2.920]\r",
+      "Epoch 0:  15%|▏| 277/1867 [07:24<42:34,  1.61s/it, v_num=cbeq, train/loss=2.340]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 278/1867 [07:25<42:23,  1.60s/it, v_num=cbeq, train/loss=2.340]\r",
+      "Epoch 0:  15%|▏| 278/1867 [07:25<42:23,  1.60s/it, v_num=cbeq, train/loss=3.380]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 279/1867 [07:25<42:13,  1.60s/it, v_num=cbeq, train/loss=3.380]\r",
+      "Epoch 0:  15%|▏| 279/1867 [07:25<42:13,  1.60s/it, v_num=cbeq, train/loss=4.810]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 280/1867 [07:30<42:34,  1.61s/it, v_num=cbeq, train/loss=4.810]\r",
+      "Epoch 0:  15%|▏| 280/1867 [07:30<42:34,  1.61s/it, v_num=cbeq, train/loss=4.220]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 281/1867 [07:30<42:23,  1.60s/it, v_num=cbeq, train/loss=4.220]\r",
+      "Epoch 0:  15%|▏| 281/1867 [07:30<42:23,  1.60s/it, v_num=cbeq, train/loss=2.890]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 282/1867 [07:30<42:14,  1.60s/it, v_num=cbeq, train/loss=2.890]\r",
+      "Epoch 0:  15%|▏| 282/1867 [07:30<42:14,  1.60s/it, v_num=cbeq, train/loss=2.550]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 283/1867 [07:30<42:04,  1.59s/it, v_num=cbeq, train/loss=2.550]\r",
+      "Epoch 0:  15%|▏| 283/1867 [07:30<42:04,  1.59s/it, v_num=cbeq, train/loss=4.620]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 284/1867 [07:37<42:27,  1.61s/it, v_num=cbeq, train/loss=4.620]\r",
+      "Epoch 0:  15%|▏| 284/1867 [07:37<42:27,  1.61s/it, v_num=cbeq, train/loss=4.500]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 285/1867 [07:37<42:17,  1.60s/it, v_num=cbeq, train/loss=4.500]\r",
+      "Epoch 0:  15%|▏| 285/1867 [07:37<42:17,  1.60s/it, v_num=cbeq, train/loss=2.280]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 286/1867 [07:37<42:07,  1.60s/it, v_num=cbeq, train/loss=2.280]\r",
+      "Epoch 0:  15%|▏| 286/1867 [07:37<42:07,  1.60s/it, v_num=cbeq, train/loss=3.020]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 287/1867 [07:37<41:57,  1.59s/it, v_num=cbeq, train/loss=3.020]\r",
+      "Epoch 0:  15%|▏| 287/1867 [07:37<41:57,  1.59s/it, v_num=cbeq, train/loss=4.060]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 288/1867 [07:42<42:18,  1.61s/it, v_num=cbeq, train/loss=4.060]\r",
+      "Epoch 0:  15%|▏| 288/1867 [07:42<42:18,  1.61s/it, v_num=cbeq, train/loss=4.280]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  15%|▏| 289/1867 [07:43<42:08,  1.60s/it, v_num=cbeq, train/loss=4.280]\r",
+      "Epoch 0:  15%|▏| 289/1867 [07:43<42:08,  1.60s/it, v_num=cbeq, train/loss=1.810]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 290/1867 [07:43<41:58,  1.60s/it, v_num=cbeq, train/loss=1.810]\r",
+      "Epoch 0:  16%|▏| 290/1867 [07:43<41:58,  1.60s/it, v_num=cbeq, train/loss=2.330]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 291/1867 [07:43<41:48,  1.59s/it, v_num=cbeq, train/loss=2.330]\r",
+      "Epoch 0:  16%|▏| 291/1867 [07:43<41:48,  1.59s/it, v_num=cbeq, train/loss=3.890]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 292/1867 [07:48<42:08,  1.61s/it, v_num=cbeq, train/loss=3.890]\r",
+      "Epoch 0:  16%|▏| 292/1867 [07:48<42:08,  1.61s/it, v_num=cbeq, train/loss=4.120]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 293/1867 [07:48<41:58,  1.60s/it, v_num=cbeq, train/loss=4.120]\r",
+      "Epoch 0:  16%|▏| 293/1867 [07:48<41:58,  1.60s/it, v_num=cbeq, train/loss=3.140]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 294/1867 [07:48<41:49,  1.60s/it, v_num=cbeq, train/loss=3.140]\r",
+      "Epoch 0:  16%|▏| 294/1867 [07:48<41:49,  1.60s/it, v_num=cbeq, train/loss=3.950]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 295/1867 [07:49<41:39,  1.59s/it, v_num=cbeq, train/loss=3.950]\r",
+      "Epoch 0:  16%|▏| 295/1867 [07:49<41:39,  1.59s/it, v_num=cbeq, train/loss=3.970]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 296/1867 [07:54<41:58,  1.60s/it, v_num=cbeq, train/loss=3.970]\r",
+      "Epoch 0:  16%|▏| 296/1867 [07:54<41:58,  1.60s/it, v_num=cbeq, train/loss=4.310]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 297/1867 [07:54<41:49,  1.60s/it, v_num=cbeq, train/loss=4.310]\r",
+      "Epoch 0:  16%|▏| 297/1867 [07:54<41:49,  1.60s/it, v_num=cbeq, train/loss=2.310]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 298/1867 [07:54<41:39,  1.59s/it, v_num=cbeq, train/loss=2.310]\r",
+      "Epoch 0:  16%|▏| 298/1867 [07:54<41:39,  1.59s/it, v_num=cbeq, train/loss=2.560]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 299/1867 [07:54<41:30,  1.59s/it, v_num=cbeq, train/loss=2.560]\r",
+      "Epoch 0:  16%|▏| 299/1867 [07:54<41:30,  1.59s/it, v_num=cbeq, train/loss=3.450]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 300/1867 [08:00<41:49,  1.60s/it, v_num=cbeq, train/loss=3.450]\r",
+      "Epoch 0:  16%|▏| 300/1867 [08:00<41:49,  1.60s/it, v_num=cbeq, train/loss=2.030]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 301/1867 [08:00<41:39,  1.60s/it, v_num=cbeq, train/loss=2.030]\r",
+      "Epoch 0:  16%|▏| 301/1867 [08:00<41:39,  1.60s/it, v_num=cbeq, train/loss=3.910]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 302/1867 [08:00<41:29,  1.59s/it, v_num=cbeq, train/loss=3.910]\r",
+      "Epoch 0:  16%|▏| 302/1867 [08:00<41:29,  1.59s/it, v_num=cbeq, train/loss=3.140]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 303/1867 [08:00<41:20,  1.59s/it, v_num=cbeq, train/loss=3.140]\r",
+      "Epoch 0:  16%|▏| 303/1867 [08:00<41:20,  1.59s/it, v_num=cbeq, train/loss=2.810]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 304/1867 [08:06<41:40,  1.60s/it, v_num=cbeq, train/loss=2.810]\r",
+      "Epoch 0:  16%|▏| 304/1867 [08:06<41:40,  1.60s/it, v_num=cbeq, train/loss=4.660]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 305/1867 [08:06<41:30,  1.59s/it, v_num=cbeq, train/loss=4.660]\r",
+      "Epoch 0:  16%|▏| 305/1867 [08:06<41:30,  1.59s/it, v_num=cbeq, train/loss=2.550]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 306/1867 [08:06<41:21,  1.59s/it, v_num=cbeq, train/loss=2.550]\r",
+      "Epoch 0:  16%|▏| 306/1867 [08:06<41:21,  1.59s/it, v_num=cbeq, train/loss=3.640]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 307/1867 [08:06<41:12,  1.58s/it, v_num=cbeq, train/loss=3.640]\r",
+      "Epoch 0:  16%|▏| 307/1867 [08:06<41:12,  1.58s/it, v_num=cbeq, train/loss=3.360]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  16%|▏| 308/1867 [08:12<41:30,  1.60s/it, v_num=cbeq, train/loss=3.360]\r",
+      "Epoch 0:  16%|▏| 308/1867 [08:12<41:30,  1.60s/it, v_num=cbeq, train/loss=2.700]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 309/1867 [08:12<41:21,  1.59s/it, v_num=cbeq, train/loss=2.700]\r",
+      "Epoch 0:  17%|▏| 309/1867 [08:12<41:21,  1.59s/it, v_num=cbeq, train/loss=2.280]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 310/1867 [08:12<41:12,  1.59s/it, v_num=cbeq, train/loss=2.280]\r",
+      "Epoch 0:  17%|▏| 310/1867 [08:12<41:12,  1.59s/it, v_num=cbeq, train/loss=3.690]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 311/1867 [08:12<41:03,  1.58s/it, v_num=cbeq, train/loss=3.690]\r",
+      "Epoch 0:  17%|▏| 311/1867 [08:12<41:03,  1.58s/it, v_num=cbeq, train/loss=4.340]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 312/1867 [08:17<41:21,  1.60s/it, v_num=cbeq, train/loss=4.340]\r",
+      "Epoch 0:  17%|▏| 312/1867 [08:17<41:21,  1.60s/it, v_num=cbeq, train/loss=1.690]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 313/1867 [08:18<41:12,  1.59s/it, v_num=cbeq, train/loss=1.690]\r",
+      "Epoch 0:  17%|▏| 313/1867 [08:18<41:12,  1.59s/it, v_num=cbeq, train/loss=2.970]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 314/1867 [08:18<41:03,  1.59s/it, v_num=cbeq, train/loss=2.970]\r",
+      "Epoch 0:  17%|▏| 314/1867 [08:18<41:03,  1.59s/it, v_num=cbeq, train/loss=1.890]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 315/1867 [08:18<40:54,  1.58s/it, v_num=cbeq, train/loss=1.890]\r",
+      "Epoch 0:  17%|▏| 315/1867 [08:18<40:54,  1.58s/it, v_num=cbeq, train/loss=2.640]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 316/1867 [08:23<41:12,  1.59s/it, v_num=cbeq, train/loss=2.640]\r",
+      "Epoch 0:  17%|▏| 316/1867 [08:23<41:12,  1.59s/it, v_num=cbeq, train/loss=3.830]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 317/1867 [08:23<41:03,  1.59s/it, v_num=cbeq, train/loss=3.830]\r",
+      "Epoch 0:  17%|▏| 317/1867 [08:23<41:03,  1.59s/it, v_num=cbeq, train/loss=3.250]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 318/1867 [08:23<40:54,  1.58s/it, v_num=cbeq, train/loss=3.250]\r",
+      "Epoch 0:  17%|▏| 318/1867 [08:23<40:54,  1.58s/it, v_num=cbeq, train/loss=3.280]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 319/1867 [08:24<40:45,  1.58s/it, v_num=cbeq, train/loss=3.280]\r",
+      "Epoch 0:  17%|▏| 319/1867 [08:24<40:45,  1.58s/it, v_num=cbeq, train/loss=2.860]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 320/1867 [08:29<41:03,  1.59s/it, v_num=cbeq, train/loss=2.860]\r",
+      "Epoch 0:  17%|▏| 320/1867 [08:29<41:03,  1.59s/it, v_num=cbeq, train/loss=4.060]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 321/1867 [08:29<40:54,  1.59s/it, v_num=cbeq, train/loss=4.060]\r",
+      "Epoch 0:  17%|▏| 321/1867 [08:29<40:54,  1.59s/it, v_num=cbeq, train/loss=2.640]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 322/1867 [08:29<40:45,  1.58s/it, v_num=cbeq, train/loss=2.640]\r",
+      "Epoch 0:  17%|▏| 322/1867 [08:29<40:45,  1.58s/it, v_num=cbeq, train/loss=2.250]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 323/1867 [08:29<40:37,  1.58s/it, v_num=cbeq, train/loss=2.250]\r",
+      "Epoch 0:  17%|▏| 323/1867 [08:29<40:37,  1.58s/it, v_num=cbeq, train/loss=1.210]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 324/1867 [08:35<40:54,  1.59s/it, v_num=cbeq, train/loss=1.210]\r",
+      "Epoch 0:  17%|▏| 324/1867 [08:35<40:54,  1.59s/it, v_num=cbeq, train/loss=3.160]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 325/1867 [08:35<40:45,  1.59s/it, v_num=cbeq, train/loss=3.160]\r",
+      "Epoch 0:  17%|▏| 325/1867 [08:35<40:45,  1.59s/it, v_num=cbeq, train/loss=3.550]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  17%|▏| 326/1867 [08:35<40:36,  1.58s/it, v_num=cbeq, train/loss=3.550]\r",
+      "Epoch 0:  17%|▏| 326/1867 [08:35<40:36,  1.58s/it, v_num=cbeq, train/loss=4.030]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 327/1867 [08:35<40:28,  1.58s/it, v_num=cbeq, train/loss=4.030]\r",
+      "Epoch 0:  18%|▏| 327/1867 [08:35<40:28,  1.58s/it, v_num=cbeq, train/loss=2.360]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 328/1867 [08:41<40:46,  1.59s/it, v_num=cbeq, train/loss=2.360]\r",
+      "Epoch 0:  18%|▏| 328/1867 [08:41<40:46,  1.59s/it, v_num=cbeq, train/loss=4.590]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 329/1867 [08:41<40:38,  1.59s/it, v_num=cbeq, train/loss=4.590]\r",
+      "Epoch 0:  18%|▏| 329/1867 [08:41<40:38,  1.59s/it, v_num=cbeq, train/loss=2.690]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 330/1867 [08:41<40:29,  1.58s/it, v_num=cbeq, train/loss=2.690]\r",
+      "Epoch 0:  18%|▏| 330/1867 [08:41<40:29,  1.58s/it, v_num=cbeq, train/loss=4.120]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 331/1867 [08:41<40:20,  1.58s/it, v_num=cbeq, train/loss=4.120]\r",
+      "Epoch 0:  18%|▏| 331/1867 [08:41<40:20,  1.58s/it, v_num=cbeq, train/loss=3.840]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 332/1867 [08:47<40:39,  1.59s/it, v_num=cbeq, train/loss=3.840]\r",
+      "Epoch 0:  18%|▏| 332/1867 [08:47<40:39,  1.59s/it, v_num=cbeq, train/loss=2.380]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 333/1867 [08:47<40:30,  1.58s/it, v_num=cbeq, train/loss=2.380]\r",
+      "Epoch 0:  18%|▏| 333/1867 [08:47<40:30,  1.58s/it, v_num=cbeq, train/loss=2.440]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 334/1867 [08:47<40:22,  1.58s/it, v_num=cbeq, train/loss=2.440]\r",
+      "Epoch 0:  18%|▏| 334/1867 [08:47<40:22,  1.58s/it, v_num=cbeq, train/loss=1.590]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 335/1867 [08:47<40:14,  1.58s/it, v_num=cbeq, train/loss=1.590]\r",
+      "Epoch 0:  18%|▏| 335/1867 [08:47<40:14,  1.58s/it, v_num=cbeq, train/loss=3.140]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 336/1867 [08:53<40:31,  1.59s/it, v_num=cbeq, train/loss=3.140]\r",
+      "Epoch 0:  18%|▏| 336/1867 [08:53<40:31,  1.59s/it, v_num=cbeq, train/loss=3.750]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 337/1867 [08:53<40:23,  1.58s/it, v_num=cbeq, train/loss=3.750]\r",
+      "Epoch 0:  18%|▏| 337/1867 [08:53<40:23,  1.58s/it, v_num=cbeq, train/loss=3.060]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 338/1867 [08:53<40:14,  1.58s/it, v_num=cbeq, train/loss=3.060]\r",
+      "Epoch 0:  18%|▏| 338/1867 [08:53<40:14,  1.58s/it, v_num=cbeq, train/loss=4.120]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 339/1867 [08:53<40:06,  1.57s/it, v_num=cbeq, train/loss=4.120]\r",
+      "Epoch 0:  18%|▏| 339/1867 [08:53<40:06,  1.57s/it, v_num=cbeq, train/loss=2.660]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 340/1867 [08:59<40:22,  1.59s/it, v_num=cbeq, train/loss=2.660]\r",
+      "Epoch 0:  18%|▏| 340/1867 [08:59<40:22,  1.59s/it, v_num=cbeq, train/loss=2.220]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 341/1867 [08:59<40:14,  1.58s/it, v_num=cbeq, train/loss=2.220]\r",
+      "Epoch 0:  18%|▏| 341/1867 [08:59<40:14,  1.58s/it, v_num=cbeq, train/loss=3.830]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 342/1867 [08:59<40:06,  1.58s/it, v_num=cbeq, train/loss=3.830]\r",
+      "Epoch 0:  18%|▏| 342/1867 [08:59<40:06,  1.58s/it, v_num=cbeq, train/loss=2.940]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 343/1867 [08:59<39:58,  1.57s/it, v_num=cbeq, train/loss=2.940]\r",
+      "Epoch 0:  18%|▏| 343/1867 [08:59<39:58,  1.57s/it, v_num=cbeq, train/loss=3.970]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 344/1867 [09:05<40:14,  1.59s/it, v_num=cbeq, train/loss=3.970]\r",
+      "Epoch 0:  18%|▏| 344/1867 [09:05<40:14,  1.59s/it, v_num=cbeq, train/loss=4.160]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  18%|▏| 345/1867 [09:05<40:05,  1.58s/it, v_num=cbeq, train/loss=4.160]\r",
+      "Epoch 0:  18%|▏| 345/1867 [09:05<40:05,  1.58s/it, v_num=cbeq, train/loss=2.660]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 346/1867 [09:05<39:57,  1.58s/it, v_num=cbeq, train/loss=2.660]\r",
+      "Epoch 0:  19%|▏| 346/1867 [09:05<39:57,  1.58s/it, v_num=cbeq, train/loss=1.990]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 347/1867 [09:05<39:49,  1.57s/it, v_num=cbeq, train/loss=1.990]\r",
+      "Epoch 0:  19%|▏| 347/1867 [09:05<39:49,  1.57s/it, v_num=cbeq, train/loss=3.560]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 348/1867 [09:11<40:05,  1.58s/it, v_num=cbeq, train/loss=3.560]\r",
+      "Epoch 0:  19%|▏| 348/1867 [09:11<40:05,  1.58s/it, v_num=cbeq, train/loss=4.000]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 349/1867 [09:11<39:57,  1.58s/it, v_num=cbeq, train/loss=4.000]\r",
+      "Epoch 0:  19%|▏| 349/1867 [09:11<39:57,  1.58s/it, v_num=cbeq, train/loss=1.280]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 350/1867 [09:11<39:49,  1.58s/it, v_num=cbeq, train/loss=1.280]\r",
+      "Epoch 0:  19%|▏| 350/1867 [09:11<39:49,  1.58s/it, v_num=cbeq, train/loss=3.920]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 351/1867 [09:11<39:41,  1.57s/it, v_num=cbeq, train/loss=3.920]\r",
+      "Epoch 0:  19%|▏| 351/1867 [09:11<39:41,  1.57s/it, v_num=cbeq, train/loss=2.340]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 352/1867 [09:16<39:57,  1.58s/it, v_num=cbeq, train/loss=2.340]\r",
+      "Epoch 0:  19%|▏| 352/1867 [09:16<39:57,  1.58s/it, v_num=cbeq, train/loss=4.120]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 353/1867 [09:17<39:49,  1.58s/it, v_num=cbeq, train/loss=4.120]\r",
+      "Epoch 0:  19%|▏| 353/1867 [09:17<39:49,  1.58s/it, v_num=cbeq, train/loss=3.530]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 354/1867 [09:17<39:41,  1.57s/it, v_num=cbeq, train/loss=3.530]\r",
+      "Epoch 0:  19%|▏| 354/1867 [09:17<39:41,  1.57s/it, v_num=cbeq, train/loss=1.940]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 355/1867 [09:17<39:33,  1.57s/it, v_num=cbeq, train/loss=1.940]\r",
+      "Epoch 0:  19%|▏| 355/1867 [09:17<39:33,  1.57s/it, v_num=cbeq, train/loss=3.660]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 356/1867 [09:23<39:50,  1.58s/it, v_num=cbeq, train/loss=3.660]\r",
+      "Epoch 0:  19%|▏| 356/1867 [09:23<39:50,  1.58s/it, v_num=cbeq, train/loss=2.770]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 357/1867 [09:23<39:42,  1.58s/it, v_num=cbeq, train/loss=2.770]\r",
+      "Epoch 0:  19%|▏| 357/1867 [09:23<39:42,  1.58s/it, v_num=cbeq, train/loss=4.000]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 358/1867 [09:23<39:34,  1.57s/it, v_num=cbeq, train/loss=4.000]\r",
+      "Epoch 0:  19%|▏| 358/1867 [09:23<39:34,  1.57s/it, v_num=cbeq, train/loss=3.360]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 359/1867 [09:23<39:26,  1.57s/it, v_num=cbeq, train/loss=3.360]\r",
+      "Epoch 0:  19%|▏| 359/1867 [09:23<39:26,  1.57s/it, v_num=cbeq, train/loss=1.800]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 360/1867 [09:29<39:41,  1.58s/it, v_num=cbeq, train/loss=1.800]\r",
+      "Epoch 0:  19%|▏| 360/1867 [09:29<39:41,  1.58s/it, v_num=cbeq, train/loss=5.190]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 361/1867 [09:29<39:34,  1.58s/it, v_num=cbeq, train/loss=5.190]\r",
+      "Epoch 0:  19%|▏| 361/1867 [09:29<39:34,  1.58s/it, v_num=cbeq, train/loss=2.470]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 362/1867 [09:29<39:26,  1.57s/it, v_num=cbeq, train/loss=2.470]\r",
+      "Epoch 0:  19%|▏| 362/1867 [09:29<39:26,  1.57s/it, v_num=cbeq, train/loss=3.550]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 363/1867 [09:29<39:18,  1.57s/it, v_num=cbeq, train/loss=3.550]\r",
+      "Epoch 0:  19%|▏| 363/1867 [09:29<39:18,  1.57s/it, v_num=cbeq, train/loss=2.910]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  19%|▏| 364/1867 [09:34<39:33,  1.58s/it, v_num=cbeq, train/loss=2.910]\r",
+      "Epoch 0:  19%|▏| 364/1867 [09:34<39:33,  1.58s/it, v_num=cbeq, train/loss=3.330]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 365/1867 [09:35<39:26,  1.58s/it, v_num=cbeq, train/loss=3.330]\r",
+      "Epoch 0:  20%|▏| 365/1867 [09:35<39:26,  1.58s/it, v_num=cbeq, train/loss=3.830]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 366/1867 [09:35<39:18,  1.57s/it, v_num=cbeq, train/loss=3.830]\r",
+      "Epoch 0:  20%|▏| 366/1867 [09:35<39:18,  1.57s/it, v_num=cbeq, train/loss=5.440]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 367/1867 [09:35<39:11,  1.57s/it, v_num=cbeq, train/loss=5.440]\r",
+      "Epoch 0:  20%|▏| 367/1867 [09:35<39:11,  1.57s/it, v_num=cbeq, train/loss=3.530]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 368/1867 [09:40<39:25,  1.58s/it, v_num=cbeq, train/loss=3.530]\r",
+      "Epoch 0:  20%|▏| 368/1867 [09:40<39:25,  1.58s/it, v_num=cbeq, train/loss=3.880]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 369/1867 [09:40<39:17,  1.57s/it, v_num=cbeq, train/loss=3.880]\r",
+      "Epoch 0:  20%|▏| 369/1867 [09:40<39:17,  1.57s/it, v_num=cbeq, train/loss=1.590]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 370/1867 [09:40<39:09,  1.57s/it, v_num=cbeq, train/loss=1.590]\r",
+      "Epoch 0:  20%|▏| 370/1867 [09:40<39:09,  1.57s/it, v_num=cbeq, train/loss=3.090]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 371/1867 [09:40<39:02,  1.57s/it, v_num=cbeq, train/loss=3.090]\r",
+      "Epoch 0:  20%|▏| 371/1867 [09:40<39:02,  1.57s/it, v_num=cbeq, train/loss=2.730]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 372/1867 [09:46<39:17,  1.58s/it, v_num=cbeq, train/loss=2.730]\r",
+      "Epoch 0:  20%|▏| 372/1867 [09:46<39:17,  1.58s/it, v_num=cbeq, train/loss=2.980]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 373/1867 [09:46<39:09,  1.57s/it, v_num=cbeq, train/loss=2.980]\r",
+      "Epoch 0:  20%|▏| 373/1867 [09:46<39:09,  1.57s/it, v_num=cbeq, train/loss=2.840]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 374/1867 [09:46<39:02,  1.57s/it, v_num=cbeq, train/loss=2.840]\r",
+      "Epoch 0:  20%|▏| 374/1867 [09:46<39:02,  1.57s/it, v_num=cbeq, train/loss=4.000]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 375/1867 [09:46<38:54,  1.56s/it, v_num=cbeq, train/loss=4.000]\r",
+      "Epoch 0:  20%|▏| 375/1867 [09:46<38:54,  1.56s/it, v_num=cbeq, train/loss=2.120]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 376/1867 [09:52<39:08,  1.58s/it, v_num=cbeq, train/loss=2.120]\r",
+      "Epoch 0:  20%|▏| 376/1867 [09:52<39:08,  1.58s/it, v_num=cbeq, train/loss=2.090]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 377/1867 [09:52<39:01,  1.57s/it, v_num=cbeq, train/loss=2.090]\r",
+      "Epoch 0:  20%|▏| 377/1867 [09:52<39:01,  1.57s/it, v_num=cbeq, train/loss=4.190]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 378/1867 [09:52<38:53,  1.57s/it, v_num=cbeq, train/loss=4.190]\r",
+      "Epoch 0:  20%|▏| 378/1867 [09:52<38:53,  1.57s/it, v_num=cbeq, train/loss=2.170]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 379/1867 [09:52<38:46,  1.56s/it, v_num=cbeq, train/loss=2.170]\r",
+      "Epoch 0:  20%|▏| 379/1867 [09:52<38:46,  1.56s/it, v_num=cbeq, train/loss=2.670]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 380/1867 [09:58<39:00,  1.57s/it, v_num=cbeq, train/loss=2.670]\r",
+      "Epoch 0:  20%|▏| 380/1867 [09:58<39:00,  1.57s/it, v_num=cbeq, train/loss=3.890]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 381/1867 [09:58<38:56,  1.57s/it, v_num=cbeq, train/loss=3.890]\r",
+      "Epoch 0:  20%|▏| 381/1867 [09:58<38:56,  1.57s/it, v_num=cbeq, train/loss=3.770]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  20%|▏| 382/1867 [09:59<38:48,  1.57s/it, v_num=cbeq, train/loss=3.770]\r",
+      "Epoch 0:  20%|▏| 382/1867 [09:59<38:48,  1.57s/it, v_num=cbeq, train/loss=1.770]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 383/1867 [09:59<38:41,  1.56s/it, v_num=cbeq, train/loss=1.770]\r",
+      "Epoch 0:  21%|▏| 383/1867 [09:59<38:41,  1.56s/it, v_num=cbeq, train/loss=2.730]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 384/1867 [10:04<38:55,  1.58s/it, v_num=cbeq, train/loss=2.730]\r",
+      "Epoch 0:  21%|▏| 384/1867 [10:04<38:55,  1.58s/it, v_num=cbeq, train/loss=2.970]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 385/1867 [10:04<38:48,  1.57s/it, v_num=cbeq, train/loss=2.970]\r",
+      "Epoch 0:  21%|▏| 385/1867 [10:04<38:48,  1.57s/it, v_num=cbeq, train/loss=2.520]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 386/1867 [10:04<38:41,  1.57s/it, v_num=cbeq, train/loss=2.520]\r",
+      "Epoch 0:  21%|▏| 386/1867 [10:04<38:41,  1.57s/it, v_num=cbeq, train/loss=3.230]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 387/1867 [10:05<38:33,  1.56s/it, v_num=cbeq, train/loss=3.230]\r",
+      "Epoch 0:  21%|▏| 387/1867 [10:05<38:33,  1.56s/it, v_num=cbeq, train/loss=4.340]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 388/1867 [10:10<38:47,  1.57s/it, v_num=cbeq, train/loss=4.340]\r",
+      "Epoch 0:  21%|▏| 388/1867 [10:10<38:47,  1.57s/it, v_num=cbeq, train/loss=1.600]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 389/1867 [10:10<38:40,  1.57s/it, v_num=cbeq, train/loss=1.600]\r",
+      "Epoch 0:  21%|▏| 389/1867 [10:10<38:40,  1.57s/it, v_num=cbeq, train/loss=2.730]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 390/1867 [10:10<38:33,  1.57s/it, v_num=cbeq, train/loss=2.730]\r",
+      "Epoch 0:  21%|▏| 390/1867 [10:10<38:33,  1.57s/it, v_num=cbeq, train/loss=1.670]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 391/1867 [10:10<38:25,  1.56s/it, v_num=cbeq, train/loss=1.670]\r",
+      "Epoch 0:  21%|▏| 391/1867 [10:10<38:25,  1.56s/it, v_num=cbeq, train/loss=3.860]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 392/1867 [10:16<38:40,  1.57s/it, v_num=cbeq, train/loss=3.860]\r",
+      "Epoch 0:  21%|▏| 392/1867 [10:16<38:40,  1.57s/it, v_num=cbeq, train/loss=4.310]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 393/1867 [10:16<38:33,  1.57s/it, v_num=cbeq, train/loss=4.310]\r",
+      "Epoch 0:  21%|▏| 393/1867 [10:16<38:33,  1.57s/it, v_num=cbeq, train/loss=4.160]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 394/1867 [10:16<38:26,  1.57s/it, v_num=cbeq, train/loss=4.160]\r",
+      "Epoch 0:  21%|▏| 394/1867 [10:16<38:26,  1.57s/it, v_num=cbeq, train/loss=2.940]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 395/1867 [10:16<38:19,  1.56s/it, v_num=cbeq, train/loss=2.940]\r",
+      "Epoch 0:  21%|▏| 395/1867 [10:16<38:19,  1.56s/it, v_num=cbeq, train/loss=3.020]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 396/1867 [10:22<38:32,  1.57s/it, v_num=cbeq, train/loss=3.020]\r",
+      "Epoch 0:  21%|▏| 396/1867 [10:22<38:32,  1.57s/it, v_num=cbeq, train/loss=3.270]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 397/1867 [10:22<38:25,  1.57s/it, v_num=cbeq, train/loss=3.270]\r",
+      "Epoch 0:  21%|▏| 397/1867 [10:22<38:25,  1.57s/it, v_num=cbeq, train/loss=3.470]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 398/1867 [10:22<38:17,  1.56s/it, v_num=cbeq, train/loss=3.470]\r",
+      "Epoch 0:  21%|▏| 398/1867 [10:22<38:17,  1.56s/it, v_num=cbeq, train/loss=1.680]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 399/1867 [10:22<38:10,  1.56s/it, v_num=cbeq, train/loss=1.680]\r",
+      "Epoch 0:  21%|▏| 399/1867 [10:22<38:10,  1.56s/it, v_num=cbeq, train/loss=2.120]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 400/1867 [10:28<38:24,  1.57s/it, v_num=cbeq, train/loss=2.120]\r",
+      "Epoch 0:  21%|▏| 400/1867 [10:28<38:24,  1.57s/it, v_num=cbeq, train/loss=3.080]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  21%|▏| 401/1867 [10:28<38:17,  1.57s/it, v_num=cbeq, train/loss=3.080]\r",
+      "Epoch 0:  21%|▏| 401/1867 [10:28<38:17,  1.57s/it, v_num=cbeq, train/loss=3.190]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 402/1867 [10:28<38:09,  1.56s/it, v_num=cbeq, train/loss=3.190]\r",
+      "Epoch 0:  22%|▏| 402/1867 [10:28<38:09,  1.56s/it, v_num=cbeq, train/loss=2.730]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 403/1867 [10:28<38:02,  1.56s/it, v_num=cbeq, train/loss=2.730]\r",
+      "Epoch 0:  22%|▏| 403/1867 [10:28<38:02,  1.56s/it, v_num=cbeq, train/loss=1.740]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 404/1867 [10:34<38:15,  1.57s/it, v_num=cbeq, train/loss=1.740]\r",
+      "Epoch 0:  22%|▏| 404/1867 [10:34<38:15,  1.57s/it, v_num=cbeq, train/loss=3.750]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 405/1867 [10:34<38:09,  1.57s/it, v_num=cbeq, train/loss=3.750]\r",
+      "Epoch 0:  22%|▏| 405/1867 [10:34<38:09,  1.57s/it, v_num=cbeq, train/loss=2.950]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 406/1867 [10:34<38:02,  1.56s/it, v_num=cbeq, train/loss=2.950]\r",
+      "Epoch 0:  22%|▏| 406/1867 [10:34<38:02,  1.56s/it, v_num=cbeq, train/loss=1.550]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 407/1867 [10:34<37:55,  1.56s/it, v_num=cbeq, train/loss=1.550]\r",
+      "Epoch 0:  22%|▏| 407/1867 [10:34<37:55,  1.56s/it, v_num=cbeq, train/loss=3.310]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 408/1867 [10:39<38:08,  1.57s/it, v_num=cbeq, train/loss=3.310]\r",
+      "Epoch 0:  22%|▏| 408/1867 [10:39<38:08,  1.57s/it, v_num=cbeq, train/loss=3.880]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 409/1867 [10:39<38:01,  1.56s/it, v_num=cbeq, train/loss=3.880]\r",
+      "Epoch 0:  22%|▏| 409/1867 [10:39<38:01,  1.56s/it, v_num=cbeq, train/loss=3.550]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 410/1867 [10:40<37:54,  1.56s/it, v_num=cbeq, train/loss=3.550]\r",
+      "Epoch 0:  22%|▏| 410/1867 [10:40<37:54,  1.56s/it, v_num=cbeq, train/loss=1.280]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 411/1867 [10:40<37:47,  1.56s/it, v_num=cbeq, train/loss=1.280]\r",
+      "Epoch 0:  22%|▏| 411/1867 [10:40<37:47,  1.56s/it, v_num=cbeq, train/loss=3.910]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 412/1867 [10:46<38:01,  1.57s/it, v_num=cbeq, train/loss=3.910]\r",
+      "Epoch 0:  22%|▏| 412/1867 [10:46<38:01,  1.57s/it, v_num=cbeq, train/loss=3.780]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 413/1867 [10:46<37:54,  1.56s/it, v_num=cbeq, train/loss=3.780]\r",
+      "Epoch 0:  22%|▏| 413/1867 [10:46<37:54,  1.56s/it, v_num=cbeq, train/loss=1.420]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 414/1867 [10:46<37:47,  1.56s/it, v_num=cbeq, train/loss=1.420]\r",
+      "Epoch 0:  22%|▏| 414/1867 [10:46<37:47,  1.56s/it, v_num=cbeq, train/loss=2.520]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 415/1867 [10:46<37:41,  1.56s/it, v_num=cbeq, train/loss=2.520]\r",
+      "Epoch 0:  22%|▏| 415/1867 [10:46<37:41,  1.56s/it, v_num=cbeq, train/loss=2.770]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 416/1867 [10:51<37:54,  1.57s/it, v_num=cbeq, train/loss=2.770]\r",
+      "Epoch 0:  22%|▏| 416/1867 [10:51<37:54,  1.57s/it, v_num=cbeq, train/loss=2.840]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 417/1867 [10:52<37:47,  1.56s/it, v_num=cbeq, train/loss=2.840]\r",
+      "Epoch 0:  22%|▏| 417/1867 [10:52<37:47,  1.56s/it, v_num=cbeq, train/loss=3.770]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 418/1867 [10:52<37:41,  1.56s/it, v_num=cbeq, train/loss=3.770]\r",
+      "Epoch 0:  22%|▏| 418/1867 [10:52<37:41,  1.56s/it, v_num=cbeq, train/loss=3.530]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 419/1867 [10:52<37:34,  1.56s/it, v_num=cbeq, train/loss=3.530]\r",
+      "Epoch 0:  22%|▏| 419/1867 [10:52<37:34,  1.56s/it, v_num=cbeq, train/loss=1.640]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  22%|▏| 420/1867 [10:57<37:46,  1.57s/it, v_num=cbeq, train/loss=1.640]\r",
+      "Epoch 0:  22%|▏| 420/1867 [10:57<37:46,  1.57s/it, v_num=cbeq, train/loss=3.390]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 421/1867 [10:58<37:40,  1.56s/it, v_num=cbeq, train/loss=3.390]\r",
+      "Epoch 0:  23%|▏| 421/1867 [10:58<37:40,  1.56s/it, v_num=cbeq, train/loss=3.940]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 422/1867 [10:58<37:33,  1.56s/it, v_num=cbeq, train/loss=3.940]\r",
+      "Epoch 0:  23%|▏| 422/1867 [10:58<37:33,  1.56s/it, v_num=cbeq, train/loss=3.590]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 423/1867 [10:58<37:26,  1.56s/it, v_num=cbeq, train/loss=3.590]\r",
+      "Epoch 0:  23%|▏| 423/1867 [10:58<37:26,  1.56s/it, v_num=cbeq, train/loss=4.500]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 424/1867 [11:03<37:39,  1.57s/it, v_num=cbeq, train/loss=4.500]\r",
+      "Epoch 0:  23%|▏| 424/1867 [11:03<37:39,  1.57s/it, v_num=cbeq, train/loss=1.560]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 425/1867 [11:03<37:32,  1.56s/it, v_num=cbeq, train/loss=1.560]\r",
+      "Epoch 0:  23%|▏| 425/1867 [11:03<37:32,  1.56s/it, v_num=cbeq, train/loss=2.690]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 426/1867 [11:03<37:25,  1.56s/it, v_num=cbeq, train/loss=2.690]\r",
+      "Epoch 0:  23%|��| 426/1867 [11:03<37:25,  1.56s/it, v_num=cbeq, train/loss=3.080]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 427/1867 [11:04<37:19,  1.56s/it, v_num=cbeq, train/loss=3.080]\r",
+      "Epoch 0:  23%|▏| 427/1867 [11:04<37:19,  1.56s/it, v_num=cbeq, train/loss=4.910]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 428/1867 [11:09<37:31,  1.56s/it, v_num=cbeq, train/loss=4.910]\r",
+      "Epoch 0:  23%|▏| 428/1867 [11:09<37:31,  1.56s/it, v_num=cbeq, train/loss=3.890]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 429/1867 [11:09<37:25,  1.56s/it, v_num=cbeq, train/loss=3.890]\r",
+      "Epoch 0:  23%|▏| 429/1867 [11:09<37:25,  1.56s/it, v_num=cbeq, train/loss=4.340]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 430/1867 [11:09<37:18,  1.56s/it, v_num=cbeq, train/loss=4.340]\r",
+      "Epoch 0:  23%|▏| 430/1867 [11:09<37:18,  1.56s/it, v_num=cbeq, train/loss=3.330]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 431/1867 [11:09<37:12,  1.55s/it, v_num=cbeq, train/loss=3.330]\r",
+      "Epoch 0:  23%|▏| 431/1867 [11:09<37:12,  1.55s/it, v_num=cbeq, train/loss=3.090]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 432/1867 [11:15<37:24,  1.56s/it, v_num=cbeq, train/loss=3.090]\r",
+      "Epoch 0:  23%|▏| 432/1867 [11:15<37:24,  1.56s/it, v_num=cbeq, train/loss=2.780]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 433/1867 [11:16<37:19,  1.56s/it, v_num=cbeq, train/loss=2.780]\r",
+      "Epoch 0:  23%|▏| 433/1867 [11:16<37:19,  1.56s/it, v_num=cbeq, train/loss=4.090]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 434/1867 [11:16<37:12,  1.56s/it, v_num=cbeq, train/loss=4.090]\r",
+      "Epoch 0:  23%|▏| 434/1867 [11:16<37:12,  1.56s/it, v_num=cbeq, train/loss=2.720]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 435/1867 [11:16<37:06,  1.55s/it, v_num=cbeq, train/loss=2.720]\r",
+      "Epoch 0:  23%|▏| 435/1867 [11:16<37:06,  1.55s/it, v_num=cbeq, train/loss=3.340]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 436/1867 [11:21<37:17,  1.56s/it, v_num=cbeq, train/loss=3.340]\r",
+      "Epoch 0:  23%|▏| 436/1867 [11:21<37:17,  1.56s/it, v_num=cbeq, train/loss=2.780]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 437/1867 [11:21<37:11,  1.56s/it, v_num=cbeq, train/loss=2.780]\r",
+      "Epoch 0:  23%|▏| 437/1867 [11:21<37:11,  1.56s/it, v_num=cbeq, train/loss=2.170]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  23%|▏| 438/1867 [11:22<37:05,  1.56s/it, v_num=cbeq, train/loss=2.170]\r",
+      "Epoch 0:  23%|▏| 438/1867 [11:22<37:05,  1.56s/it, v_num=cbeq, train/loss=3.940]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 439/1867 [11:22<36:58,  1.55s/it, v_num=cbeq, train/loss=3.940]\r",
+      "Epoch 0:  24%|▏| 439/1867 [11:22<36:58,  1.55s/it, v_num=cbeq, train/loss=4.120]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 440/1867 [11:27<37:10,  1.56s/it, v_num=cbeq, train/loss=4.120]\r",
+      "Epoch 0:  24%|▏| 440/1867 [11:27<37:10,  1.56s/it, v_num=cbeq, train/loss=2.970]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 441/1867 [11:27<37:04,  1.56s/it, v_num=cbeq, train/loss=2.970]\r",
+      "Epoch 0:  24%|▏| 441/1867 [11:27<37:04,  1.56s/it, v_num=cbeq, train/loss=2.530]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 442/1867 [11:27<36:57,  1.56s/it, v_num=cbeq, train/loss=2.530]\r",
+      "Epoch 0:  24%|▏| 442/1867 [11:27<36:57,  1.56s/it, v_num=cbeq, train/loss=2.080]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 443/1867 [11:27<36:51,  1.55s/it, v_num=cbeq, train/loss=2.080]\r",
+      "Epoch 0:  24%|▏| 443/1867 [11:27<36:51,  1.55s/it, v_num=cbeq, train/loss=2.670]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 444/1867 [11:33<37:02,  1.56s/it, v_num=cbeq, train/loss=2.670]\r",
+      "Epoch 0:  24%|▏| 444/1867 [11:33<37:02,  1.56s/it, v_num=cbeq, train/loss=3.050]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 445/1867 [11:33<36:56,  1.56s/it, v_num=cbeq, train/loss=3.050]\r",
+      "Epoch 0:  24%|▏| 445/1867 [11:33<36:56,  1.56s/it, v_num=cbeq, train/loss=3.550]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 446/1867 [11:33<36:50,  1.56s/it, v_num=cbeq, train/loss=3.550]\r",
+      "Epoch 0:  24%|▏| 446/1867 [11:33<36:50,  1.56s/it, v_num=cbeq, train/loss=1.810]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 447/1867 [11:33<36:44,  1.55s/it, v_num=cbeq, train/loss=1.810]\r",
+      "Epoch 0:  24%|▏| 447/1867 [11:33<36:44,  1.55s/it, v_num=cbeq, train/loss=3.280]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 448/1867 [11:39<36:55,  1.56s/it, v_num=cbeq, train/loss=3.280]\r",
+      "Epoch 0:  24%|▏| 448/1867 [11:39<36:55,  1.56s/it, v_num=cbeq, train/loss=3.420]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 449/1867 [11:39<36:48,  1.56s/it, v_num=cbeq, train/loss=3.420]\r",
+      "Epoch 0:  24%|▏| 449/1867 [11:39<36:48,  1.56s/it, v_num=cbeq, train/loss=3.840]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 450/1867 [11:39<36:42,  1.55s/it, v_num=cbeq, train/loss=3.840]\r",
+      "Epoch 0:  24%|▏| 450/1867 [11:39<36:42,  1.55s/it, v_num=cbeq, train/loss=4.500]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 451/1867 [11:39<36:36,  1.55s/it, v_num=cbeq, train/loss=4.500]\r",
+      "Epoch 0:  24%|▏| 451/1867 [11:39<36:36,  1.55s/it, v_num=cbeq, train/loss=3.280]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 452/1867 [11:45<36:47,  1.56s/it, v_num=cbeq, train/loss=3.280]\r",
+      "Epoch 0:  24%|▏| 452/1867 [11:45<36:47,  1.56s/it, v_num=cbeq, train/loss=3.000]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 453/1867 [11:45<36:41,  1.56s/it, v_num=cbeq, train/loss=3.000]\r",
+      "Epoch 0:  24%|▏| 453/1867 [11:45<36:41,  1.56s/it, v_num=cbeq, train/loss=3.250]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 454/1867 [11:45<36:35,  1.55s/it, v_num=cbeq, train/loss=3.250]\r",
+      "Epoch 0:  24%|▏| 454/1867 [11:45<36:35,  1.55s/it, v_num=cbeq, train/loss=4.380]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 455/1867 [11:45<36:29,  1.55s/it, v_num=cbeq, train/loss=4.380]\r",
+      "Epoch 0:  24%|▏| 455/1867 [11:45<36:29,  1.55s/it, v_num=cbeq, train/loss=3.920]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 456/1867 [11:51<36:40,  1.56s/it, v_num=cbeq, train/loss=3.920]\r",
+      "Epoch 0:  24%|▏| 456/1867 [11:51<36:40,  1.56s/it, v_num=cbeq, train/loss=3.830]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  24%|▏| 457/1867 [11:51<36:34,  1.56s/it, v_num=cbeq, train/loss=3.830]\r",
+      "Epoch 0:  24%|▏| 457/1867 [11:51<36:34,  1.56s/it, v_num=cbeq, train/loss=3.190]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▏| 458/1867 [11:51<36:28,  1.55s/it, v_num=cbeq, train/loss=3.190]\r",
+      "Epoch 0:  25%|▏| 458/1867 [11:51<36:28,  1.55s/it, v_num=cbeq, train/loss=4.120]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▏| 459/1867 [11:51<36:22,  1.55s/it, v_num=cbeq, train/loss=4.120]\r",
+      "Epoch 0:  25%|▏| 459/1867 [11:51<36:22,  1.55s/it, v_num=cbeq, train/loss=4.660]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▏| 460/1867 [11:56<36:33,  1.56s/it, v_num=cbeq, train/loss=4.660]\r",
+      "Epoch 0:  25%|▏| 460/1867 [11:56<36:33,  1.56s/it, v_num=cbeq, train/loss=3.580]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▏| 461/1867 [11:57<36:26,  1.56s/it, v_num=cbeq, train/loss=3.580]\r",
+      "Epoch 0:  25%|▏| 461/1867 [11:57<36:26,  1.56s/it, v_num=cbeq, train/loss=2.300]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▏| 462/1867 [11:57<36:20,  1.55s/it, v_num=cbeq, train/loss=2.300]\r",
+      "Epoch 0:  25%|▏| 462/1867 [11:57<36:20,  1.55s/it, v_num=cbeq, train/loss=2.700]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▏| 463/1867 [11:57<36:14,  1.55s/it, v_num=cbeq, train/loss=2.700]\r",
+      "Epoch 0:  25%|▏| 463/1867 [11:57<36:14,  1.55s/it, v_num=cbeq, train/loss=4.280]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▏| 464/1867 [12:02<36:25,  1.56s/it, v_num=cbeq, train/loss=4.280]\r",
+      "Epoch 0:  25%|▏| 464/1867 [12:02<36:25,  1.56s/it, v_num=cbeq, train/loss=3.770]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▏| 465/1867 [12:02<36:19,  1.55s/it, v_num=cbeq, train/loss=3.770]\r",
+      "Epoch 0:  25%|▏| 465/1867 [12:02<36:19,  1.55s/it, v_num=cbeq, train/loss=3.940]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▏| 466/1867 [12:02<36:13,  1.55s/it, v_num=cbeq, train/loss=3.940]\r",
+      "Epoch 0:  25%|▏| 466/1867 [12:02<36:13,  1.55s/it, v_num=cbeq, train/loss=3.580]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▎| 467/1867 [12:02<36:07,  1.55s/it, v_num=cbeq, train/loss=3.580]\r",
+      "Epoch 0:  25%|▎| 467/1867 [12:02<36:07,  1.55s/it, v_num=cbeq, train/loss=4.620]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▎| 468/1867 [12:08<36:18,  1.56s/it, v_num=cbeq, train/loss=4.620]\r",
+      "Epoch 0:  25%|▎| 468/1867 [12:08<36:18,  1.56s/it, v_num=cbeq, train/loss=2.250]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▎| 469/1867 [12:08<36:12,  1.55s/it, v_num=cbeq, train/loss=2.250]\r",
+      "Epoch 0:  25%|▎| 469/1867 [12:08<36:12,  1.55s/it, v_num=cbeq, train/loss=3.640]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▎| 470/1867 [12:09<36:06,  1.55s/it, v_num=cbeq, train/loss=3.640]\r",
+      "Epoch 0:  25%|▎| 470/1867 [12:09<36:06,  1.55s/it, v_num=cbeq, train/loss=2.970]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▎| 471/1867 [12:09<36:00,  1.55s/it, v_num=cbeq, train/loss=2.970]\r",
+      "Epoch 0:  25%|▎| 471/1867 [12:09<36:00,  1.55s/it, v_num=cbeq, train/loss=4.250]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▎| 472/1867 [12:14<36:11,  1.56s/it, v_num=cbeq, train/loss=4.250]\r",
+      "Epoch 0:  25%|▎| 472/1867 [12:14<36:11,  1.56s/it, v_num=cbeq, train/loss=2.020]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▎| 473/1867 [12:14<36:05,  1.55s/it, v_num=cbeq, train/loss=2.020]\r",
+      "Epoch 0:  25%|▎| 473/1867 [12:14<36:05,  1.55s/it, v_num=cbeq, train/loss=4.910]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▎| 474/1867 [12:14<35:59,  1.55s/it, v_num=cbeq, train/loss=4.910]\r",
+      "Epoch 0:  25%|▎| 474/1867 [12:14<35:59,  1.55s/it, v_num=cbeq, train/loss=3.170]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▎| 475/1867 [12:14<35:53,  1.55s/it, v_num=cbeq, train/loss=3.170]\r",
+      "Epoch 0:  25%|▎| 475/1867 [12:14<35:53,  1.55s/it, v_num=cbeq, train/loss=4.060]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  25%|▎| 476/1867 [12:20<36:03,  1.56s/it, v_num=cbeq, train/loss=4.060]\r",
+      "Epoch 0:  25%|▎| 476/1867 [12:20<36:03,  1.56s/it, v_num=cbeq, train/loss=2.780]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 477/1867 [12:20<35:57,  1.55s/it, v_num=cbeq, train/loss=2.780]\r",
+      "Epoch 0:  26%|▎| 477/1867 [12:20<35:57,  1.55s/it, v_num=cbeq, train/loss=3.670]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 478/1867 [12:20<35:52,  1.55s/it, v_num=cbeq, train/loss=3.670]\r",
+      "Epoch 0:  26%|▎| 478/1867 [12:20<35:52,  1.55s/it, v_num=cbeq, train/loss=4.000]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 479/1867 [12:20<35:46,  1.55s/it, v_num=cbeq, train/loss=4.000]\r",
+      "Epoch 0:  26%|▎| 479/1867 [12:20<35:46,  1.55s/it, v_num=cbeq, train/loss=1.490]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 480/1867 [12:26<35:56,  1.55s/it, v_num=cbeq, train/loss=1.490]\r",
+      "Epoch 0:  26%|▎| 480/1867 [12:26<35:56,  1.55s/it, v_num=cbeq, train/loss=2.190]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 481/1867 [12:26<35:50,  1.55s/it, v_num=cbeq, train/loss=2.190]\r",
+      "Epoch 0:  26%|▎| 481/1867 [12:26<35:50,  1.55s/it, v_num=cbeq, train/loss=3.610]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 482/1867 [12:26<35:45,  1.55s/it, v_num=cbeq, train/loss=3.610]\r",
+      "Epoch 0:  26%|▎| 482/1867 [12:26<35:45,  1.55s/it, v_num=cbeq, train/loss=3.500]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 483/1867 [12:26<35:39,  1.55s/it, v_num=cbeq, train/loss=3.500]\r",
+      "Epoch 0:  26%|▎| 483/1867 [12:26<35:39,  1.55s/it, v_num=cbeq, train/loss=2.610]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 484/1867 [12:32<35:51,  1.56s/it, v_num=cbeq, train/loss=2.610]\r",
+      "Epoch 0:  26%|▎| 484/1867 [12:32<35:51,  1.56s/it, v_num=cbeq, train/loss=4.880]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 485/1867 [12:32<35:45,  1.55s/it, v_num=cbeq, train/loss=4.880]\r",
+      "Epoch 0:  26%|▎| 485/1867 [12:32<35:45,  1.55s/it, v_num=cbeq, train/loss=4.030]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 486/1867 [12:33<35:39,  1.55s/it, v_num=cbeq, train/loss=4.030]\r",
+      "Epoch 0:  26%|▎| 486/1867 [12:33<35:39,  1.55s/it, v_num=cbeq, train/loss=2.800]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 487/1867 [12:33<35:34,  1.55s/it, v_num=cbeq, train/loss=2.800]\r",
+      "Epoch 0:  26%|▎| 487/1867 [12:33<35:34,  1.55s/it, v_num=cbeq, train/loss=4.810]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 488/1867 [12:38<35:43,  1.55s/it, v_num=cbeq, train/loss=4.810]\r",
+      "Epoch 0:  26%|▎| 488/1867 [12:38<35:43,  1.55s/it, v_num=cbeq, train/loss=2.910]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 489/1867 [12:38<35:38,  1.55s/it, v_num=cbeq, train/loss=2.910]\r",
+      "Epoch 0:  26%|▎| 489/1867 [12:38<35:38,  1.55s/it, v_num=cbeq, train/loss=4.090]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 490/1867 [12:38<35:32,  1.55s/it, v_num=cbeq, train/loss=4.090]\r",
+      "Epoch 0:  26%|▎| 490/1867 [12:38<35:32,  1.55s/it, v_num=cbeq, train/loss=2.500]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 491/1867 [12:38<35:26,  1.55s/it, v_num=cbeq, train/loss=2.500]\r",
+      "Epoch 0:  26%|▎| 491/1867 [12:38<35:26,  1.55s/it, v_num=cbeq, train/loss=1.860]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 492/1867 [12:44<35:36,  1.55s/it, v_num=cbeq, train/loss=1.860]\r",
+      "Epoch 0:  26%|▎| 492/1867 [12:44<35:36,  1.55s/it, v_num=cbeq, train/loss=4.090]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 493/1867 [12:44<35:30,  1.55s/it, v_num=cbeq, train/loss=4.090]\r",
+      "Epoch 0:  26%|▎| 493/1867 [12:44<35:30,  1.55s/it, v_num=cbeq, train/loss=3.410]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  26%|▎| 494/1867 [12:44<35:25,  1.55s/it, v_num=cbeq, train/loss=3.410]\r",
+      "Epoch 0:  26%|▎| 494/1867 [12:44<35:25,  1.55s/it, v_num=cbeq, train/loss=3.080]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 495/1867 [12:44<35:19,  1.54s/it, v_num=cbeq, train/loss=3.080]\r",
+      "Epoch 0:  27%|▎| 495/1867 [12:44<35:19,  1.54s/it, v_num=cbeq, train/loss=4.690]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 496/1867 [12:50<35:28,  1.55s/it, v_num=cbeq, train/loss=4.690]\r",
+      "Epoch 0:  27%|▎| 496/1867 [12:50<35:28,  1.55s/it, v_num=cbeq, train/loss=2.770]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 497/1867 [12:50<35:23,  1.55s/it, v_num=cbeq, train/loss=2.770]\r",
+      "Epoch 0:  27%|▎| 497/1867 [12:50<35:23,  1.55s/it, v_num=cbeq, train/loss=1.860]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 498/1867 [12:50<35:17,  1.55s/it, v_num=cbeq, train/loss=1.860]\r",
+      "Epoch 0:  27%|▎| 498/1867 [12:50<35:17,  1.55s/it, v_num=cbeq, train/loss=2.880]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 499/1867 [12:50<35:12,  1.54s/it, v_num=cbeq, train/loss=2.880]\r",
+      "Epoch 0:  27%|▎| 499/1867 [12:50<35:12,  1.54s/it, v_num=cbeq, train/loss=2.920]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 500/1867 [12:56<35:22,  1.55s/it, v_num=cbeq, train/loss=2.920]\r",
+      "Epoch 0:  27%|▎| 500/1867 [12:56<35:22,  1.55s/it, v_num=cbeq, train/loss=3.860]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 501/1867 [12:56<35:17,  1.55s/it, v_num=cbeq, train/loss=3.860]\r",
+      "Epoch 0:  27%|▎| 501/1867 [12:56<35:17,  1.55s/it, v_num=cbeq, train/loss=3.940]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 502/1867 [12:56<35:11,  1.55s/it, v_num=cbeq, train/loss=3.940]\r",
+      "Epoch 0:  27%|▎| 502/1867 [12:56<35:11,  1.55s/it, v_num=cbeq, train/loss=2.980]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 503/1867 [12:56<35:06,  1.54s/it, v_num=cbeq, train/loss=2.980]\r",
+      "Epoch 0:  27%|▎| 503/1867 [12:56<35:06,  1.54s/it, v_num=cbeq, train/loss=1.780]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 504/1867 [13:02<35:15,  1.55s/it, v_num=cbeq, train/loss=1.780]\r",
+      "Epoch 0:  27%|▎| 504/1867 [13:02<35:15,  1.55s/it, v_num=cbeq, train/loss=3.440]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 505/1867 [13:02<35:09,  1.55s/it, v_num=cbeq, train/loss=3.440]\r",
+      "Epoch 0:  27%|▎| 505/1867 [13:02<35:09,  1.55s/it, v_num=cbeq, train/loss=3.620]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 506/1867 [13:02<35:04,  1.55s/it, v_num=cbeq, train/loss=3.620]\r",
+      "Epoch 0:  27%|▎| 506/1867 [13:02<35:04,  1.55s/it, v_num=cbeq, train/loss=4.880]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 507/1867 [13:03<35:02,  1.55s/it, v_num=cbeq, train/loss=4.880]\r",
+      "Epoch 0:  27%|▎| 507/1867 [13:03<35:02,  1.55s/it, v_num=cbeq, train/loss=3.580]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 508/1867 [13:09<35:11,  1.55s/it, v_num=cbeq, train/loss=3.580]\r",
+      "Epoch 0:  27%|▎| 508/1867 [13:09<35:11,  1.55s/it, v_num=cbeq, train/loss=3.780]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 509/1867 [13:09<35:06,  1.55s/it, v_num=cbeq, train/loss=3.780]\r",
+      "Epoch 0:  27%|▎| 509/1867 [13:09<35:06,  1.55s/it, v_num=cbeq, train/loss=2.640]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 510/1867 [13:09<35:00,  1.55s/it, v_num=cbeq, train/loss=2.640]\r",
+      "Epoch 0:  27%|▎| 510/1867 [13:09<35:00,  1.55s/it, v_num=cbeq, train/loss=2.560]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 511/1867 [13:09<34:55,  1.55s/it, v_num=cbeq, train/loss=2.560]\r",
+      "Epoch 0:  27%|▎| 511/1867 [13:09<34:55,  1.55s/it, v_num=cbeq, train/loss=3.670]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 512/1867 [13:15<35:04,  1.55s/it, v_num=cbeq, train/loss=3.670]\r",
+      "Epoch 0:  27%|▎| 512/1867 [13:15<35:04,  1.55s/it, v_num=cbeq, train/loss=3.440]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  27%|▎| 513/1867 [13:15<34:58,  1.55s/it, v_num=cbeq, train/loss=3.440]\r",
+      "Epoch 0:  27%|▎| 513/1867 [13:15<34:58,  1.55s/it, v_num=cbeq, train/loss=2.250]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 514/1867 [13:15<34:53,  1.55s/it, v_num=cbeq, train/loss=2.250]\r",
+      "Epoch 0:  28%|▎| 514/1867 [13:15<34:53,  1.55s/it, v_num=cbeq, train/loss=2.410]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 515/1867 [13:15<34:47,  1.54s/it, v_num=cbeq, train/loss=2.410]\r",
+      "Epoch 0:  28%|▎| 515/1867 [13:15<34:47,  1.54s/it, v_num=cbeq, train/loss=3.440]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 516/1867 [13:20<34:57,  1.55s/it, v_num=cbeq, train/loss=3.440]\r",
+      "Epoch 0:  28%|▎| 516/1867 [13:20<34:57,  1.55s/it, v_num=cbeq, train/loss=1.840]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 517/1867 [13:21<34:51,  1.55s/it, v_num=cbeq, train/loss=1.840]\r",
+      "Epoch 0:  28%|▎| 517/1867 [13:21<34:51,  1.55s/it, v_num=cbeq, train/loss=3.500]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 518/1867 [13:21<34:46,  1.55s/it, v_num=cbeq, train/loss=3.500]\r",
+      "Epoch 0:  28%|▎| 518/1867 [13:21<34:46,  1.55s/it, v_num=cbeq, train/loss=1.960]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 519/1867 [13:21<34:41,  1.54s/it, v_num=cbeq, train/loss=1.960]\r",
+      "Epoch 0:  28%|▎| 519/1867 [13:21<34:41,  1.54s/it, v_num=cbeq, train/loss=2.160]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 520/1867 [13:26<34:49,  1.55s/it, v_num=cbeq, train/loss=2.160]\r",
+      "Epoch 0:  28%|▎| 520/1867 [13:26<34:49,  1.55s/it, v_num=cbeq, train/loss=3.230]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 521/1867 [13:26<34:44,  1.55s/it, v_num=cbeq, train/loss=3.230]\r",
+      "Epoch 0:  28%|▎| 521/1867 [13:26<34:44,  1.55s/it, v_num=cbeq, train/loss=4.250]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 522/1867 [13:26<34:38,  1.55s/it, v_num=cbeq, train/loss=4.250]\r",
+      "Epoch 0:  28%|▎| 522/1867 [13:26<34:38,  1.55s/it, v_num=cbeq, train/loss=4.380]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 523/1867 [13:26<34:33,  1.54s/it, v_num=cbeq, train/loss=4.380]\r",
+      "Epoch 0:  28%|▎| 523/1867 [13:26<34:33,  1.54s/it, v_num=cbeq, train/loss=4.470]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 524/1867 [13:32<34:42,  1.55s/it, v_num=cbeq, train/loss=4.470]\r",
+      "Epoch 0:  28%|▎| 524/1867 [13:32<34:42,  1.55s/it, v_num=cbeq, train/loss=4.690]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 525/1867 [13:32<34:36,  1.55s/it, v_num=cbeq, train/loss=4.690]\r",
+      "Epoch 0:  28%|▎| 525/1867 [13:32<34:36,  1.55s/it, v_num=cbeq, train/loss=3.720]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 526/1867 [13:32<34:31,  1.54s/it, v_num=cbeq, train/loss=3.720]\r",
+      "Epoch 0:  28%|▎| 526/1867 [13:32<34:31,  1.54s/it, v_num=cbeq, train/loss=3.860]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 527/1867 [13:32<34:26,  1.54s/it, v_num=cbeq, train/loss=3.860]\r",
+      "Epoch 0:  28%|▎| 527/1867 [13:32<34:26,  1.54s/it, v_num=cbeq, train/loss=2.830]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 528/1867 [13:38<34:35,  1.55s/it, v_num=cbeq, train/loss=2.830]\r",
+      "Epoch 0:  28%|▎| 528/1867 [13:38<34:35,  1.55s/it, v_num=cbeq, train/loss=3.390]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 529/1867 [13:38<34:30,  1.55s/it, v_num=cbeq, train/loss=3.390]\r",
+      "Epoch 0:  28%|▎| 529/1867 [13:38<34:30,  1.55s/it, v_num=cbeq, train/loss=0.945]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 530/1867 [13:38<34:25,  1.54s/it, v_num=cbeq, train/loss=0.945]\r",
+      "Epoch 0:  28%|▎| 530/1867 [13:38<34:25,  1.54s/it, v_num=cbeq, train/loss=1.040]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 531/1867 [13:38<34:19,  1.54s/it, v_num=cbeq, train/loss=1.040]\r",
+      "Epoch 0:  28%|▎| 531/1867 [13:38<34:19,  1.54s/it, v_num=cbeq, train/loss=1.800]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  28%|▎| 532/1867 [13:44<34:28,  1.55s/it, v_num=cbeq, train/loss=1.800]\r",
+      "Epoch 0:  28%|▎| 532/1867 [13:44<34:28,  1.55s/it, v_num=cbeq, train/loss=3.890]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 533/1867 [13:44<34:23,  1.55s/it, v_num=cbeq, train/loss=3.890]\r",
+      "Epoch 0:  29%|▎| 533/1867 [13:44<34:23,  1.55s/it, v_num=cbeq, train/loss=2.550]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 534/1867 [13:44<34:18,  1.54s/it, v_num=cbeq, train/loss=2.550]\r",
+      "Epoch 0:  29%|▎| 534/1867 [13:44<34:18,  1.54s/it, v_num=cbeq, train/loss=3.060]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 535/1867 [13:44<34:13,  1.54s/it, v_num=cbeq, train/loss=3.060]\r",
+      "Epoch 0:  29%|▎| 535/1867 [13:44<34:13,  1.54s/it, v_num=cbeq, train/loss=3.390]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 536/1867 [13:50<34:22,  1.55s/it, v_num=cbeq, train/loss=3.390]\r",
+      "Epoch 0:  29%|▎| 536/1867 [13:50<34:22,  1.55s/it, v_num=cbeq, train/loss=4.590]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 537/1867 [13:50<34:16,  1.55s/it, v_num=cbeq, train/loss=4.590]\r",
+      "Epoch 0:  29%|▎| 537/1867 [13:50<34:16,  1.55s/it, v_num=cbeq, train/loss=2.810]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 538/1867 [13:50<34:11,  1.54s/it, v_num=cbeq, train/loss=2.810]\r",
+      "Epoch 0:  29%|▎| 538/1867 [13:50<34:11,  1.54s/it, v_num=cbeq, train/loss=4.160]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 539/1867 [13:50<34:06,  1.54s/it, v_num=cbeq, train/loss=4.160]\r",
+      "Epoch 0:  29%|▎| 539/1867 [13:50<34:06,  1.54s/it, v_num=cbeq, train/loss=2.550]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 540/1867 [13:56<34:15,  1.55s/it, v_num=cbeq, train/loss=2.550]\r",
+      "Epoch 0:  29%|▎| 540/1867 [13:56<34:15,  1.55s/it, v_num=cbeq, train/loss=2.170]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 541/1867 [13:56<34:10,  1.55s/it, v_num=cbeq, train/loss=2.170]\r",
+      "Epoch 0:  29%|▎| 541/1867 [13:56<34:10,  1.55s/it, v_num=cbeq, train/loss=3.170]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 542/1867 [13:56<34:04,  1.54s/it, v_num=cbeq, train/loss=3.170]\r",
+      "Epoch 0:  29%|▎| 542/1867 [13:56<34:04,  1.54s/it, v_num=cbeq, train/loss=1.860]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 543/1867 [13:56<33:59,  1.54s/it, v_num=cbeq, train/loss=1.860]\r",
+      "Epoch 0:  29%|▎| 543/1867 [13:56<33:59,  1.54s/it, v_num=cbeq, train/loss=3.050]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 544/1867 [14:02<34:07,  1.55s/it, v_num=cbeq, train/loss=3.050]\r",
+      "Epoch 0:  29%|▎| 544/1867 [14:02<34:07,  1.55s/it, v_num=cbeq, train/loss=2.300]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 545/1867 [14:02<34:02,  1.55s/it, v_num=cbeq, train/loss=2.300]\r",
+      "Epoch 0:  29%|▎| 545/1867 [14:02<34:02,  1.55s/it, v_num=cbeq, train/loss=0.988]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 546/1867 [14:02<33:57,  1.54s/it, v_num=cbeq, train/loss=0.988]\r",
+      "Epoch 0:  29%|▎| 546/1867 [14:02<33:57,  1.54s/it, v_num=cbeq, train/loss=4.620]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 547/1867 [14:02<33:52,  1.54s/it, v_num=cbeq, train/loss=4.620]\r",
+      "Epoch 0:  29%|▎| 547/1867 [14:02<33:52,  1.54s/it, v_num=cbeq, train/loss=3.770]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 548/1867 [14:08<34:01,  1.55s/it, v_num=cbeq, train/loss=3.770]\r",
+      "Epoch 0:  29%|▎| 548/1867 [14:08<34:01,  1.55s/it, v_num=cbeq, train/loss=3.560]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 549/1867 [14:08<33:56,  1.55s/it, v_num=cbeq, train/loss=3.560]\r",
+      "Epoch 0:  29%|▎| 549/1867 [14:08<33:56,  1.55s/it, v_num=cbeq, train/loss=3.920]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  29%|▎| 550/1867 [14:08<33:51,  1.54s/it, v_num=cbeq, train/loss=3.920]\r",
+      "Epoch 0:  29%|▎| 550/1867 [14:08<33:51,  1.54s/it, v_num=cbeq, train/loss=2.840]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 551/1867 [14:08<33:46,  1.54s/it, v_num=cbeq, train/loss=2.840]\r",
+      "Epoch 0:  30%|▎| 551/1867 [14:08<33:46,  1.54s/it, v_num=cbeq, train/loss=3.840]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 552/1867 [14:14<33:55,  1.55s/it, v_num=cbeq, train/loss=3.840]\r",
+      "Epoch 0:  30%|▎| 552/1867 [14:14<33:55,  1.55s/it, v_num=cbeq, train/loss=1.730]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 553/1867 [14:14<33:50,  1.55s/it, v_num=cbeq, train/loss=1.730]\r",
+      "Epoch 0:  30%|▎| 553/1867 [14:14<33:50,  1.55s/it, v_num=cbeq, train/loss=1.290]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 554/1867 [14:14<33:45,  1.54s/it, v_num=cbeq, train/loss=1.290]\r",
+      "Epoch 0:  30%|▎| 554/1867 [14:14<33:45,  1.54s/it, v_num=cbeq, train/loss=3.800]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 555/1867 [14:14<33:40,  1.54s/it, v_num=cbeq, train/loss=3.800]\r",
+      "Epoch 0:  30%|▎| 555/1867 [14:14<33:40,  1.54s/it, v_num=cbeq, train/loss=3.620]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 556/1867 [14:20<33:48,  1.55s/it, v_num=cbeq, train/loss=3.620]\r",
+      "Epoch 0:  30%|▎| 556/1867 [14:20<33:48,  1.55s/it, v_num=cbeq, train/loss=2.810]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 557/1867 [14:20<33:43,  1.54s/it, v_num=cbeq, train/loss=2.810]\r",
+      "Epoch 0:  30%|▎| 557/1867 [14:20<33:43,  1.54s/it, v_num=cbeq, train/loss=2.750]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 558/1867 [14:20<33:38,  1.54s/it, v_num=cbeq, train/loss=2.750]\r",
+      "Epoch 0:  30%|▎| 558/1867 [14:20<33:38,  1.54s/it, v_num=cbeq, train/loss=3.390]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 559/1867 [14:20<33:33,  1.54s/it, v_num=cbeq, train/loss=3.390]\r",
+      "Epoch 0:  30%|▎| 559/1867 [14:20<33:33,  1.54s/it, v_num=cbeq, train/loss=1.980]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 560/1867 [14:25<33:40,  1.55s/it, v_num=cbeq, train/loss=1.980]\r",
+      "Epoch 0:  30%|▎| 560/1867 [14:25<33:40,  1.55s/it, v_num=cbeq, train/loss=2.640]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 561/1867 [14:25<33:35,  1.54s/it, v_num=cbeq, train/loss=2.640]\r",
+      "Epoch 0:  30%|▎| 561/1867 [14:25<33:35,  1.54s/it, v_num=cbeq, train/loss=3.270]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 562/1867 [14:25<33:30,  1.54s/it, v_num=cbeq, train/loss=3.270]\r",
+      "Epoch 0:  30%|▎| 562/1867 [14:25<33:30,  1.54s/it, v_num=cbeq, train/loss=3.200]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 563/1867 [14:26<33:25,  1.54s/it, v_num=cbeq, train/loss=3.200]\r",
+      "Epoch 0:  30%|▎| 563/1867 [14:26<33:25,  1.54s/it, v_num=cbeq, train/loss=2.550]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 564/1867 [14:31<33:34,  1.55s/it, v_num=cbeq, train/loss=2.550]\r",
+      "Epoch 0:  30%|▎| 564/1867 [14:31<33:34,  1.55s/it, v_num=cbeq, train/loss=3.480]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 565/1867 [14:31<33:29,  1.54s/it, v_num=cbeq, train/loss=3.480]\r",
+      "Epoch 0:  30%|▎| 565/1867 [14:31<33:29,  1.54s/it, v_num=cbeq, train/loss=3.910]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 566/1867 [14:31<33:24,  1.54s/it, v_num=cbeq, train/loss=3.910]\r",
+      "Epoch 0:  30%|▎| 566/1867 [14:31<33:24,  1.54s/it, v_num=cbeq, train/loss=3.160]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 567/1867 [14:31<33:19,  1.54s/it, v_num=cbeq, train/loss=3.160]\r",
+      "Epoch 0:  30%|▎| 567/1867 [14:31<33:19,  1.54s/it, v_num=cbeq, train/loss=3.690]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 568/1867 [14:37<33:27,  1.55s/it, v_num=cbeq, train/loss=3.690]\r",
+      "Epoch 0:  30%|▎| 568/1867 [14:37<33:27,  1.55s/it, v_num=cbeq, train/loss=4.000]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  30%|▎| 569/1867 [14:37<33:22,  1.54s/it, v_num=cbeq, train/loss=4.000]\r",
+      "Epoch 0:  30%|▎| 569/1867 [14:37<33:22,  1.54s/it, v_num=cbeq, train/loss=4.190]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 570/1867 [14:37<33:17,  1.54s/it, v_num=cbeq, train/loss=4.190]\r",
+      "Epoch 0:  31%|▎| 570/1867 [14:37<33:17,  1.54s/it, v_num=cbeq, train/loss=3.080]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 571/1867 [14:38<33:12,  1.54s/it, v_num=cbeq, train/loss=3.080]\r",
+      "Epoch 0:  31%|▎| 571/1867 [14:38<33:12,  1.54s/it, v_num=cbeq, train/loss=2.550]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 572/1867 [14:44<33:23,  1.55s/it, v_num=cbeq, train/loss=2.550]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 572/1867 [14:44<33:23,  1.55s/it, v_num=cbeq, train/loss=3.030]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 573/1867 [14:44<33:18,  1.54s/it, v_num=cbeq, train/loss=3.030]\r",
+      "Epoch 0:  31%|▎| 573/1867 [14:44<33:18,  1.54s/it, v_num=cbeq, train/loss=3.530]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 574/1867 [14:44<33:13,  1.54s/it, v_num=cbeq, train/loss=3.530]\r",
+      "Epoch 0:  31%|▎| 574/1867 [14:44<33:13,  1.54s/it, v_num=cbeq, train/loss=3.110]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 575/1867 [14:45<33:08,  1.54s/it, v_num=cbeq, train/loss=3.110]\r",
+      "Epoch 0:  31%|▎| 575/1867 [14:45<33:08,  1.54s/it, v_num=cbeq, train/loss=3.690]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 576/1867 [14:50<33:16,  1.55s/it, v_num=cbeq, train/loss=3.690]\r",
+      "Epoch 0:  31%|▎| 576/1867 [14:50<33:16,  1.55s/it, v_num=cbeq, train/loss=4.310]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 577/1867 [14:50<33:11,  1.54s/it, v_num=cbeq, train/loss=4.310]\r",
+      "Epoch 0:  31%|▎| 577/1867 [14:50<33:11,  1.54s/it, v_num=cbeq, train/loss=1.710]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 578/1867 [14:50<33:06,  1.54s/it, v_num=cbeq, train/loss=1.710]\r",
+      "Epoch 0:  31%|▎| 578/1867 [14:50<33:06,  1.54s/it, v_num=cbeq, train/loss=3.620]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 579/1867 [14:50<33:01,  1.54s/it, v_num=cbeq, train/loss=3.620]\r",
+      "Epoch 0:  31%|▎| 579/1867 [14:50<33:01,  1.54s/it, v_num=cbeq, train/loss=4.500]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 580/1867 [14:56<33:08,  1.55s/it, v_num=cbeq, train/loss=4.500]\r",
+      "Epoch 0:  31%|▎| 580/1867 [14:56<33:08,  1.55s/it, v_num=cbeq, train/loss=3.080]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 581/1867 [14:56<33:04,  1.54s/it, v_num=cbeq, train/loss=3.080]\r",
+      "Epoch 0:  31%|▎| 581/1867 [14:56<33:04,  1.54s/it, v_num=cbeq, train/loss=2.880]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 582/1867 [14:56<32:59,  1.54s/it, v_num=cbeq, train/loss=2.880]\r",
+      "Epoch 0:  31%|▎| 582/1867 [14:56<32:59,  1.54s/it, v_num=cbeq, train/loss=3.030]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 583/1867 [14:56<32:54,  1.54s/it, v_num=cbeq, train/loss=3.030]\r",
+      "Epoch 0:  31%|▎| 583/1867 [14:56<32:54,  1.54s/it, v_num=cbeq, train/loss=2.720]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 584/1867 [15:02<33:02,  1.54s/it, v_num=cbeq, train/loss=2.720]\r",
+      "Epoch 0:  31%|▎| 584/1867 [15:02<33:02,  1.54s/it, v_num=cbeq, train/loss=4.000]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 585/1867 [15:02<32:57,  1.54s/it, v_num=cbeq, train/loss=4.000]\r",
+      "Epoch 0:  31%|▎| 585/1867 [15:02<32:57,  1.54s/it, v_num=cbeq, train/loss=4.280]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 586/1867 [15:02<32:52,  1.54s/it, v_num=cbeq, train/loss=4.280]\r",
+      "Epoch 0:  31%|▎| 586/1867 [15:02<32:52,  1.54s/it, v_num=cbeq, train/loss=2.300]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 587/1867 [15:02<32:47,  1.54s/it, v_num=cbeq, train/loss=2.300]\r",
+      "Epoch 0:  31%|▎| 587/1867 [15:02<32:47,  1.54s/it, v_num=cbeq, train/loss=3.620]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  31%|▎| 588/1867 [15:08<32:55,  1.54s/it, v_num=cbeq, train/loss=3.620]\r",
+      "Epoch 0:  31%|▎| 588/1867 [15:08<32:55,  1.54s/it, v_num=cbeq, train/loss=4.560]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 589/1867 [15:08<32:50,  1.54s/it, v_num=cbeq, train/loss=4.560]\r",
+      "Epoch 0:  32%|▎| 589/1867 [15:08<32:50,  1.54s/it, v_num=cbeq, train/loss=4.470]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 590/1867 [15:08<32:45,  1.54s/it, v_num=cbeq, train/loss=4.470]\r",
+      "Epoch 0:  32%|▎| 590/1867 [15:08<32:45,  1.54s/it, v_num=cbeq, train/loss=4.090]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 591/1867 [15:08<32:41,  1.54s/it, v_num=cbeq, train/loss=4.090]\r",
+      "Epoch 0:  32%|▎| 591/1867 [15:08<32:41,  1.54s/it, v_num=cbeq, train/loss=2.720]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 592/1867 [15:14<32:48,  1.54s/it, v_num=cbeq, train/loss=2.720]\r",
+      "Epoch 0:  32%|▎| 592/1867 [15:14<32:48,  1.54s/it, v_num=cbeq, train/loss=2.970]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 593/1867 [15:14<32:43,  1.54s/it, v_num=cbeq, train/loss=2.970]\r",
+      "Epoch 0:  32%|▎| 593/1867 [15:14<32:43,  1.54s/it, v_num=cbeq, train/loss=2.550]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 594/1867 [15:14<32:39,  1.54s/it, v_num=cbeq, train/loss=2.550]\r",
+      "Epoch 0:  32%|▎| 594/1867 [15:14<32:39,  1.54s/it, v_num=cbeq, train/loss=4.030]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 595/1867 [15:14<32:34,  1.54s/it, v_num=cbeq, train/loss=4.030]\r",
+      "Epoch 0:  32%|▎| 595/1867 [15:14<32:34,  1.54s/it, v_num=cbeq, train/loss=3.470]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 596/1867 [15:20<32:42,  1.54s/it, v_num=cbeq, train/loss=3.470]\r",
+      "Epoch 0:  32%|▎| 596/1867 [15:20<32:42,  1.54s/it, v_num=cbeq, train/loss=2.050]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 597/1867 [15:20<32:37,  1.54s/it, v_num=cbeq, train/loss=2.050]\r",
+      "Epoch 0:  32%|▎| 597/1867 [15:20<32:37,  1.54s/it, v_num=cbeq, train/loss=3.620]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 598/1867 [15:20<32:33,  1.54s/it, v_num=cbeq, train/loss=3.620]\r",
+      "Epoch 0:  32%|▎| 598/1867 [15:20<32:33,  1.54s/it, v_num=cbeq, train/loss=3.190]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 599/1867 [15:20<32:28,  1.54s/it, v_num=cbeq, train/loss=3.190]\r",
+      "Epoch 0:  32%|▎| 599/1867 [15:20<32:28,  1.54s/it, v_num=cbeq, train/loss=1.340]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 600/1867 [15:26<32:35,  1.54s/it, v_num=cbeq, train/loss=1.340]\r",
+      "Epoch 0:  32%|▎| 600/1867 [15:26<32:35,  1.54s/it, v_num=cbeq, train/loss=4.590]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 601/1867 [15:26<32:31,  1.54s/it, v_num=cbeq, train/loss=4.590]\r",
+      "Epoch 0:  32%|▎| 601/1867 [15:26<32:31,  1.54s/it, v_num=cbeq, train/loss=2.230]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 602/1867 [15:26<32:26,  1.54s/it, v_num=cbeq, train/loss=2.230]\r",
+      "Epoch 0:  32%|▎| 602/1867 [15:26<32:26,  1.54s/it, v_num=cbeq, train/loss=2.610]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 603/1867 [15:26<32:21,  1.54s/it, v_num=cbeq, train/loss=2.610]\r",
+      "Epoch 0:  32%|▎| 603/1867 [15:26<32:21,  1.54s/it, v_num=cbeq, train/loss=2.970]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 604/1867 [15:31<32:28,  1.54s/it, v_num=cbeq, train/loss=2.970]\r",
+      "Epoch 0:  32%|▎| 604/1867 [15:31<32:28,  1.54s/it, v_num=cbeq, train/loss=3.170]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 605/1867 [15:32<32:24,  1.54s/it, v_num=cbeq, train/loss=3.170]\r",
+      "Epoch 0:  32%|▎| 605/1867 [15:32<32:24,  1.54s/it, v_num=cbeq, train/loss=1.480]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  32%|▎| 606/1867 [15:32<32:19,  1.54s/it, v_num=cbeq, train/loss=1.480]\r",
+      "Epoch 0:  32%|▎| 606/1867 [15:32<32:19,  1.54s/it, v_num=cbeq, train/loss=2.340]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 607/1867 [15:32<32:14,  1.54s/it, v_num=cbeq, train/loss=2.340]\r",
+      "Epoch 0:  33%|▎| 607/1867 [15:32<32:14,  1.54s/it, v_num=cbeq, train/loss=3.970]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 608/1867 [15:37<32:22,  1.54s/it, v_num=cbeq, train/loss=3.970]\r",
+      "Epoch 0:  33%|▎| 608/1867 [15:37<32:22,  1.54s/it, v_num=cbeq, train/loss=2.110]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 609/1867 [15:37<32:17,  1.54s/it, v_num=cbeq, train/loss=2.110]\r",
+      "Epoch 0:  33%|▎| 609/1867 [15:37<32:17,  1.54s/it, v_num=cbeq, train/loss=2.690]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 610/1867 [15:37<32:12,  1.54s/it, v_num=cbeq, train/loss=2.690]\r",
+      "Epoch 0:  33%|▎| 610/1867 [15:37<32:12,  1.54s/it, v_num=cbeq, train/loss=3.830]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 611/1867 [15:38<32:08,  1.54s/it, v_num=cbeq, train/loss=3.830]\r",
+      "Epoch 0:  33%|▎| 611/1867 [15:38<32:08,  1.54s/it, v_num=cbeq, train/loss=4.590]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 612/1867 [15:43<32:15,  1.54s/it, v_num=cbeq, train/loss=4.590]\r",
+      "Epoch 0:  33%|▎| 612/1867 [15:43<32:15,  1.54s/it, v_num=cbeq, train/loss=3.270]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 613/1867 [15:43<32:10,  1.54s/it, v_num=cbeq, train/loss=3.270]\r",
+      "Epoch 0:  33%|▎| 613/1867 [15:43<32:10,  1.54s/it, v_num=cbeq, train/loss=3.810]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 614/1867 [15:43<32:06,  1.54s/it, v_num=cbeq, train/loss=3.810]\r",
+      "Epoch 0:  33%|▎| 614/1867 [15:43<32:06,  1.54s/it, v_num=cbeq, train/loss=3.610]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 615/1867 [15:43<32:01,  1.53s/it, v_num=cbeq, train/loss=3.610]\r",
+      "Epoch 0:  33%|▎| 615/1867 [15:43<32:01,  1.53s/it, v_num=cbeq, train/loss=2.470]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 616/1867 [15:49<32:08,  1.54s/it, v_num=cbeq, train/loss=2.470]\r",
+      "Epoch 0:  33%|▎| 616/1867 [15:49<32:08,  1.54s/it, v_num=cbeq, train/loss=3.250]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 617/1867 [15:49<32:03,  1.54s/it, v_num=cbeq, train/loss=3.250]\r",
+      "Epoch 0:  33%|▎| 617/1867 [15:49<32:03,  1.54s/it, v_num=cbeq, train/loss=3.830]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 618/1867 [15:49<31:59,  1.54s/it, v_num=cbeq, train/loss=3.830]\r",
+      "Epoch 0:  33%|▎| 618/1867 [15:49<31:59,  1.54s/it, v_num=cbeq, train/loss=3.090]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 619/1867 [15:49<31:54,  1.53s/it, v_num=cbeq, train/loss=3.090]\r",
+      "Epoch 0:  33%|▎| 619/1867 [15:49<31:54,  1.53s/it, v_num=cbeq, train/loss=1.920]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 620/1867 [15:55<32:01,  1.54s/it, v_num=cbeq, train/loss=1.920]\r",
+      "Epoch 0:  33%|▎| 620/1867 [15:55<32:01,  1.54s/it, v_num=cbeq, train/loss=3.910]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 621/1867 [15:55<31:56,  1.54s/it, v_num=cbeq, train/loss=3.910]\r",
+      "Epoch 0:  33%|▎| 621/1867 [15:55<31:56,  1.54s/it, v_num=cbeq, train/loss=4.000]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 622/1867 [15:55<31:52,  1.54s/it, v_num=cbeq, train/loss=4.000]\r",
+      "Epoch 0:  33%|▎| 622/1867 [15:55<31:52,  1.54s/it, v_num=cbeq, train/loss=3.450]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 623/1867 [15:55<31:47,  1.53s/it, v_num=cbeq, train/loss=3.450]\r",
+      "Epoch 0:  33%|▎| 623/1867 [15:55<31:47,  1.53s/it, v_num=cbeq, train/loss=1.980]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 624/1867 [16:01<31:54,  1.54s/it, v_num=cbeq, train/loss=1.980]\r",
+      "Epoch 0:  33%|▎| 624/1867 [16:01<31:54,  1.54s/it, v_num=cbeq, train/loss=2.470]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  33%|▎| 625/1867 [16:01<31:50,  1.54s/it, v_num=cbeq, train/loss=2.470]\r",
+      "Epoch 0:  33%|▎| 625/1867 [16:01<31:50,  1.54s/it, v_num=cbeq, train/loss=2.980]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 626/1867 [16:01<31:45,  1.54s/it, v_num=cbeq, train/loss=2.980]\r",
+      "Epoch 0:  34%|▎| 626/1867 [16:01<31:45,  1.54s/it, v_num=cbeq, train/loss=3.420]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 627/1867 [16:01<31:41,  1.53s/it, v_num=cbeq, train/loss=3.420]\r",
+      "Epoch 0:  34%|▎| 627/1867 [16:01<31:41,  1.53s/it, v_num=cbeq, train/loss=2.550]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 628/1867 [16:07<31:47,  1.54s/it, v_num=cbeq, train/loss=2.550]\r",
+      "Epoch 0:  34%|▎| 628/1867 [16:07<31:47,  1.54s/it, v_num=cbeq, train/loss=2.920]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 629/1867 [16:07<31:43,  1.54s/it, v_num=cbeq, train/loss=2.920]\r",
+      "Epoch 0:  34%|▎| 629/1867 [16:07<31:43,  1.54s/it, v_num=cbeq, train/loss=2.910]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 630/1867 [16:07<31:39,  1.54s/it, v_num=cbeq, train/loss=2.910]\r",
+      "Epoch 0:  34%|▎| 630/1867 [16:07<31:39,  1.54s/it, v_num=cbeq, train/loss=3.020]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 631/1867 [16:07<31:35,  1.53s/it, v_num=cbeq, train/loss=3.020]\r",
+      "Epoch 0:  34%|▎| 631/1867 [16:07<31:35,  1.53s/it, v_num=cbeq, train/loss=2.880]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 632/1867 [16:13<31:41,  1.54s/it, v_num=cbeq, train/loss=2.880]\r",
+      "Epoch 0:  34%|▎| 632/1867 [16:13<31:41,  1.54s/it, v_num=cbeq, train/loss=3.910]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 633/1867 [16:13<31:37,  1.54s/it, v_num=cbeq, train/loss=3.910]\r",
+      "Epoch 0:  34%|▎| 633/1867 [16:13<31:37,  1.54s/it, v_num=cbeq, train/loss=4.090]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 634/1867 [16:13<31:32,  1.54s/it, v_num=cbeq, train/loss=4.090]\r",
+      "Epoch 0:  34%|▎| 634/1867 [16:13<31:32,  1.54s/it, v_num=cbeq, train/loss=3.970]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 635/1867 [16:13<31:28,  1.53s/it, v_num=cbeq, train/loss=3.970]\r",
+      "Epoch 0:  34%|▎| 635/1867 [16:13<31:28,  1.53s/it, v_num=cbeq, train/loss=2.690]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 636/1867 [16:18<31:34,  1.54s/it, v_num=cbeq, train/loss=2.690]\r",
+      "Epoch 0:  34%|▎| 636/1867 [16:18<31:34,  1.54s/it, v_num=cbeq, train/loss=4.750]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 637/1867 [16:18<31:30,  1.54s/it, v_num=cbeq, train/loss=4.750]\r",
+      "Epoch 0:  34%|▎| 637/1867 [16:18<31:30,  1.54s/it, v_num=cbeq, train/loss=1.830]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 638/1867 [16:18<31:25,  1.53s/it, v_num=cbeq, train/loss=1.830]\r",
+      "Epoch 0:  34%|▎| 638/1867 [16:18<31:25,  1.53s/it, v_num=cbeq, train/loss=2.950]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 639/1867 [16:19<31:21,  1.53s/it, v_num=cbeq, train/loss=2.950]\r",
+      "Epoch 0:  34%|▎| 639/1867 [16:19<31:21,  1.53s/it, v_num=cbeq, train/loss=3.080]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 640/1867 [16:24<31:27,  1.54s/it, v_num=cbeq, train/loss=3.080]\r",
+      "Epoch 0:  34%|▎| 640/1867 [16:24<31:27,  1.54s/it, v_num=cbeq, train/loss=2.800]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 641/1867 [16:24<31:23,  1.54s/it, v_num=cbeq, train/loss=2.800]\r",
+      "Epoch 0:  34%|▎| 641/1867 [16:24<31:23,  1.54s/it, v_num=cbeq, train/loss=3.300]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 642/1867 [16:24<31:19,  1.53s/it, v_num=cbeq, train/loss=3.300]\r",
+      "Epoch 0:  34%|▎| 642/1867 [16:24<31:19,  1.53s/it, v_num=cbeq, train/loss=1.960]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 643/1867 [16:24<31:14,  1.53s/it, v_num=cbeq, train/loss=1.960]\r",
+      "Epoch 0:  34%|▎| 643/1867 [16:24<31:14,  1.53s/it, v_num=cbeq, train/loss=1.390]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  34%|▎| 644/1867 [16:30<31:21,  1.54s/it, v_num=cbeq, train/loss=1.390]\r",
+      "Epoch 0:  34%|▎| 644/1867 [16:30<31:21,  1.54s/it, v_num=cbeq, train/loss=4.280]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 645/1867 [16:30<31:16,  1.54s/it, v_num=cbeq, train/loss=4.280]\r",
+      "Epoch 0:  35%|▎| 645/1867 [16:30<31:16,  1.54s/it, v_num=cbeq, train/loss=3.450]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 646/1867 [16:30<31:12,  1.53s/it, v_num=cbeq, train/loss=3.450]\r",
+      "Epoch 0:  35%|▎| 646/1867 [16:30<31:12,  1.53s/it, v_num=cbeq, train/loss=2.770]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 647/1867 [16:30<31:08,  1.53s/it, v_num=cbeq, train/loss=2.770]\r",
+      "Epoch 0:  35%|▎| 647/1867 [16:30<31:08,  1.53s/it, v_num=cbeq, train/loss=1.920]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 648/1867 [16:36<31:14,  1.54s/it, v_num=cbeq, train/loss=1.920]\r",
+      "Epoch 0:  35%|▎| 648/1867 [16:36<31:14,  1.54s/it, v_num=cbeq, train/loss=4.940]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 649/1867 [16:36<31:10,  1.54s/it, v_num=cbeq, train/loss=4.940]\r",
+      "Epoch 0:  35%|▎| 649/1867 [16:36<31:10,  1.54s/it, v_num=cbeq, train/loss=3.410]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 650/1867 [16:36<31:06,  1.53s/it, v_num=cbeq, train/loss=3.410]\r",
+      "Epoch 0:  35%|▎| 650/1867 [16:36<31:06,  1.53s/it, v_num=cbeq, train/loss=3.880]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 651/1867 [16:36<31:01,  1.53s/it, v_num=cbeq, train/loss=3.880]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 651/1867 [16:36<31:01,  1.53s/it, v_num=cbeq, train/loss=4.840]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 652/1867 [16:42<31:07,  1.54s/it, v_num=cbeq, train/loss=4.840]\r",
+      "Epoch 0:  35%|▎| 652/1867 [16:42<31:07,  1.54s/it, v_num=cbeq, train/loss=1.160]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 653/1867 [16:42<31:03,  1.53s/it, v_num=cbeq, train/loss=1.160]\r",
+      "Epoch 0:  35%|▎| 653/1867 [16:42<31:03,  1.53s/it, v_num=cbeq, train/loss=3.420]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 654/1867 [16:42<30:59,  1.53s/it, v_num=cbeq, train/loss=3.420]\r",
+      "Epoch 0:  35%|▎| 654/1867 [16:42<30:59,  1.53s/it, v_num=cbeq, train/loss=3.640]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 655/1867 [16:42<30:55,  1.53s/it, v_num=cbeq, train/loss=3.640]\r",
+      "Epoch 0:  35%|▎| 655/1867 [16:42<30:55,  1.53s/it, v_num=cbeq, train/loss=2.270]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 656/1867 [16:48<31:01,  1.54s/it, v_num=cbeq, train/loss=2.270]\r",
+      "Epoch 0:  35%|▎| 656/1867 [16:48<31:01,  1.54s/it, v_num=cbeq, train/loss=4.970]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 657/1867 [16:48<30:56,  1.53s/it, v_num=cbeq, train/loss=4.970]\r",
+      "Epoch 0:  35%|▎| 657/1867 [16:48<30:56,  1.53s/it, v_num=cbeq, train/loss=3.380]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 658/1867 [16:48<30:52,  1.53s/it, v_num=cbeq, train/loss=3.380]\r",
+      "Epoch 0:  35%|▎| 658/1867 [16:48<30:52,  1.53s/it, v_num=cbeq, train/loss=4.000]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 659/1867 [16:48<30:48,  1.53s/it, v_num=cbeq, train/loss=4.000]\r",
+      "Epoch 0:  35%|▎| 659/1867 [16:48<30:48,  1.53s/it, v_num=cbeq, train/loss=3.440]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 660/1867 [16:54<30:54,  1.54s/it, v_num=cbeq, train/loss=3.440]\r",
+      "Epoch 0:  35%|▎| 660/1867 [16:54<30:54,  1.54s/it, v_num=cbeq, train/loss=2.340]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 661/1867 [16:54<30:50,  1.53s/it, v_num=cbeq, train/loss=2.340]\r",
+      "Epoch 0:  35%|▎| 661/1867 [16:54<30:50,  1.53s/it, v_num=cbeq, train/loss=3.920]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  35%|▎| 662/1867 [16:54<30:46,  1.53s/it, v_num=cbeq, train/loss=3.920]\r",
+      "Epoch 0:  35%|▎| 662/1867 [16:54<30:46,  1.53s/it, v_num=cbeq, train/loss=2.880]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 663/1867 [16:54<30:42,  1.53s/it, v_num=cbeq, train/loss=2.880]\r",
+      "Epoch 0:  36%|▎| 663/1867 [16:54<30:42,  1.53s/it, v_num=cbeq, train/loss=2.190]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 664/1867 [17:00<30:48,  1.54s/it, v_num=cbeq, train/loss=2.190]\r",
+      "Epoch 0:  36%|▎| 664/1867 [17:00<30:48,  1.54s/it, v_num=cbeq, train/loss=3.700]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 665/1867 [17:00<30:44,  1.53s/it, v_num=cbeq, train/loss=3.700]\r",
+      "Epoch 0:  36%|▎| 665/1867 [17:00<30:44,  1.53s/it, v_num=cbeq, train/loss=3.440]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 666/1867 [17:00<30:40,  1.53s/it, v_num=cbeq, train/loss=3.440]\r",
+      "Epoch 0:  36%|▎| 666/1867 [17:00<30:40,  1.53s/it, v_num=cbeq, train/loss=1.930]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 667/1867 [17:00<30:35,  1.53s/it, v_num=cbeq, train/loss=1.930]\r",
+      "Epoch 0:  36%|▎| 667/1867 [17:00<30:35,  1.53s/it, v_num=cbeq, train/loss=4.090]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 668/1867 [17:06<30:41,  1.54s/it, v_num=cbeq, train/loss=4.090]\r",
+      "Epoch 0:  36%|▎| 668/1867 [17:06<30:41,  1.54s/it, v_num=cbeq, train/loss=4.190]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 669/1867 [17:06<30:37,  1.53s/it, v_num=cbeq, train/loss=4.190]\r",
+      "Epoch 0:  36%|▎| 669/1867 [17:06<30:37,  1.53s/it, v_num=cbeq, train/loss=3.560]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 670/1867 [17:06<30:33,  1.53s/it, v_num=cbeq, train/loss=3.560]\r",
+      "Epoch 0:  36%|▎| 670/1867 [17:06<30:33,  1.53s/it, v_num=cbeq, train/loss=3.700]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 671/1867 [17:06<30:29,  1.53s/it, v_num=cbeq, train/loss=3.700]\r",
+      "Epoch 0:  36%|▎| 671/1867 [17:06<30:29,  1.53s/it, v_num=cbeq, train/loss=2.860]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 672/1867 [17:12<30:35,  1.54s/it, v_num=cbeq, train/loss=2.860]\r",
+      "Epoch 0:  36%|▎| 672/1867 [17:12<30:35,  1.54s/it, v_num=cbeq, train/loss=2.580]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 673/1867 [17:12<30:31,  1.53s/it, v_num=cbeq, train/loss=2.580]\r",
+      "Epoch 0:  36%|▎| 673/1867 [17:12<30:31,  1.53s/it, v_num=cbeq, train/loss=3.420]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 674/1867 [17:12<30:27,  1.53s/it, v_num=cbeq, train/loss=3.420]\r",
+      "Epoch 0:  36%|▎| 674/1867 [17:12<30:27,  1.53s/it, v_num=cbeq, train/loss=3.440]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 675/1867 [17:12<30:23,  1.53s/it, v_num=cbeq, train/loss=3.440]\r",
+      "Epoch 0:  36%|▎| 675/1867 [17:12<30:23,  1.53s/it, v_num=cbeq, train/loss=3.140]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 676/1867 [17:17<30:28,  1.54s/it, v_num=cbeq, train/loss=3.140]\r",
+      "Epoch 0:  36%|▎| 676/1867 [17:17<30:28,  1.54s/it, v_num=cbeq, train/loss=4.160]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 677/1867 [17:18<30:24,  1.53s/it, v_num=cbeq, train/loss=4.160]\r",
+      "Epoch 0:  36%|▎| 677/1867 [17:18<30:24,  1.53s/it, v_num=cbeq, train/loss=2.020]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 678/1867 [17:18<30:20,  1.53s/it, v_num=cbeq, train/loss=2.020]\r",
+      "Epoch 0:  36%|▎| 678/1867 [17:18<30:20,  1.53s/it, v_num=cbeq, train/loss=3.280]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 679/1867 [17:18<30:16,  1.53s/it, v_num=cbeq, train/loss=3.280]\r",
+      "Epoch 0:  36%|▎| 679/1867 [17:18<30:16,  1.53s/it, v_num=cbeq, train/loss=3.480]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 680/1867 [17:23<30:22,  1.54s/it, v_num=cbeq, train/loss=3.480]\r",
+      "Epoch 0:  36%|▎| 680/1867 [17:23<30:22,  1.54s/it, v_num=cbeq, train/loss=1.730]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  36%|▎| 681/1867 [17:23<30:18,  1.53s/it, v_num=cbeq, train/loss=1.730]\r",
+      "Epoch 0:  36%|▎| 681/1867 [17:24<30:18,  1.53s/it, v_num=cbeq, train/loss=4.660]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 682/1867 [17:24<30:14,  1.53s/it, v_num=cbeq, train/loss=4.660]\r",
+      "Epoch 0:  37%|▎| 682/1867 [17:24<30:14,  1.53s/it, v_num=cbeq, train/loss=3.920]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 683/1867 [17:24<30:10,  1.53s/it, v_num=cbeq, train/loss=3.920]\r",
+      "Epoch 0:  37%|▎| 683/1867 [17:24<30:10,  1.53s/it, v_num=cbeq, train/loss=4.340]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 684/1867 [17:29<30:15,  1.53s/it, v_num=cbeq, train/loss=4.340]\r",
+      "Epoch 0:  37%|▎| 684/1867 [17:29<30:15,  1.53s/it, v_num=cbeq, train/loss=4.060]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 685/1867 [17:29<30:11,  1.53s/it, v_num=cbeq, train/loss=4.060]\r",
+      "Epoch 0:  37%|▎| 685/1867 [17:29<30:11,  1.53s/it, v_num=cbeq, train/loss=2.700]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 686/1867 [17:30<30:07,  1.53s/it, v_num=cbeq, train/loss=2.700]\r",
+      "Epoch 0:  37%|▎| 686/1867 [17:30<30:07,  1.53s/it, v_num=cbeq, train/loss=4.690]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 687/1867 [17:30<30:03,  1.53s/it, v_num=cbeq, train/loss=4.690]\r",
+      "Epoch 0:  37%|▎| 687/1867 [17:30<30:03,  1.53s/it, v_num=cbeq, train/loss=4.530]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 688/1867 [17:35<30:09,  1.53s/it, v_num=cbeq, train/loss=4.530]\r",
+      "Epoch 0:  37%|▎| 688/1867 [17:35<30:09,  1.53s/it, v_num=cbeq, train/loss=3.770]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 689/1867 [17:35<30:04,  1.53s/it, v_num=cbeq, train/loss=3.770]\r",
+      "Epoch 0:  37%|▎| 689/1867 [17:35<30:04,  1.53s/it, v_num=cbeq, train/loss=4.000]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 690/1867 [17:35<30:00,  1.53s/it, v_num=cbeq, train/loss=4.000]\r",
+      "Epoch 0:  37%|▎| 690/1867 [17:35<30:00,  1.53s/it, v_num=cbeq, train/loss=3.380]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 691/1867 [17:35<29:56,  1.53s/it, v_num=cbeq, train/loss=3.380]\r",
+      "Epoch 0:  37%|▎| 691/1867 [17:35<29:56,  1.53s/it, v_num=cbeq, train/loss=3.190]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 692/1867 [17:41<30:02,  1.53s/it, v_num=cbeq, train/loss=3.190]\r",
+      "Epoch 0:  37%|▎| 692/1867 [17:41<30:02,  1.53s/it, v_num=cbeq, train/loss=2.840]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 693/1867 [17:41<29:58,  1.53s/it, v_num=cbeq, train/loss=2.840]\r",
+      "Epoch 0:  37%|▎| 693/1867 [17:41<29:58,  1.53s/it, v_num=cbeq, train/loss=3.910]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 694/1867 [17:41<29:54,  1.53s/it, v_num=cbeq, train/loss=3.910]\r",
+      "Epoch 0:  37%|▎| 694/1867 [17:41<29:54,  1.53s/it, v_num=cbeq, train/loss=4.620]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 695/1867 [17:41<29:50,  1.53s/it, v_num=cbeq, train/loss=4.620]\r",
+      "Epoch 0:  37%|▎| 695/1867 [17:41<29:50,  1.53s/it, v_num=cbeq, train/loss=3.410]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 696/1867 [17:47<29:56,  1.53s/it, v_num=cbeq, train/loss=3.410]\r",
+      "Epoch 0:  37%|▎| 696/1867 [17:47<29:56,  1.53s/it, v_num=cbeq, train/loss=2.380]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 697/1867 [17:47<29:52,  1.53s/it, v_num=cbeq, train/loss=2.380]\r",
+      "Epoch 0:  37%|▎| 697/1867 [17:47<29:52,  1.53s/it, v_num=cbeq, train/loss=3.340]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 698/1867 [17:47<29:48,  1.53s/it, v_num=cbeq, train/loss=3.340]\r",
+      "Epoch 0:  37%|▎| 698/1867 [17:47<29:48,  1.53s/it, v_num=cbeq, train/loss=3.840]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 699/1867 [17:47<29:44,  1.53s/it, v_num=cbeq, train/loss=3.840]\r",
+      "Epoch 0:  37%|▎| 699/1867 [17:47<29:44,  1.53s/it, v_num=cbeq, train/loss=2.950]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  37%|▎| 700/1867 [17:53<29:49,  1.53s/it, v_num=cbeq, train/loss=2.950]\r",
+      "Epoch 0:  37%|▎| 700/1867 [17:53<29:49,  1.53s/it, v_num=cbeq, train/loss=1.340]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 701/1867 [17:53<29:45,  1.53s/it, v_num=cbeq, train/loss=1.340]\r",
+      "Epoch 0:  38%|▍| 701/1867 [17:53<29:45,  1.53s/it, v_num=cbeq, train/loss=1.950]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 702/1867 [17:53<29:41,  1.53s/it, v_num=cbeq, train/loss=1.950]\r",
+      "Epoch 0:  38%|▍| 702/1867 [17:53<29:41,  1.53s/it, v_num=cbeq, train/loss=3.520]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 703/1867 [17:53<29:37,  1.53s/it, v_num=cbeq, train/loss=3.520]\r",
+      "Epoch 0:  38%|▍| 703/1867 [17:53<29:37,  1.53s/it, v_num=cbeq, train/loss=3.480]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 704/1867 [17:59<29:42,  1.53s/it, v_num=cbeq, train/loss=3.480]\r",
+      "Epoch 0:  38%|▍| 704/1867 [17:59<29:42,  1.53s/it, v_num=cbeq, train/loss=4.120]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 705/1867 [17:59<29:38,  1.53s/it, v_num=cbeq, train/loss=4.120]\r",
+      "Epoch 0:  38%|▍| 705/1867 [17:59<29:38,  1.53s/it, v_num=cbeq, train/loss=3.660]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 706/1867 [17:59<29:34,  1.53s/it, v_num=cbeq, train/loss=3.660]\r",
+      "Epoch 0:  38%|▍| 706/1867 [17:59<29:34,  1.53s/it, v_num=cbeq, train/loss=2.640]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 707/1867 [17:59<29:30,  1.53s/it, v_num=cbeq, train/loss=2.640]\r",
+      "Epoch 0:  38%|▍| 707/1867 [17:59<29:30,  1.53s/it, v_num=cbeq, train/loss=4.160]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 708/1867 [18:05<29:36,  1.53s/it, v_num=cbeq, train/loss=4.160]\r",
+      "Epoch 0:  38%|▍| 708/1867 [18:05<29:36,  1.53s/it, v_num=cbeq, train/loss=3.270]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 709/1867 [18:05<29:32,  1.53s/it, v_num=cbeq, train/loss=3.270]\r",
+      "Epoch 0:  38%|▍| 709/1867 [18:05<29:32,  1.53s/it, v_num=cbeq, train/loss=3.530]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 710/1867 [18:05<29:28,  1.53s/it, v_num=cbeq, train/loss=3.530]\r",
+      "Epoch 0:  38%|▍| 710/1867 [18:05<29:28,  1.53s/it, v_num=cbeq, train/loss=4.250]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 711/1867 [18:05<29:24,  1.53s/it, v_num=cbeq, train/loss=4.250]\r",
+      "Epoch 0:  38%|▍| 711/1867 [18:05<29:24,  1.53s/it, v_num=cbeq, train/loss=4.090]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 712/1867 [18:10<29:29,  1.53s/it, v_num=cbeq, train/loss=4.090]\r",
+      "Epoch 0:  38%|▍| 712/1867 [18:10<29:29,  1.53s/it, v_num=cbeq, train/loss=2.910]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 713/1867 [18:11<29:25,  1.53s/it, v_num=cbeq, train/loss=2.910]\r",
+      "Epoch 0:  38%|▍| 713/1867 [18:11<29:25,  1.53s/it, v_num=cbeq, train/loss=3.220]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 714/1867 [18:11<29:22,  1.53s/it, v_num=cbeq, train/loss=3.220]\r",
+      "Epoch 0:  38%|▍| 714/1867 [18:11<29:22,  1.53s/it, v_num=cbeq, train/loss=3.470]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 715/1867 [18:11<29:18,  1.53s/it, v_num=cbeq, train/loss=3.470]\r",
+      "Epoch 0:  38%|▍| 715/1867 [18:11<29:18,  1.53s/it, v_num=cbeq, train/loss=4.220]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 716/1867 [18:16<29:23,  1.53s/it, v_num=cbeq, train/loss=4.220]\r",
+      "Epoch 0:  38%|▍| 716/1867 [18:16<29:23,  1.53s/it, v_num=cbeq, train/loss=2.830]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 717/1867 [18:16<29:19,  1.53s/it, v_num=cbeq, train/loss=2.830]\r",
+      "Epoch 0:  38%|▍| 717/1867 [18:16<29:19,  1.53s/it, v_num=cbeq, train/loss=4.750]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  38%|▍| 718/1867 [18:17<29:15,  1.53s/it, v_num=cbeq, train/loss=4.750]\r",
+      "Epoch 0:  38%|▍| 718/1867 [18:17<29:15,  1.53s/it, v_num=cbeq, train/loss=2.860]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 719/1867 [18:17<29:11,  1.53s/it, v_num=cbeq, train/loss=2.860]\r",
+      "Epoch 0:  39%|▍| 719/1867 [18:17<29:11,  1.53s/it, v_num=cbeq, train/loss=2.230]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 720/1867 [18:22<29:16,  1.53s/it, v_num=cbeq, train/loss=2.230]\r",
+      "Epoch 0:  39%|▍| 720/1867 [18:22<29:16,  1.53s/it, v_num=cbeq, train/loss=2.880]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 721/1867 [18:22<29:12,  1.53s/it, v_num=cbeq, train/loss=2.880]\r",
+      "Epoch 0:  39%|▍| 721/1867 [18:22<29:12,  1.53s/it, v_num=cbeq, train/loss=3.780]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 722/1867 [18:22<29:09,  1.53s/it, v_num=cbeq, train/loss=3.780]\r",
+      "Epoch 0:  39%|▍| 722/1867 [18:22<29:09,  1.53s/it, v_num=cbeq, train/loss=3.360]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 723/1867 [18:22<29:05,  1.53s/it, v_num=cbeq, train/loss=3.360]\r",
+      "Epoch 0:  39%|▍| 723/1867 [18:22<29:05,  1.53s/it, v_num=cbeq, train/loss=2.700]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 724/1867 [18:28<29:10,  1.53s/it, v_num=cbeq, train/loss=2.700]\r",
+      "Epoch 0:  39%|▍| 724/1867 [18:28<29:10,  1.53s/it, v_num=cbeq, train/loss=2.700]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 725/1867 [18:28<29:06,  1.53s/it, v_num=cbeq, train/loss=2.700]\r",
+      "Epoch 0:  39%|▍| 725/1867 [18:28<29:06,  1.53s/it, v_num=cbeq, train/loss=3.090]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 726/1867 [18:28<29:02,  1.53s/it, v_num=cbeq, train/loss=3.090]\r",
+      "Epoch 0:  39%|▍| 726/1867 [18:28<29:02,  1.53s/it, v_num=cbeq, train/loss=3.160]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 727/1867 [18:28<28:58,  1.53s/it, v_num=cbeq, train/loss=3.160]\r",
+      "Epoch 0:  39%|▍| 727/1867 [18:28<28:58,  1.53s/it, v_num=cbeq, train/loss=3.310]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 728/1867 [18:34<29:04,  1.53s/it, v_num=cbeq, train/loss=3.310]\r",
+      "Epoch 0:  39%|▍| 728/1867 [18:34<29:04,  1.53s/it, v_num=cbeq, train/loss=2.780]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 729/1867 [18:34<29:00,  1.53s/it, v_num=cbeq, train/loss=2.780]\r",
+      "Epoch 0:  39%|▍| 729/1867 [18:34<29:00,  1.53s/it, v_num=cbeq, train/loss=2.910]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 730/1867 [18:34<28:56,  1.53s/it, v_num=cbeq, train/loss=2.910]\r",
+      "Epoch 0:  39%|▍| 730/1867 [18:34<28:56,  1.53s/it, v_num=cbeq, train/loss=2.720]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 731/1867 [18:34<28:52,  1.53s/it, v_num=cbeq, train/loss=2.720]\r",
+      "Epoch 0:  39%|▍| 731/1867 [18:34<28:52,  1.53s/it, v_num=cbeq, train/loss=3.590]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 732/1867 [18:40<28:57,  1.53s/it, v_num=cbeq, train/loss=3.590]\r",
+      "Epoch 0:  39%|▍| 732/1867 [18:40<28:57,  1.53s/it, v_num=cbeq, train/loss=2.610]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 733/1867 [18:40<28:53,  1.53s/it, v_num=cbeq, train/loss=2.610]\r",
+      "Epoch 0:  39%|▍| 733/1867 [18:40<28:53,  1.53s/it, v_num=cbeq, train/loss=3.030]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 734/1867 [18:40<28:49,  1.53s/it, v_num=cbeq, train/loss=3.030]\r",
+      "Epoch 0:  39%|▍| 734/1867 [18:40<28:49,  1.53s/it, v_num=cbeq, train/loss=2.980]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 735/1867 [18:40<28:46,  1.52s/it, v_num=cbeq, train/loss=2.980]\r",
+      "Epoch 0:  39%|▍| 735/1867 [18:40<28:46,  1.52s/it, v_num=cbeq, train/loss=2.280]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 736/1867 [18:46<28:50,  1.53s/it, v_num=cbeq, train/loss=2.280]\r",
+      "Epoch 0:  39%|▍| 736/1867 [18:46<28:50,  1.53s/it, v_num=cbeq, train/loss=1.550]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  39%|▍| 737/1867 [18:46<28:47,  1.53s/it, v_num=cbeq, train/loss=1.550]\r",
+      "Epoch 0:  39%|▍| 737/1867 [18:46<28:47,  1.53s/it, v_num=cbeq, train/loss=4.090]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 738/1867 [18:46<28:43,  1.53s/it, v_num=cbeq, train/loss=4.090]\r",
+      "Epoch 0:  40%|▍| 738/1867 [18:46<28:43,  1.53s/it, v_num=cbeq, train/loss=2.730]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 739/1867 [18:46<28:39,  1.52s/it, v_num=cbeq, train/loss=2.730]\r",
+      "Epoch 0:  40%|▍| 739/1867 [18:46<28:39,  1.52s/it, v_num=cbeq, train/loss=2.940]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 740/1867 [18:52<28:44,  1.53s/it, v_num=cbeq, train/loss=2.940]\r",
+      "Epoch 0:  40%|▍| 740/1867 [18:52<28:44,  1.53s/it, v_num=cbeq, train/loss=3.690]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 741/1867 [18:52<28:40,  1.53s/it, v_num=cbeq, train/loss=3.690]\r",
+      "Epoch 0:  40%|▍| 741/1867 [18:52<28:40,  1.53s/it, v_num=cbeq, train/loss=3.640]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 742/1867 [18:52<28:36,  1.53s/it, v_num=cbeq, train/loss=3.640]\r",
+      "Epoch 0:  40%|▍| 742/1867 [18:52<28:36,  1.53s/it, v_num=cbeq, train/loss=4.720]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 743/1867 [18:52<28:33,  1.52s/it, v_num=cbeq, train/loss=4.720]\r",
+      "Epoch 0:  40%|▍| 743/1867 [18:52<28:33,  1.52s/it, v_num=cbeq, train/loss=3.690]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 744/1867 [18:57<28:37,  1.53s/it, v_num=cbeq, train/loss=3.690]\r",
+      "Epoch 0:  40%|▍| 744/1867 [18:57<28:37,  1.53s/it, v_num=cbeq, train/loss=2.330]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 745/1867 [18:57<28:33,  1.53s/it, v_num=cbeq, train/loss=2.330]\r",
+      "Epoch 0:  40%|▍| 745/1867 [18:57<28:33,  1.53s/it, v_num=cbeq, train/loss=4.810]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 746/1867 [18:58<28:30,  1.53s/it, v_num=cbeq, train/loss=4.810]\r",
+      "Epoch 0:  40%|▍| 746/1867 [18:58<28:30,  1.53s/it, v_num=cbeq, train/loss=3.620]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 747/1867 [18:58<28:26,  1.52s/it, v_num=cbeq, train/loss=3.620]\r",
+      "Epoch 0:  40%|▍| 747/1867 [18:58<28:26,  1.52s/it, v_num=cbeq, train/loss=3.520]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 748/1867 [19:03<28:30,  1.53s/it, v_num=cbeq, train/loss=3.520]\r",
+      "Epoch 0:  40%|▍| 748/1867 [19:03<28:30,  1.53s/it, v_num=cbeq, train/loss=4.220]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 749/1867 [19:03<28:27,  1.53s/it, v_num=cbeq, train/loss=4.220]\r",
+      "Epoch 0:  40%|▍| 749/1867 [19:03<28:27,  1.53s/it, v_num=cbeq, train/loss=4.220]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 750/1867 [19:03<28:23,  1.53s/it, v_num=cbeq, train/loss=4.220]\r",
+      "Epoch 0:  40%|▍| 750/1867 [19:03<28:23,  1.53s/it, v_num=cbeq, train/loss=3.530]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 751/1867 [19:03<28:19,  1.52s/it, v_num=cbeq, train/loss=3.530]\r",
+      "Epoch 0:  40%|▍| 751/1867 [19:03<28:19,  1.52s/it, v_num=cbeq, train/loss=2.500]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 752/1867 [19:10<28:25,  1.53s/it, v_num=cbeq, train/loss=2.500]\r",
+      "Epoch 0:  40%|▍| 752/1867 [19:10<28:25,  1.53s/it, v_num=cbeq, train/loss=2.810]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 753/1867 [19:10<28:22,  1.53s/it, v_num=cbeq, train/loss=2.810]\r",
+      "Epoch 0:  40%|▍| 753/1867 [19:10<28:22,  1.53s/it, v_num=cbeq, train/loss=2.470]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 754/1867 [19:10<28:18,  1.53s/it, v_num=cbeq, train/loss=2.470]\r",
+      "Epoch 0:  40%|▍| 754/1867 [19:10<28:18,  1.53s/it, v_num=cbeq, train/loss=3.640]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 755/1867 [19:10<28:14,  1.52s/it, v_num=cbeq, train/loss=3.640]\r",
+      "Epoch 0:  40%|▍| 755/1867 [19:10<28:14,  1.52s/it, v_num=cbeq, train/loss=4.380]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  40%|▍| 756/1867 [19:16<28:19,  1.53s/it, v_num=cbeq, train/loss=4.380]\r",
+      "Epoch 0:  40%|▍| 756/1867 [19:16<28:19,  1.53s/it, v_num=cbeq, train/loss=3.120]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 757/1867 [19:16<28:15,  1.53s/it, v_num=cbeq, train/loss=3.120]\r",
+      "Epoch 0:  41%|▍| 757/1867 [19:16<28:15,  1.53s/it, v_num=cbeq, train/loss=3.910]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 758/1867 [19:16<28:12,  1.53s/it, v_num=cbeq, train/loss=3.910]\r",
+      "Epoch 0:  41%|▍| 758/1867 [19:16<28:12,  1.53s/it, v_num=cbeq, train/loss=3.890]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 759/1867 [19:16<28:08,  1.52s/it, v_num=cbeq, train/loss=3.890]\r",
+      "Epoch 0:  41%|▍| 759/1867 [19:16<28:08,  1.52s/it, v_num=cbeq, train/loss=2.580]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 760/1867 [19:22<28:12,  1.53s/it, v_num=cbeq, train/loss=2.580]\r",
+      "Epoch 0:  41%|▍| 760/1867 [19:22<28:12,  1.53s/it, v_num=cbeq, train/loss=1.580]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 761/1867 [19:22<28:09,  1.53s/it, v_num=cbeq, train/loss=1.580]\r",
+      "Epoch 0:  41%|▍| 761/1867 [19:22<28:09,  1.53s/it, v_num=cbeq, train/loss=1.770]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 762/1867 [19:22<28:05,  1.53s/it, v_num=cbeq, train/loss=1.770]\r",
+      "Epoch 0:  41%|▍| 762/1867 [19:22<28:05,  1.53s/it, v_num=cbeq, train/loss=4.810]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 763/1867 [19:22<28:02,  1.52s/it, v_num=cbeq, train/loss=4.810]\r",
+      "Epoch 0:  41%|▍| 763/1867 [19:22<28:02,  1.52s/it, v_num=cbeq, train/loss=4.470]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 764/1867 [19:27<28:06,  1.53s/it, v_num=cbeq, train/loss=4.470]\r",
+      "Epoch 0:  41%|▍| 764/1867 [19:27<28:06,  1.53s/it, v_num=cbeq, train/loss=4.120]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 765/1867 [19:28<28:02,  1.53s/it, v_num=cbeq, train/loss=4.120]\r",
+      "Epoch 0:  41%|▍| 765/1867 [19:28<28:02,  1.53s/it, v_num=cbeq, train/loss=3.690]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 766/1867 [19:28<27:58,  1.52s/it, v_num=cbeq, train/loss=3.690]\r",
+      "Epoch 0:  41%|▍| 766/1867 [19:28<27:58,  1.52s/it, v_num=cbeq, train/loss=2.840]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 767/1867 [19:28<27:55,  1.52s/it, v_num=cbeq, train/loss=2.840]\r",
+      "Epoch 0:  41%|▍| 767/1867 [19:28<27:55,  1.52s/it, v_num=cbeq, train/loss=1.910]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 768/1867 [19:33<27:59,  1.53s/it, v_num=cbeq, train/loss=1.910]\r",
+      "Epoch 0:  41%|▍| 768/1867 [19:33<27:59,  1.53s/it, v_num=cbeq, train/loss=1.950]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 769/1867 [19:33<27:55,  1.53s/it, v_num=cbeq, train/loss=1.950]\r",
+      "Epoch 0:  41%|▍| 769/1867 [19:33<27:55,  1.53s/it, v_num=cbeq, train/loss=2.780]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 770/1867 [19:33<27:52,  1.52s/it, v_num=cbeq, train/loss=2.780]\r",
+      "Epoch 0:  41%|▍| 770/1867 [19:33<27:52,  1.52s/it, v_num=cbeq, train/loss=2.560]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 771/1867 [19:33<27:48,  1.52s/it, v_num=cbeq, train/loss=2.560]\r",
+      "Epoch 0:  41%|▍| 771/1867 [19:33<27:48,  1.52s/it, v_num=cbeq, train/loss=3.090]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 772/1867 [19:39<27:53,  1.53s/it, v_num=cbeq, train/loss=3.090]\r",
+      "Epoch 0:  41%|▍| 772/1867 [19:39<27:53,  1.53s/it, v_num=cbeq, train/loss=4.340]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 773/1867 [19:40<27:50,  1.53s/it, v_num=cbeq, train/loss=4.340]\r",
+      "Epoch 0:  41%|▍| 773/1867 [19:40<27:50,  1.53s/it, v_num=cbeq, train/loss=2.030]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  41%|▍| 774/1867 [19:40<27:46,  1.52s/it, v_num=cbeq, train/loss=2.030]\r",
+      "Epoch 0:  41%|▍| 774/1867 [19:40<27:46,  1.52s/it, v_num=cbeq, train/loss=3.030]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 775/1867 [19:40<27:42,  1.52s/it, v_num=cbeq, train/loss=3.030]\r",
+      "Epoch 0:  42%|▍| 775/1867 [19:40<27:42,  1.52s/it, v_num=cbeq, train/loss=2.980]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 776/1867 [19:45<27:47,  1.53s/it, v_num=cbeq, train/loss=2.980]\r",
+      "Epoch 0:  42%|▍| 776/1867 [19:45<27:47,  1.53s/it, v_num=cbeq, train/loss=3.470]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 777/1867 [19:45<27:43,  1.53s/it, v_num=cbeq, train/loss=3.470]\r",
+      "Epoch 0:  42%|▍| 777/1867 [19:45<27:43,  1.53s/it, v_num=cbeq, train/loss=3.390]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 778/1867 [19:45<27:39,  1.52s/it, v_num=cbeq, train/loss=3.390]\r",
+      "Epoch 0:  42%|▍| 778/1867 [19:45<27:39,  1.52s/it, v_num=cbeq, train/loss=3.020]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 779/1867 [19:45<27:36,  1.52s/it, v_num=cbeq, train/loss=3.020]\r",
+      "Epoch 0:  42%|▍| 779/1867 [19:45<27:36,  1.52s/it, v_num=cbeq, train/loss=3.410]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 780/1867 [19:51<27:40,  1.53s/it, v_num=cbeq, train/loss=3.410]\r",
+      "Epoch 0:  42%|▍| 780/1867 [19:51<27:40,  1.53s/it, v_num=cbeq, train/loss=3.480]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 781/1867 [19:51<27:37,  1.53s/it, v_num=cbeq, train/loss=3.480]\r",
+      "Epoch 0:  42%|▍| 781/1867 [19:51<27:37,  1.53s/it, v_num=cbeq, train/loss=3.940]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 782/1867 [19:51<27:33,  1.52s/it, v_num=cbeq, train/loss=3.940]\r",
+      "Epoch 0:  42%|▍| 782/1867 [19:51<27:33,  1.52s/it, v_num=cbeq, train/loss=3.560]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 783/1867 [19:51<27:30,  1.52s/it, v_num=cbeq, train/loss=3.560]\r",
+      "Epoch 0:  42%|▍| 783/1867 [19:51<27:30,  1.52s/it, v_num=cbeq, train/loss=2.880]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 784/1867 [19:57<27:34,  1.53s/it, v_num=cbeq, train/loss=2.880]\r",
+      "Epoch 0:  42%|▍| 784/1867 [19:57<27:34,  1.53s/it, v_num=cbeq, train/loss=3.720]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 785/1867 [19:57<27:30,  1.53s/it, v_num=cbeq, train/loss=3.720]\r",
+      "Epoch 0:  42%|▍| 785/1867 [19:57<27:30,  1.53s/it, v_num=cbeq, train/loss=3.840]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 786/1867 [19:57<27:27,  1.52s/it, v_num=cbeq, train/loss=3.840]\r",
+      "Epoch 0:  42%|▍| 786/1867 [19:57<27:27,  1.52s/it, v_num=cbeq, train/loss=3.000]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 787/1867 [19:57<27:23,  1.52s/it, v_num=cbeq, train/loss=3.000]\r",
+      "Epoch 0:  42%|▍| 787/1867 [19:57<27:23,  1.52s/it, v_num=cbeq, train/loss=3.750]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 788/1867 [20:03<27:27,  1.53s/it, v_num=cbeq, train/loss=3.750]\r",
+      "Epoch 0:  42%|▍| 788/1867 [20:03<27:27,  1.53s/it, v_num=cbeq, train/loss=3.800]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 789/1867 [20:03<27:24,  1.53s/it, v_num=cbeq, train/loss=3.800]\r",
+      "Epoch 0:  42%|▍| 789/1867 [20:03<27:24,  1.53s/it, v_num=cbeq, train/loss=2.880]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 790/1867 [20:03<27:20,  1.52s/it, v_num=cbeq, train/loss=2.880]\r",
+      "Epoch 0:  42%|▍| 790/1867 [20:03<27:20,  1.52s/it, v_num=cbeq, train/loss=2.380]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 791/1867 [20:03<27:17,  1.52s/it, v_num=cbeq, train/loss=2.380]\r",
+      "Epoch 0:  42%|▍| 791/1867 [20:03<27:17,  1.52s/it, v_num=cbeq, train/loss=4.120]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 792/1867 [20:09<27:21,  1.53s/it, v_num=cbeq, train/loss=4.120]\r",
+      "Epoch 0:  42%|▍| 792/1867 [20:09<27:21,  1.53s/it, v_num=cbeq, train/loss=2.910]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  42%|▍| 793/1867 [20:09<27:18,  1.53s/it, v_num=cbeq, train/loss=2.910]\r",
+      "Epoch 0:  42%|▍| 793/1867 [20:09<27:18,  1.53s/it, v_num=cbeq, train/loss=3.080]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 794/1867 [20:09<27:14,  1.52s/it, v_num=cbeq, train/loss=3.080]\r",
+      "Epoch 0:  43%|▍| 794/1867 [20:09<27:14,  1.52s/it, v_num=cbeq, train/loss=1.550]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 795/1867 [20:09<27:11,  1.52s/it, v_num=cbeq, train/loss=1.550]\r",
+      "Epoch 0:  43%|▍| 795/1867 [20:09<27:11,  1.52s/it, v_num=cbeq, train/loss=2.940]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 796/1867 [20:15<27:15,  1.53s/it, v_num=cbeq, train/loss=2.940]\r",
+      "Epoch 0:  43%|▍| 796/1867 [20:15<27:15,  1.53s/it, v_num=cbeq, train/loss=2.160]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 797/1867 [20:15<27:11,  1.52s/it, v_num=cbeq, train/loss=2.160]\r",
+      "Epoch 0:  43%|▍| 797/1867 [20:15<27:11,  1.52s/it, v_num=cbeq, train/loss=1.730]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 798/1867 [20:15<27:08,  1.52s/it, v_num=cbeq, train/loss=1.730]\r",
+      "Epoch 0:  43%|▍| 798/1867 [20:15<27:08,  1.52s/it, v_num=cbeq, train/loss=2.520]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 799/1867 [20:15<27:04,  1.52s/it, v_num=cbeq, train/loss=2.520]\r",
+      "Epoch 0:  43%|▍| 799/1867 [20:15<27:04,  1.52s/it, v_num=cbeq, train/loss=2.450]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 800/1867 [20:21<27:08,  1.53s/it, v_num=cbeq, train/loss=2.450]\r",
+      "Epoch 0:  43%|▍| 800/1867 [20:21<27:08,  1.53s/it, v_num=cbeq, train/loss=4.970]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 801/1867 [20:21<27:05,  1.52s/it, v_num=cbeq, train/loss=4.970]\r",
+      "Epoch 0:  43%|▍| 801/1867 [20:21<27:05,  1.52s/it, v_num=cbeq, train/loss=3.520]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 802/1867 [20:21<27:01,  1.52s/it, v_num=cbeq, train/loss=3.520]\r",
+      "Epoch 0:  43%|▍| 802/1867 [20:21<27:01,  1.52s/it, v_num=cbeq, train/loss=3.200]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 803/1867 [20:21<26:58,  1.52s/it, v_num=cbeq, train/loss=3.200]\r",
+      "Epoch 0:  43%|▍| 803/1867 [20:21<26:58,  1.52s/it, v_num=cbeq, train/loss=3.420]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 804/1867 [20:27<27:02,  1.53s/it, v_num=cbeq, train/loss=3.420]\r",
+      "Epoch 0:  43%|▍| 804/1867 [20:27<27:02,  1.53s/it, v_num=cbeq, train/loss=2.520]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 805/1867 [20:27<26:59,  1.52s/it, v_num=cbeq, train/loss=2.520]\r",
+      "Epoch 0:  43%|▍| 805/1867 [20:27<26:59,  1.52s/it, v_num=cbeq, train/loss=2.880]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 806/1867 [20:27<26:55,  1.52s/it, v_num=cbeq, train/loss=2.880]\r",
+      "Epoch 0:  43%|▍| 806/1867 [20:27<26:55,  1.52s/it, v_num=cbeq, train/loss=1.730]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 807/1867 [20:27<26:52,  1.52s/it, v_num=cbeq, train/loss=1.730]\r",
+      "Epoch 0:  43%|▍| 807/1867 [20:27<26:52,  1.52s/it, v_num=cbeq, train/loss=4.440]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 808/1867 [20:33<26:56,  1.53s/it, v_num=cbeq, train/loss=4.440]\r",
+      "Epoch 0:  43%|▍| 808/1867 [20:33<26:56,  1.53s/it, v_num=cbeq, train/loss=4.310]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 809/1867 [20:33<26:52,  1.52s/it, v_num=cbeq, train/loss=4.310]\r",
+      "Epoch 0:  43%|▍| 809/1867 [20:33<26:52,  1.52s/it, v_num=cbeq, train/loss=2.330]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 810/1867 [20:33<26:49,  1.52s/it, v_num=cbeq, train/loss=2.330]\r",
+      "Epoch 0:  43%|▍| 810/1867 [20:33<26:49,  1.52s/it, v_num=cbeq, train/loss=4.440]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 811/1867 [20:33<26:46,  1.52s/it, v_num=cbeq, train/loss=4.440]\r",
+      "Epoch 0:  43%|▍| 811/1867 [20:33<26:46,  1.52s/it, v_num=cbeq, train/loss=4.310]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  43%|▍| 812/1867 [20:39<26:50,  1.53s/it, v_num=cbeq, train/loss=4.310]\r",
+      "Epoch 0:  43%|▍| 812/1867 [20:39<26:50,  1.53s/it, v_num=cbeq, train/loss=2.910]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 813/1867 [20:39<26:47,  1.52s/it, v_num=cbeq, train/loss=2.910]\r",
+      "Epoch 0:  44%|▍| 813/1867 [20:39<26:47,  1.52s/it, v_num=cbeq, train/loss=4.190]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 814/1867 [20:39<26:43,  1.52s/it, v_num=cbeq, train/loss=4.190]\r",
+      "Epoch 0:  44%|▍| 814/1867 [20:39<26:43,  1.52s/it, v_num=cbeq, train/loss=3.670]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 815/1867 [20:40<26:40,  1.52s/it, v_num=cbeq, train/loss=3.670]\r",
+      "Epoch 0:  44%|▍| 815/1867 [20:40<26:40,  1.52s/it, v_num=cbeq, train/loss=3.300]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 816/1867 [20:45<26:44,  1.53s/it, v_num=cbeq, train/loss=3.300]\r",
+      "Epoch 0:  44%|▍| 816/1867 [20:45<26:44,  1.53s/it, v_num=cbeq, train/loss=2.940]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 817/1867 [20:45<26:40,  1.52s/it, v_num=cbeq, train/loss=2.940]\r",
+      "Epoch 0:  44%|▍| 817/1867 [20:45<26:40,  1.52s/it, v_num=cbeq, train/loss=3.120]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 818/1867 [20:45<26:37,  1.52s/it, v_num=cbeq, train/loss=3.120]\r",
+      "Epoch 0:  44%|▍| 818/1867 [20:45<26:37,  1.52s/it, v_num=cbeq, train/loss=3.030]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 819/1867 [20:45<26:34,  1.52s/it, v_num=cbeq, train/loss=3.030]\r",
+      "Epoch 0:  44%|▍| 819/1867 [20:45<26:34,  1.52s/it, v_num=cbeq, train/loss=2.190]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 820/1867 [20:51<26:37,  1.53s/it, v_num=cbeq, train/loss=2.190]\r",
+      "Epoch 0:  44%|▍| 820/1867 [20:51<26:37,  1.53s/it, v_num=cbeq, train/loss=2.660]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 821/1867 [20:51<26:34,  1.52s/it, v_num=cbeq, train/loss=2.660]\r",
+      "Epoch 0:  44%|▍| 821/1867 [20:51<26:34,  1.52s/it, v_num=cbeq, train/loss=2.690]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 822/1867 [20:51<26:31,  1.52s/it, v_num=cbeq, train/loss=2.690]\r",
+      "Epoch 0:  44%|▍| 822/1867 [20:51<26:31,  1.52s/it, v_num=cbeq, train/loss=2.670]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 823/1867 [20:51<26:27,  1.52s/it, v_num=cbeq, train/loss=2.670]\r",
+      "Epoch 0:  44%|▍| 823/1867 [20:51<26:27,  1.52s/it, v_num=cbeq, train/loss=4.380]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 824/1867 [20:57<26:31,  1.53s/it, v_num=cbeq, train/loss=4.380]\r",
+      "Epoch 0:  44%|▍| 824/1867 [20:57<26:31,  1.53s/it, v_num=cbeq, train/loss=4.810]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 825/1867 [20:57<26:27,  1.52s/it, v_num=cbeq, train/loss=4.810]\r",
+      "Epoch 0:  44%|▍| 825/1867 [20:57<26:27,  1.52s/it, v_num=cbeq, train/loss=4.840]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 826/1867 [20:57<26:24,  1.52s/it, v_num=cbeq, train/loss=4.840]\r",
+      "Epoch 0:  44%|▍| 826/1867 [20:57<26:24,  1.52s/it, v_num=cbeq, train/loss=1.620]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 827/1867 [20:57<26:21,  1.52s/it, v_num=cbeq, train/loss=1.620]\r",
+      "Epoch 0:  44%|▍| 827/1867 [20:57<26:21,  1.52s/it, v_num=cbeq, train/loss=3.920]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 828/1867 [21:02<26:24,  1.53s/it, v_num=cbeq, train/loss=3.920]\r",
+      "Epoch 0:  44%|▍| 828/1867 [21:02<26:24,  1.53s/it, v_num=cbeq, train/loss=3.220]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 829/1867 [21:03<26:21,  1.52s/it, v_num=cbeq, train/loss=3.220]\r",
+      "Epoch 0:  44%|▍| 829/1867 [21:03<26:21,  1.52s/it, v_num=cbeq, train/loss=2.170]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  44%|▍| 830/1867 [21:03<26:18,  1.52s/it, v_num=cbeq, train/loss=2.170]\r",
+      "Epoch 0:  44%|▍| 830/1867 [21:03<26:18,  1.52s/it, v_num=cbeq, train/loss=3.730]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 831/1867 [21:03<26:14,  1.52s/it, v_num=cbeq, train/loss=3.730]\r",
+      "Epoch 0:  45%|▍| 831/1867 [21:03<26:14,  1.52s/it, v_num=cbeq, train/loss=2.890]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 832/1867 [21:08<26:18,  1.53s/it, v_num=cbeq, train/loss=2.890]\r",
+      "Epoch 0:  45%|▍| 832/1867 [21:08<26:18,  1.53s/it, v_num=cbeq, train/loss=3.580]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 833/1867 [21:09<26:15,  1.52s/it, v_num=cbeq, train/loss=3.580]\r",
+      "Epoch 0:  45%|▍| 833/1867 [21:09<26:15,  1.52s/it, v_num=cbeq, train/loss=3.190]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 834/1867 [21:09<26:11,  1.52s/it, v_num=cbeq, train/loss=3.190]\r",
+      "Epoch 0:  45%|▍| 834/1867 [21:09<26:11,  1.52s/it, v_num=cbeq, train/loss=3.280]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 835/1867 [21:09<26:08,  1.52s/it, v_num=cbeq, train/loss=3.280]\r",
+      "Epoch 0:  45%|▍| 835/1867 [21:09<26:08,  1.52s/it, v_num=cbeq, train/loss=4.340]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 836/1867 [21:15<26:12,  1.53s/it, v_num=cbeq, train/loss=4.340]\r",
+      "Epoch 0:  45%|▍| 836/1867 [21:15<26:12,  1.53s/it, v_num=cbeq, train/loss=2.520]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 837/1867 [21:15<26:09,  1.52s/it, v_num=cbeq, train/loss=2.520]\r",
+      "Epoch 0:  45%|▍| 837/1867 [21:15<26:09,  1.52s/it, v_num=cbeq, train/loss=3.560]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 838/1867 [21:15<26:05,  1.52s/it, v_num=cbeq, train/loss=3.560]\r",
+      "Epoch 0:  45%|▍| 838/1867 [21:15<26:05,  1.52s/it, v_num=cbeq, train/loss=4.620]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 839/1867 [21:15<26:02,  1.52s/it, v_num=cbeq, train/loss=4.620]\r",
+      "Epoch 0:  45%|▍| 839/1867 [21:15<26:02,  1.52s/it, v_num=cbeq, train/loss=1.300]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 840/1867 [21:20<26:05,  1.52s/it, v_num=cbeq, train/loss=1.300]\r",
+      "Epoch 0:  45%|▍| 840/1867 [21:20<26:05,  1.52s/it, v_num=cbeq, train/loss=2.880]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 841/1867 [21:20<26:02,  1.52s/it, v_num=cbeq, train/loss=2.880]\r",
+      "Epoch 0:  45%|▍| 841/1867 [21:20<26:02,  1.52s/it, v_num=cbeq, train/loss=3.830]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 842/1867 [21:20<25:59,  1.52s/it, v_num=cbeq, train/loss=3.830]\r",
+      "Epoch 0:  45%|▍| 842/1867 [21:20<25:59,  1.52s/it, v_num=cbeq, train/loss=2.550]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 843/1867 [21:20<25:56,  1.52s/it, v_num=cbeq, train/loss=2.550]\r",
+      "Epoch 0:  45%|▍| 843/1867 [21:20<25:56,  1.52s/it, v_num=cbeq, train/loss=3.390]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 844/1867 [21:26<25:59,  1.52s/it, v_num=cbeq, train/loss=3.390]\r",
+      "Epoch 0:  45%|▍| 844/1867 [21:26<25:59,  1.52s/it, v_num=cbeq, train/loss=2.910]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 845/1867 [21:26<25:56,  1.52s/it, v_num=cbeq, train/loss=2.910]\r",
+      "Epoch 0:  45%|▍| 845/1867 [21:26<25:56,  1.52s/it, v_num=cbeq, train/loss=4.190]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 846/1867 [21:26<25:53,  1.52s/it, v_num=cbeq, train/loss=4.190]\r",
+      "Epoch 0:  45%|▍| 846/1867 [21:26<25:53,  1.52s/it, v_num=cbeq, train/loss=3.220]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 847/1867 [21:26<25:49,  1.52s/it, v_num=cbeq, train/loss=3.220]\r",
+      "Epoch 0:  45%|▍| 847/1867 [21:26<25:49,  1.52s/it, v_num=cbeq, train/loss=2.060]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 848/1867 [21:32<25:53,  1.52s/it, v_num=cbeq, train/loss=2.060]\r",
+      "Epoch 0:  45%|▍| 848/1867 [21:32<25:53,  1.52s/it, v_num=cbeq, train/loss=2.530]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  45%|▍| 849/1867 [21:32<25:49,  1.52s/it, v_num=cbeq, train/loss=2.530]\r",
+      "Epoch 0:  45%|▍| 849/1867 [21:32<25:49,  1.52s/it, v_num=cbeq, train/loss=1.880]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 850/1867 [21:32<25:46,  1.52s/it, v_num=cbeq, train/loss=1.880]\r",
+      "Epoch 0:  46%|▍| 850/1867 [21:32<25:46,  1.52s/it, v_num=cbeq, train/loss=3.110]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 851/1867 [21:32<25:43,  1.52s/it, v_num=cbeq, train/loss=3.110]\r",
+      "Epoch 0:  46%|▍| 851/1867 [21:32<25:43,  1.52s/it, v_num=cbeq, train/loss=3.030]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 852/1867 [21:38<25:46,  1.52s/it, v_num=cbeq, train/loss=3.030]\r",
+      "Epoch 0:  46%|▍| 852/1867 [21:38<25:46,  1.52s/it, v_num=cbeq, train/loss=2.640]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 853/1867 [21:38<25:43,  1.52s/it, v_num=cbeq, train/loss=2.640]\r",
+      "Epoch 0:  46%|▍| 853/1867 [21:38<25:43,  1.52s/it, v_num=cbeq, train/loss=3.390]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 854/1867 [21:38<25:40,  1.52s/it, v_num=cbeq, train/loss=3.390]\r",
+      "Epoch 0:  46%|▍| 854/1867 [21:38<25:40,  1.52s/it, v_num=cbeq, train/loss=3.500]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 855/1867 [21:38<25:37,  1.52s/it, v_num=cbeq, train/loss=3.500]\r",
+      "Epoch 0:  46%|▍| 855/1867 [21:38<25:37,  1.52s/it, v_num=cbeq, train/loss=2.110]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 856/1867 [21:44<25:40,  1.52s/it, v_num=cbeq, train/loss=2.110]\r",
+      "Epoch 0:  46%|▍| 856/1867 [21:44<25:40,  1.52s/it, v_num=cbeq, train/loss=4.470]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 857/1867 [21:44<25:37,  1.52s/it, v_num=cbeq, train/loss=4.470]\r",
+      "Epoch 0:  46%|▍| 857/1867 [21:44<25:37,  1.52s/it, v_num=cbeq, train/loss=3.090]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 858/1867 [21:44<25:33,  1.52s/it, v_num=cbeq, train/loss=3.090]\r",
+      "Epoch 0:  46%|▍| 858/1867 [21:44<25:33,  1.52s/it, v_num=cbeq, train/loss=4.000]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 859/1867 [21:44<25:30,  1.52s/it, v_num=cbeq, train/loss=4.000]\r",
+      "Epoch 0:  46%|▍| 859/1867 [21:44<25:30,  1.52s/it, v_num=cbeq, train/loss=4.590]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 860/1867 [21:50<25:34,  1.52s/it, v_num=cbeq, train/loss=4.590]\r",
+      "Epoch 0:  46%|▍| 860/1867 [21:50<25:34,  1.52s/it, v_num=cbeq, train/loss=3.020]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 861/1867 [21:50<25:31,  1.52s/it, v_num=cbeq, train/loss=3.020]\r",
+      "Epoch 0:  46%|▍| 861/1867 [21:50<25:31,  1.52s/it, v_num=cbeq, train/loss=3.160]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 862/1867 [21:50<25:28,  1.52s/it, v_num=cbeq, train/loss=3.160]\r",
+      "Epoch 0:  46%|▍| 862/1867 [21:50<25:28,  1.52s/it, v_num=cbeq, train/loss=2.610]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 863/1867 [21:50<25:24,  1.52s/it, v_num=cbeq, train/loss=2.610]\r",
+      "Epoch 0:  46%|▍| 863/1867 [21:50<25:24,  1.52s/it, v_num=cbeq, train/loss=4.720]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 864/1867 [21:56<25:28,  1.52s/it, v_num=cbeq, train/loss=4.720]\r",
+      "Epoch 0:  46%|▍| 864/1867 [21:56<25:28,  1.52s/it, v_num=cbeq, train/loss=3.270]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 865/1867 [21:56<25:24,  1.52s/it, v_num=cbeq, train/loss=3.270]\r",
+      "Epoch 0:  46%|▍| 865/1867 [21:56<25:24,  1.52s/it, v_num=cbeq, train/loss=4.380]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 866/1867 [21:56<25:21,  1.52s/it, v_num=cbeq, train/loss=4.380]\r",
+      "Epoch 0:  46%|▍| 866/1867 [21:56<25:21,  1.52s/it, v_num=cbeq, train/loss=4.590]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 867/1867 [21:56<25:18,  1.52s/it, v_num=cbeq, train/loss=4.590]\r",
+      "Epoch 0:  46%|▍| 867/1867 [21:56<25:18,  1.52s/it, v_num=cbeq, train/loss=1.960]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  46%|▍| 868/1867 [22:02<25:21,  1.52s/it, v_num=cbeq, train/loss=1.960]\r",
+      "Epoch 0:  46%|▍| 868/1867 [22:02<25:21,  1.52s/it, v_num=cbeq, train/loss=5.530]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 869/1867 [22:02<25:18,  1.52s/it, v_num=cbeq, train/loss=5.530]\r",
+      "Epoch 0:  47%|▍| 869/1867 [22:02<25:18,  1.52s/it, v_num=cbeq, train/loss=3.610]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 870/1867 [22:02<25:15,  1.52s/it, v_num=cbeq, train/loss=3.610]\r",
+      "Epoch 0:  47%|▍| 870/1867 [22:02<25:15,  1.52s/it, v_num=cbeq, train/loss=4.560]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 871/1867 [22:02<25:12,  1.52s/it, v_num=cbeq, train/loss=4.560]\r",
+      "Epoch 0:  47%|▍| 871/1867 [22:02<25:12,  1.52s/it, v_num=cbeq, train/loss=3.220]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 872/1867 [22:08<25:15,  1.52s/it, v_num=cbeq, train/loss=3.220]\r",
+      "Epoch 0:  47%|▍| 872/1867 [22:08<25:15,  1.52s/it, v_num=cbeq, train/loss=4.090]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 873/1867 [22:08<25:12,  1.52s/it, v_num=cbeq, train/loss=4.090]\r",
+      "Epoch 0:  47%|▍| 873/1867 [22:08<25:12,  1.52s/it, v_num=cbeq, train/loss=3.110]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 874/1867 [22:08<25:09,  1.52s/it, v_num=cbeq, train/loss=3.110]\r",
+      "Epoch 0:  47%|▍| 874/1867 [22:08<25:09,  1.52s/it, v_num=cbeq, train/loss=4.660]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 875/1867 [22:08<25:06,  1.52s/it, v_num=cbeq, train/loss=4.660]\r",
+      "Epoch 0:  47%|▍| 875/1867 [22:08<25:06,  1.52s/it, v_num=cbeq, train/loss=3.620]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 876/1867 [22:14<25:09,  1.52s/it, v_num=cbeq, train/loss=3.620]\r",
+      "Epoch 0:  47%|▍| 876/1867 [22:14<25:09,  1.52s/it, v_num=cbeq, train/loss=3.700]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 877/1867 [22:14<25:06,  1.52s/it, v_num=cbeq, train/loss=3.700]\r",
+      "Epoch 0:  47%|▍| 877/1867 [22:14<25:06,  1.52s/it, v_num=cbeq, train/loss=2.170]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 878/1867 [22:14<25:02,  1.52s/it, v_num=cbeq, train/loss=2.170]\r",
+      "Epoch 0:  47%|▍| 878/1867 [22:14<25:02,  1.52s/it, v_num=cbeq, train/loss=3.310]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 879/1867 [22:14<24:59,  1.52s/it, v_num=cbeq, train/loss=3.310]\r",
+      "Epoch 0:  47%|▍| 879/1867 [22:14<24:59,  1.52s/it, v_num=cbeq, train/loss=2.550]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 880/1867 [22:19<25:02,  1.52s/it, v_num=cbeq, train/loss=2.550]\r",
+      "Epoch 0:  47%|▍| 880/1867 [22:19<25:02,  1.52s/it, v_num=cbeq, train/loss=3.950]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 881/1867 [22:20<24:59,  1.52s/it, v_num=cbeq, train/loss=3.950]\r",
+      "Epoch 0:  47%|▍| 881/1867 [22:20<24:59,  1.52s/it, v_num=cbeq, train/loss=3.830]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 882/1867 [22:20<24:56,  1.52s/it, v_num=cbeq, train/loss=3.830]\r",
+      "Epoch 0:  47%|▍| 882/1867 [22:20<24:56,  1.52s/it, v_num=cbeq, train/loss=1.090]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 883/1867 [22:20<24:53,  1.52s/it, v_num=cbeq, train/loss=1.090]\r",
+      "Epoch 0:  47%|▍| 883/1867 [22:20<24:53,  1.52s/it, v_num=cbeq, train/loss=2.410]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 884/1867 [22:26<24:56,  1.52s/it, v_num=cbeq, train/loss=2.410]\r",
+      "Epoch 0:  47%|▍| 884/1867 [22:26<24:56,  1.52s/it, v_num=cbeq, train/loss=2.450]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 885/1867 [22:26<24:53,  1.52s/it, v_num=cbeq, train/loss=2.450]\r",
+      "Epoch 0:  47%|▍| 885/1867 [22:26<24:53,  1.52s/it, v_num=cbeq, train/loss=4.090]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  47%|▍| 886/1867 [22:26<24:50,  1.52s/it, v_num=cbeq, train/loss=4.090]\r",
+      "Epoch 0:  47%|▍| 886/1867 [22:26<24:50,  1.52s/it, v_num=cbeq, train/loss=4.000]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 887/1867 [22:26<24:47,  1.52s/it, v_num=cbeq, train/loss=4.000]\r",
+      "Epoch 0:  48%|▍| 887/1867 [22:26<24:47,  1.52s/it, v_num=cbeq, train/loss=1.920]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 888/1867 [22:32<24:50,  1.52s/it, v_num=cbeq, train/loss=1.920]\r",
+      "Epoch 0:  48%|▍| 888/1867 [22:32<24:50,  1.52s/it, v_num=cbeq, train/loss=2.190]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 889/1867 [22:32<24:47,  1.52s/it, v_num=cbeq, train/loss=2.190]\r",
+      "Epoch 0:  48%|▍| 889/1867 [22:32<24:47,  1.52s/it, v_num=cbeq, train/loss=3.030]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 890/1867 [22:32<24:44,  1.52s/it, v_num=cbeq, train/loss=3.030]\r",
+      "Epoch 0:  48%|▍| 890/1867 [22:32<24:44,  1.52s/it, v_num=cbeq, train/loss=4.220]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 891/1867 [22:32<24:41,  1.52s/it, v_num=cbeq, train/loss=4.220]\r",
+      "Epoch 0:  48%|▍| 891/1867 [22:32<24:41,  1.52s/it, v_num=cbeq, train/loss=2.280]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 892/1867 [22:38<24:44,  1.52s/it, v_num=cbeq, train/loss=2.280]\r",
+      "Epoch 0:  48%|▍| 892/1867 [22:38<24:44,  1.52s/it, v_num=cbeq, train/loss=3.200]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 893/1867 [22:38<24:41,  1.52s/it, v_num=cbeq, train/loss=3.200]\r",
+      "Epoch 0:  48%|▍| 893/1867 [22:38<24:41,  1.52s/it, v_num=cbeq, train/loss=3.220]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 894/1867 [22:38<24:38,  1.52s/it, v_num=cbeq, train/loss=3.220]\r",
+      "Epoch 0:  48%|▍| 894/1867 [22:38<24:38,  1.52s/it, v_num=cbeq, train/loss=2.750]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 895/1867 [22:38<24:35,  1.52s/it, v_num=cbeq, train/loss=2.750]\r",
+      "Epoch 0:  48%|▍| 895/1867 [22:38<24:35,  1.52s/it, v_num=cbeq, train/loss=2.950]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 896/1867 [22:44<24:38,  1.52s/it, v_num=cbeq, train/loss=2.950]\r",
+      "Epoch 0:  48%|▍| 896/1867 [22:44<24:38,  1.52s/it, v_num=cbeq, train/loss=3.780]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 897/1867 [22:44<24:35,  1.52s/it, v_num=cbeq, train/loss=3.780]\r",
+      "Epoch 0:  48%|▍| 897/1867 [22:44<24:35,  1.52s/it, v_num=cbeq, train/loss=3.530]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 898/1867 [22:44<24:32,  1.52s/it, v_num=cbeq, train/loss=3.530]\r",
+      "Epoch 0:  48%|▍| 898/1867 [22:44<24:32,  1.52s/it, v_num=cbeq, train/loss=1.780]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 899/1867 [22:44<24:28,  1.52s/it, v_num=cbeq, train/loss=1.780]\r",
+      "Epoch 0:  48%|▍| 899/1867 [22:44<24:28,  1.52s/it, v_num=cbeq, train/loss=2.060]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 900/1867 [22:49<24:31,  1.52s/it, v_num=cbeq, train/loss=2.060]\r",
+      "Epoch 0:  48%|▍| 900/1867 [22:49<24:31,  1.52s/it, v_num=cbeq, train/loss=2.230]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 901/1867 [22:49<24:28,  1.52s/it, v_num=cbeq, train/loss=2.230]\r",
+      "Epoch 0:  48%|▍| 901/1867 [22:49<24:28,  1.52s/it, v_num=cbeq, train/loss=2.770]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 902/1867 [22:49<24:25,  1.52s/it, v_num=cbeq, train/loss=2.770]\r",
+      "Epoch 0:  48%|▍| 902/1867 [22:49<24:25,  1.52s/it, v_num=cbeq, train/loss=2.230]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 903/1867 [22:49<24:22,  1.52s/it, v_num=cbeq, train/loss=2.230]\r",
+      "Epoch 0:  48%|▍| 903/1867 [22:49<24:22,  1.52s/it, v_num=cbeq, train/loss=2.560]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 904/1867 [22:56<24:26,  1.52s/it, v_num=cbeq, train/loss=2.560]\r",
+      "Epoch 0:  48%|▍| 904/1867 [22:56<24:26,  1.52s/it, v_num=cbeq, train/loss=4.000]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  48%|▍| 905/1867 [22:56<24:23,  1.52s/it, v_num=cbeq, train/loss=4.000]\r",
+      "Epoch 0:  48%|▍| 905/1867 [22:56<24:23,  1.52s/it, v_num=cbeq, train/loss=4.160]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 906/1867 [22:56<24:20,  1.52s/it, v_num=cbeq, train/loss=4.160]\r",
+      "Epoch 0:  49%|▍| 906/1867 [22:56<24:20,  1.52s/it, v_num=cbeq, train/loss=2.230]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 907/1867 [22:56<24:17,  1.52s/it, v_num=cbeq, train/loss=2.230]\r",
+      "Epoch 0:  49%|▍| 907/1867 [22:56<24:17,  1.52s/it, v_num=cbeq, train/loss=3.060]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 908/1867 [23:02<24:20,  1.52s/it, v_num=cbeq, train/loss=3.060]\r",
+      "Epoch 0:  49%|▍| 908/1867 [23:02<24:20,  1.52s/it, v_num=cbeq, train/loss=2.770]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 909/1867 [23:02<24:17,  1.52s/it, v_num=cbeq, train/loss=2.770]\r",
+      "Epoch 0:  49%|▍| 909/1867 [23:02<24:17,  1.52s/it, v_num=cbeq, train/loss=4.660]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 910/1867 [23:02<24:14,  1.52s/it, v_num=cbeq, train/loss=4.660]\r",
+      "Epoch 0:  49%|▍| 910/1867 [23:02<24:14,  1.52s/it, v_num=cbeq, train/loss=3.800]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 911/1867 [23:02<24:11,  1.52s/it, v_num=cbeq, train/loss=3.800]\r",
+      "Epoch 0:  49%|▍| 911/1867 [23:02<24:11,  1.52s/it, v_num=cbeq, train/loss=1.880]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 912/1867 [23:08<24:13,  1.52s/it, v_num=cbeq, train/loss=1.880]\r",
+      "Epoch 0:  49%|▍| 912/1867 [23:08<24:13,  1.52s/it, v_num=cbeq, train/loss=3.620]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 913/1867 [23:08<24:10,  1.52s/it, v_num=cbeq, train/loss=3.620]\r",
+      "Epoch 0:  49%|▍| 913/1867 [23:08<24:10,  1.52s/it, v_num=cbeq, train/loss=4.280]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 914/1867 [23:08<24:07,  1.52s/it, v_num=cbeq, train/loss=4.280]\r",
+      "Epoch 0:  49%|▍| 914/1867 [23:08<24:07,  1.52s/it, v_num=cbeq, train/loss=2.250]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 915/1867 [23:08<24:04,  1.52s/it, v_num=cbeq, train/loss=2.250]\r",
+      "Epoch 0:  49%|▍| 915/1867 [23:08<24:04,  1.52s/it, v_num=cbeq, train/loss=3.060]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 916/1867 [23:14<24:07,  1.52s/it, v_num=cbeq, train/loss=3.060]\r",
+      "Epoch 0:  49%|▍| 916/1867 [23:14<24:07,  1.52s/it, v_num=cbeq, train/loss=3.410]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 917/1867 [23:14<24:04,  1.52s/it, v_num=cbeq, train/loss=3.410]\r",
+      "Epoch 0:  49%|▍| 917/1867 [23:14<24:04,  1.52s/it, v_num=cbeq, train/loss=2.590]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 918/1867 [23:14<24:01,  1.52s/it, v_num=cbeq, train/loss=2.590]\r",
+      "Epoch 0:  49%|▍| 918/1867 [23:14<24:01,  1.52s/it, v_num=cbeq, train/loss=3.530]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 919/1867 [23:14<23:59,  1.52s/it, v_num=cbeq, train/loss=3.530]\r",
+      "Epoch 0:  49%|▍| 919/1867 [23:14<23:59,  1.52s/it, v_num=cbeq, train/loss=2.530]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 920/1867 [23:20<24:01,  1.52s/it, v_num=cbeq, train/loss=2.530]\r",
+      "Epoch 0:  49%|▍| 920/1867 [23:20<24:01,  1.52s/it, v_num=cbeq, train/loss=2.780]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 921/1867 [23:20<23:58,  1.52s/it, v_num=cbeq, train/loss=2.780]\r",
+      "Epoch 0:  49%|▍| 921/1867 [23:20<23:58,  1.52s/it, v_num=cbeq, train/loss=2.640]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 922/1867 [23:20<23:55,  1.52s/it, v_num=cbeq, train/loss=2.640]\r",
+      "Epoch 0:  49%|▍| 922/1867 [23:20<23:55,  1.52s/it, v_num=cbeq, train/loss=3.090]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 923/1867 [23:20<23:52,  1.52s/it, v_num=cbeq, train/loss=3.090]\r",
+      "Epoch 0:  49%|▍| 923/1867 [23:20<23:52,  1.52s/it, v_num=cbeq, train/loss=3.250]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  49%|▍| 924/1867 [23:26<23:55,  1.52s/it, v_num=cbeq, train/loss=3.250]\r",
+      "Epoch 0:  49%|▍| 924/1867 [23:26<23:55,  1.52s/it, v_num=cbeq, train/loss=3.610]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▍| 925/1867 [23:26<23:52,  1.52s/it, v_num=cbeq, train/loss=3.610]\r",
+      "Epoch 0:  50%|▍| 925/1867 [23:26<23:52,  1.52s/it, v_num=cbeq, train/loss=2.590]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▍| 926/1867 [23:26<23:49,  1.52s/it, v_num=cbeq, train/loss=2.590]\r",
+      "Epoch 0:  50%|▍| 926/1867 [23:26<23:49,  1.52s/it, v_num=cbeq, train/loss=3.950]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▍| 927/1867 [23:26<23:46,  1.52s/it, v_num=cbeq, train/loss=3.950]\r",
+      "Epoch 0:  50%|▍| 927/1867 [23:26<23:46,  1.52s/it, v_num=cbeq, train/loss=1.840]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▍| 928/1867 [23:31<23:48,  1.52s/it, v_num=cbeq, train/loss=1.840]\r",
+      "Epoch 0:  50%|▍| 928/1867 [23:31<23:48,  1.52s/it, v_num=cbeq, train/loss=2.880]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▍| 929/1867 [23:32<23:45,  1.52s/it, v_num=cbeq, train/loss=2.880]\r",
+      "Epoch 0:  50%|▍| 929/1867 [23:32<23:45,  1.52s/it, v_num=cbeq, train/loss=3.950]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▍| 930/1867 [23:32<23:42,  1.52s/it, v_num=cbeq, train/loss=3.950]\r",
+      "Epoch 0:  50%|▍| 930/1867 [23:32<23:42,  1.52s/it, v_num=cbeq, train/loss=3.980]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▍| 931/1867 [23:32<23:39,  1.52s/it, v_num=cbeq, train/loss=3.980]\r",
+      "Epoch 0:  50%|▍| 931/1867 [23:32<23:39,  1.52s/it, v_num=cbeq, train/loss=2.340]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▍| 932/1867 [23:38<23:42,  1.52s/it, v_num=cbeq, train/loss=2.340]\r",
+      "Epoch 0:  50%|▍| 932/1867 [23:38<23:42,  1.52s/it, v_num=cbeq, train/loss=1.850]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▍| 933/1867 [23:38<23:39,  1.52s/it, v_num=cbeq, train/loss=1.850]\r",
+      "Epoch 0:  50%|▍| 933/1867 [23:38<23:39,  1.52s/it, v_num=cbeq, train/loss=1.630]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▌| 934/1867 [23:38<23:36,  1.52s/it, v_num=cbeq, train/loss=1.630]\r",
+      "Epoch 0:  50%|▌| 934/1867 [23:38<23:36,  1.52s/it, v_num=cbeq, train/loss=3.080]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▌| 935/1867 [23:38<23:33,  1.52s/it, v_num=cbeq, train/loss=3.080]\r",
+      "Epoch 0:  50%|▌| 935/1867 [23:38<23:33,  1.52s/it, v_num=cbeq, train/loss=2.800]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▌| 936/1867 [23:43<23:36,  1.52s/it, v_num=cbeq, train/loss=2.800]\r",
+      "Epoch 0:  50%|▌| 936/1867 [23:43<23:36,  1.52s/it, v_num=cbeq, train/loss=4.810]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▌| 937/1867 [23:43<23:33,  1.52s/it, v_num=cbeq, train/loss=4.810]\r",
+      "Epoch 0:  50%|▌| 937/1867 [23:43<23:33,  1.52s/it, v_num=cbeq, train/loss=5.090]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▌| 938/1867 [23:43<23:30,  1.52s/it, v_num=cbeq, train/loss=5.090]\r",
+      "Epoch 0:  50%|▌| 938/1867 [23:43<23:30,  1.52s/it, v_num=cbeq, train/loss=1.610]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▌| 939/1867 [23:44<23:27,  1.52s/it, v_num=cbeq, train/loss=1.610]\r",
+      "Epoch 0:  50%|▌| 939/1867 [23:44<23:27,  1.52s/it, v_num=cbeq, train/loss=3.700]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▌| 940/1867 [23:49<23:29,  1.52s/it, v_num=cbeq, train/loss=3.700]\r",
+      "Epoch 0:  50%|▌| 940/1867 [23:49<23:29,  1.52s/it, v_num=cbeq, train/loss=2.620]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▌| 941/1867 [23:49<23:26,  1.52s/it, v_num=cbeq, train/loss=2.620]\r",
+      "Epoch 0:  50%|▌| 941/1867 [23:49<23:26,  1.52s/it, v_num=cbeq, train/loss=3.700]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  50%|▌| 942/1867 [23:49<23:23,  1.52s/it, v_num=cbeq, train/loss=3.700]\r",
+      "Epoch 0:  50%|▌| 942/1867 [23:49<23:23,  1.52s/it, v_num=cbeq, train/loss=3.160]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 943/1867 [23:49<23:21,  1.52s/it, v_num=cbeq, train/loss=3.160]\r",
+      "Epoch 0:  51%|▌| 943/1867 [23:49<23:21,  1.52s/it, v_num=cbeq, train/loss=2.380]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 944/1867 [23:55<23:23,  1.52s/it, v_num=cbeq, train/loss=2.380]\r",
+      "Epoch 0:  51%|▌| 944/1867 [23:55<23:23,  1.52s/it, v_num=cbeq, train/loss=4.000]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 945/1867 [23:55<23:20,  1.52s/it, v_num=cbeq, train/loss=4.000]\r",
+      "Epoch 0:  51%|▌| 945/1867 [23:55<23:20,  1.52s/it, v_num=cbeq, train/loss=3.690]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 946/1867 [23:55<23:17,  1.52s/it, v_num=cbeq, train/loss=3.690]\r",
+      "Epoch 0:  51%|▌| 946/1867 [23:55<23:17,  1.52s/it, v_num=cbeq, train/loss=2.860]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 947/1867 [23:55<23:14,  1.52s/it, v_num=cbeq, train/loss=2.860]\r",
+      "Epoch 0:  51%|▌| 947/1867 [23:55<23:14,  1.52s/it, v_num=cbeq, train/loss=3.120]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 948/1867 [24:01<23:17,  1.52s/it, v_num=cbeq, train/loss=3.120]\r",
+      "Epoch 0:  51%|▌| 948/1867 [24:01<23:17,  1.52s/it, v_num=cbeq, train/loss=3.200]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 949/1867 [24:01<23:14,  1.52s/it, v_num=cbeq, train/loss=3.200]\r",
+      "Epoch 0:  51%|▌| 949/1867 [24:01<23:14,  1.52s/it, v_num=cbeq, train/loss=3.970]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 950/1867 [24:01<23:11,  1.52s/it, v_num=cbeq, train/loss=3.970]\r",
+      "Epoch 0:  51%|▌| 950/1867 [24:01<23:11,  1.52s/it, v_num=cbeq, train/loss=3.030]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 951/1867 [24:01<23:08,  1.52s/it, v_num=cbeq, train/loss=3.030]\r",
+      "Epoch 0:  51%|▌| 951/1867 [24:01<23:08,  1.52s/it, v_num=cbeq, train/loss=3.000]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 952/1867 [24:07<23:10,  1.52s/it, v_num=cbeq, train/loss=3.000]\r",
+      "Epoch 0:  51%|▌| 952/1867 [24:07<23:10,  1.52s/it, v_num=cbeq, train/loss=3.550]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 953/1867 [24:07<23:08,  1.52s/it, v_num=cbeq, train/loss=3.550]\r",
+      "Epoch 0:  51%|▌| 953/1867 [24:07<23:08,  1.52s/it, v_num=cbeq, train/loss=3.380]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 954/1867 [24:07<23:05,  1.52s/it, v_num=cbeq, train/loss=3.380]\r",
+      "Epoch 0:  51%|▌| 954/1867 [24:07<23:05,  1.52s/it, v_num=cbeq, train/loss=2.980]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 955/1867 [24:07<23:02,  1.52s/it, v_num=cbeq, train/loss=2.980]\r",
+      "Epoch 0:  51%|▌| 955/1867 [24:07<23:02,  1.52s/it, v_num=cbeq, train/loss=3.080]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 956/1867 [24:13<23:04,  1.52s/it, v_num=cbeq, train/loss=3.080]\r",
+      "Epoch 0:  51%|▌| 956/1867 [24:13<23:04,  1.52s/it, v_num=cbeq, train/loss=4.000]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 957/1867 [24:13<23:01,  1.52s/it, v_num=cbeq, train/loss=4.000]\r",
+      "Epoch 0:  51%|▌| 957/1867 [24:13<23:01,  1.52s/it, v_num=cbeq, train/loss=3.840]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 958/1867 [24:13<22:58,  1.52s/it, v_num=cbeq, train/loss=3.840]\r",
+      "Epoch 0:  51%|▌| 958/1867 [24:13<22:58,  1.52s/it, v_num=cbeq, train/loss=3.860]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 959/1867 [24:13<22:56,  1.52s/it, v_num=cbeq, train/loss=3.860]\r",
+      "Epoch 0:  51%|▌| 959/1867 [24:13<22:56,  1.52s/it, v_num=cbeq, train/loss=3.670]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 960/1867 [24:18<22:58,  1.52s/it, v_num=cbeq, train/loss=3.670]\r",
+      "Epoch 0:  51%|▌| 960/1867 [24:18<22:58,  1.52s/it, v_num=cbeq, train/loss=3.730]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  51%|▌| 961/1867 [24:18<22:55,  1.52s/it, v_num=cbeq, train/loss=3.730]\r",
+      "Epoch 0:  51%|▌| 961/1867 [24:18<22:55,  1.52s/it, v_num=cbeq, train/loss=1.910]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 962/1867 [24:19<22:52,  1.52s/it, v_num=cbeq, train/loss=1.910]\r",
+      "Epoch 0:  52%|▌| 962/1867 [24:19<22:52,  1.52s/it, v_num=cbeq, train/loss=3.970]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 963/1867 [24:19<22:49,  1.52s/it, v_num=cbeq, train/loss=3.970]\r",
+      "Epoch 0:  52%|▌| 963/1867 [24:19<22:49,  1.52s/it, v_num=cbeq, train/loss=1.280]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 964/1867 [24:24<22:52,  1.52s/it, v_num=cbeq, train/loss=1.280]\r",
+      "Epoch 0:  52%|▌| 964/1867 [24:24<22:52,  1.52s/it, v_num=cbeq, train/loss=3.880]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 965/1867 [24:24<22:49,  1.52s/it, v_num=cbeq, train/loss=3.880]\r",
+      "Epoch 0:  52%|▌| 965/1867 [24:24<22:49,  1.52s/it, v_num=cbeq, train/loss=3.270]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 966/1867 [24:25<22:46,  1.52s/it, v_num=cbeq, train/loss=3.270]\r",
+      "Epoch 0:  52%|▌| 966/1867 [24:25<22:46,  1.52s/it, v_num=cbeq, train/loss=3.050]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 967/1867 [24:25<22:43,  1.52s/it, v_num=cbeq, train/loss=3.050]\r",
+      "Epoch 0:  52%|▌| 967/1867 [24:25<22:43,  1.52s/it, v_num=cbeq, train/loss=3.720]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 968/1867 [24:30<22:45,  1.52s/it, v_num=cbeq, train/loss=3.720]\r",
+      "Epoch 0:  52%|▌| 968/1867 [24:30<22:45,  1.52s/it, v_num=cbeq, train/loss=2.640]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 969/1867 [24:30<22:42,  1.52s/it, v_num=cbeq, train/loss=2.640]\r",
+      "Epoch 0:  52%|▌| 969/1867 [24:30<22:42,  1.52s/it, v_num=cbeq, train/loss=3.700]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 970/1867 [24:30<22:40,  1.52s/it, v_num=cbeq, train/loss=3.700]\r",
+      "Epoch 0:  52%|▌| 970/1867 [24:30<22:40,  1.52s/it, v_num=cbeq, train/loss=3.860]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 971/1867 [24:30<22:37,  1.51s/it, v_num=cbeq, train/loss=3.860]\r",
+      "Epoch 0:  52%|▌| 971/1867 [24:30<22:37,  1.51s/it, v_num=cbeq, train/loss=4.000]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 972/1867 [24:36<22:39,  1.52s/it, v_num=cbeq, train/loss=4.000]\r",
+      "Epoch 0:  52%|▌| 972/1867 [24:36<22:39,  1.52s/it, v_num=cbeq, train/loss=4.280]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 973/1867 [24:36<22:36,  1.52s/it, v_num=cbeq, train/loss=4.280]\r",
+      "Epoch 0:  52%|▌| 973/1867 [24:36<22:36,  1.52s/it, v_num=cbeq, train/loss=3.000]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 974/1867 [24:36<22:33,  1.52s/it, v_num=cbeq, train/loss=3.000]\r",
+      "Epoch 0:  52%|▌| 974/1867 [24:36<22:33,  1.52s/it, v_num=cbeq, train/loss=2.940]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 975/1867 [24:36<22:31,  1.51s/it, v_num=cbeq, train/loss=2.940]\r",
+      "Epoch 0:  52%|▌| 975/1867 [24:36<22:31,  1.51s/it, v_num=cbeq, train/loss=2.860]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 976/1867 [24:42<22:33,  1.52s/it, v_num=cbeq, train/loss=2.860]\r",
+      "Epoch 0:  52%|▌| 976/1867 [24:42<22:33,  1.52s/it, v_num=cbeq, train/loss=4.970]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 977/1867 [24:42<22:30,  1.52s/it, v_num=cbeq, train/loss=4.970]\r",
+      "Epoch 0:  52%|▌| 977/1867 [24:42<22:30,  1.52s/it, v_num=cbeq, train/loss=2.610]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 978/1867 [24:42<22:27,  1.52s/it, v_num=cbeq, train/loss=2.610]\r",
+      "Epoch 0:  52%|▌| 978/1867 [24:42<22:27,  1.52s/it, v_num=cbeq, train/loss=2.120]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 979/1867 [24:42<22:24,  1.51s/it, v_num=cbeq, train/loss=2.120]\r",
+      "Epoch 0:  52%|▌| 979/1867 [24:42<22:24,  1.51s/it, v_num=cbeq, train/loss=1.750]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  52%|▌| 980/1867 [24:48<22:27,  1.52s/it, v_num=cbeq, train/loss=1.750]\r",
+      "Epoch 0:  52%|▌| 980/1867 [24:48<22:27,  1.52s/it, v_num=cbeq, train/loss=4.000]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 981/1867 [24:48<22:24,  1.52s/it, v_num=cbeq, train/loss=4.000]\r",
+      "Epoch 0:  53%|▌| 981/1867 [24:48<22:24,  1.52s/it, v_num=cbeq, train/loss=2.700]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 982/1867 [24:48<22:21,  1.52s/it, v_num=cbeq, train/loss=2.700]\r",
+      "Epoch 0:  53%|▌| 982/1867 [24:48<22:21,  1.52s/it, v_num=cbeq, train/loss=2.810]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 983/1867 [24:48<22:18,  1.51s/it, v_num=cbeq, train/loss=2.810]\r",
+      "Epoch 0:  53%|▌| 983/1867 [24:48<22:18,  1.51s/it, v_num=cbeq, train/loss=2.560]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 984/1867 [24:54<22:20,  1.52s/it, v_num=cbeq, train/loss=2.560]\r",
+      "Epoch 0:  53%|▌| 984/1867 [24:54<22:20,  1.52s/it, v_num=cbeq, train/loss=3.440]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 985/1867 [24:54<22:17,  1.52s/it, v_num=cbeq, train/loss=3.440]\r",
+      "Epoch 0:  53%|▌| 985/1867 [24:54<22:17,  1.52s/it, v_num=cbeq, train/loss=3.360]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 986/1867 [24:54<22:15,  1.52s/it, v_num=cbeq, train/loss=3.360]\r",
+      "Epoch 0:  53%|▌| 986/1867 [24:54<22:15,  1.52s/it, v_num=cbeq, train/loss=2.330]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 987/1867 [24:54<22:12,  1.51s/it, v_num=cbeq, train/loss=2.330]\r",
+      "Epoch 0:  53%|▌| 987/1867 [24:54<22:12,  1.51s/it, v_num=cbeq, train/loss=2.380]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 988/1867 [25:00<22:14,  1.52s/it, v_num=cbeq, train/loss=2.380]\r",
+      "Epoch 0:  53%|▌| 988/1867 [25:00<22:14,  1.52s/it, v_num=cbeq, train/loss=3.800]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 989/1867 [25:00<22:11,  1.52s/it, v_num=cbeq, train/loss=3.800]\r",
+      "Epoch 0:  53%|▌| 989/1867 [25:00<22:11,  1.52s/it, v_num=cbeq, train/loss=3.020]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 990/1867 [25:00<22:09,  1.52s/it, v_num=cbeq, train/loss=3.020]\r",
+      "Epoch 0:  53%|▌| 990/1867 [25:00<22:09,  1.52s/it, v_num=cbeq, train/loss=3.770]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 991/1867 [25:00<22:06,  1.51s/it, v_num=cbeq, train/loss=3.770]\r",
+      "Epoch 0:  53%|▌| 991/1867 [25:00<22:06,  1.51s/it, v_num=cbeq, train/loss=3.470]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 992/1867 [25:05<22:08,  1.52s/it, v_num=cbeq, train/loss=3.470]\r",
+      "Epoch 0:  53%|▌| 992/1867 [25:05<22:08,  1.52s/it, v_num=cbeq, train/loss=3.810]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 993/1867 [25:06<22:05,  1.52s/it, v_num=cbeq, train/loss=3.810]\r",
+      "Epoch 0:  53%|▌| 993/1867 [25:06<22:05,  1.52s/it, v_num=cbeq, train/loss=2.610]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 994/1867 [25:06<22:02,  1.52s/it, v_num=cbeq, train/loss=2.610]\r",
+      "Epoch 0:  53%|▌| 994/1867 [25:06<22:02,  1.52s/it, v_num=cbeq, train/loss=1.440]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 995/1867 [25:06<22:00,  1.51s/it, v_num=cbeq, train/loss=1.440]\r",
+      "Epoch 0:  53%|▌| 995/1867 [25:06<22:00,  1.51s/it, v_num=cbeq, train/loss=3.000]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 996/1867 [25:12<22:02,  1.52s/it, v_num=cbeq, train/loss=3.000]\r",
+      "Epoch 0:  53%|▌| 996/1867 [25:12<22:02,  1.52s/it, v_num=cbeq, train/loss=3.800]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 997/1867 [25:12<21:59,  1.52s/it, v_num=cbeq, train/loss=3.800]\r",
+      "Epoch 0:  53%|▌| 997/1867 [25:12<21:59,  1.52s/it, v_num=cbeq, train/loss=4.090]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  53%|▌| 998/1867 [25:12<21:56,  1.52s/it, v_num=cbeq, train/loss=4.090]\r",
+      "Epoch 0:  53%|▌| 998/1867 [25:12<21:56,  1.52s/it, v_num=cbeq, train/loss=3.110]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 999/1867 [25:12<21:54,  1.51s/it, v_num=cbeq, train/loss=3.110]\r",
+      "Epoch 0:  54%|▌| 999/1867 [25:12<21:54,  1.51s/it, v_num=cbeq, train/loss=2.770]"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 1000/1867 [25:18<21:56,  1.52s/it, v_num=cbeq, train/loss=2.770\r",
+      "Epoch 0:  54%|▌| 1000/1867 [25:18<21:56,  1.52s/it, v_num=cbeq, train/loss=4.750"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "/usr/local/lib/python3.11/dist-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.\r\n",
+      "  warnings.warn(\r\n",
+      "/usr/local/lib/python3.11/dist-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.\r\n",
+      "  warnings.warn(\r\n",
+      "/usr/local/lib/python3.11/dist-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.\r\n",
+      "  warnings.warn(\r\n",
+      "/usr/local/lib/python3.11/dist-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.\r\n",
+      "  warnings.warn(\r\n",
+      "/usr/local/lib/python3.11/dist-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.\r\n",
+      "  warnings.warn(\r\n",
+      "/usr/local/lib/python3.11/dist-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.\r\n",
+      "  warnings.warn(\r\n",
+      "/usr/local/lib/python3.11/dist-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.\r\n",
+      "  warnings.warn(\r\n",
+      "/usr/local/lib/python3.11/dist-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.\r\n",
+      "  warnings.warn(\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 1001/1867 [25:34<22:07,  1.53s/it, v_num=cbeq, train/loss=4.750\r",
+      "Epoch 0:  54%|▌| 1001/1867 [25:34<22:07,  1.53s/it, v_num=cbeq, train/loss=1.560"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 1002/1867 [25:34<22:05,  1.53s/it, v_num=cbeq, train/loss=1.560\r",
+      "Epoch 0:  54%|▌| 1002/1867 [25:34<22:05,  1.53s/it, v_num=cbeq, train/loss=3.780"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 1003/1867 [25:35<22:02,  1.53s/it, v_num=cbeq, train/loss=3.780\r",
+      "Epoch 0:  54%|▌| 1003/1867 [25:35<22:02,  1.53s/it, v_num=cbeq, train/loss=3.520"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 1004/1867 [25:40<22:04,  1.53s/it, v_num=cbeq, train/loss=3.520\r",
+      "Epoch 0:  54%|▌| 1004/1867 [25:40<22:04,  1.53s/it, v_num=cbeq, train/loss=4.410"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 1005/1867 [25:40<22:01,  1.53s/it, v_num=cbeq, train/loss=4.410\r",
+      "Epoch 0:  54%|▌| 1005/1867 [25:40<22:01,  1.53s/it, v_num=cbeq, train/loss=2.560"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 1006/1867 [25:40<21:58,  1.53s/it, v_num=cbeq, train/loss=2.560\r",
+      "Epoch 0:  54%|▌| 1006/1867 [25:40<21:58,  1.53s/it, v_num=cbeq, train/loss=3.500"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 1007/1867 [25:40<21:55,  1.53s/it, v_num=cbeq, train/loss=3.500\r",
+      "Epoch 0:  54%|▌| 1007/1867 [25:40<21:55,  1.53s/it, v_num=cbeq, train/loss=1.730"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 1008/1867 [25:46<21:57,  1.53s/it, v_num=cbeq, train/loss=1.730\r",
+      "Epoch 0:  54%|▌| 1008/1867 [25:46<21:57,  1.53s/it, v_num=cbeq, train/loss=3.340"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 1009/1867 [25:46<21:54,  1.53s/it, v_num=cbeq, train/loss=3.340\r",
+      "Epoch 0:  54%|▌| 1009/1867 [25:46<21:54,  1.53s/it, v_num=cbeq, train/loss=3.580"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 1010/1867 [25:46<21:52,  1.53s/it, v_num=cbeq, train/loss=3.580\r",
+      "Epoch 0:  54%|▌| 1010/1867 [25:46<21:52,  1.53s/it, v_num=cbeq, train/loss=1.720"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 1011/1867 [25:46<21:49,  1.53s/it, v_num=cbeq, train/loss=1.720\r",
+      "Epoch 0:  54%|▌| 1011/1867 [25:46<21:49,  1.53s/it, v_num=cbeq, train/loss=4.190"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 1012/1867 [25:52<21:51,  1.53s/it, v_num=cbeq, train/loss=4.190\r",
+      "Epoch 0:  54%|▌| 1012/1867 [25:52<21:51,  1.53s/it, v_num=cbeq, train/loss=3.720"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 1013/1867 [25:52<21:48,  1.53s/it, v_num=cbeq, train/loss=3.720\r",
+      "Epoch 0:  54%|▌| 1013/1867 [25:52<21:48,  1.53s/it, v_num=cbeq, train/loss=2.950"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 1014/1867 [25:52<21:45,  1.53s/it, v_num=cbeq, train/loss=2.950\r",
+      "Epoch 0:  54%|▌| 1014/1867 [25:52<21:45,  1.53s/it, v_num=cbeq, train/loss=3.390"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 1015/1867 [25:52<21:43,  1.53s/it, v_num=cbeq, train/loss=3.390"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 1015/1867 [25:52<21:43,  1.53s/it, v_num=cbeq, train/loss=3.520"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 1016/1867 [25:58<21:44,  1.53s/it, v_num=cbeq, train/loss=3.520\r",
+      "Epoch 0:  54%|▌| 1016/1867 [25:58<21:44,  1.53s/it, v_num=cbeq, train/loss=3.860"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  54%|▌| 1017/1867 [25:58<21:42,  1.53s/it, v_num=cbeq, train/loss=3.860\r",
+      "Epoch 0:  54%|▌| 1017/1867 [25:58<21:42,  1.53s/it, v_num=cbeq, train/loss=3.060"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 1018/1867 [25:58<21:39,  1.53s/it, v_num=cbeq, train/loss=3.060\r",
+      "Epoch 0:  55%|▌| 1018/1867 [25:58<21:39,  1.53s/it, v_num=cbeq, train/loss=3.300"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 1019/1867 [25:58<21:36,  1.53s/it, v_num=cbeq, train/loss=3.300\r",
+      "Epoch 0:  55%|▌| 1019/1867 [25:58<21:36,  1.53s/it, v_num=cbeq, train/loss=3.390"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 1020/1867 [26:04<21:38,  1.53s/it, v_num=cbeq, train/loss=3.390\r",
+      "Epoch 0:  55%|▌| 1020/1867 [26:04<21:38,  1.53s/it, v_num=cbeq, train/loss=3.090"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 1021/1867 [26:04<21:36,  1.53s/it, v_num=cbeq, train/loss=3.090\r",
+      "Epoch 0:  55%|▌| 1021/1867 [26:04<21:36,  1.53s/it, v_num=cbeq, train/loss=3.440"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 1022/1867 [26:04<21:33,  1.53s/it, v_num=cbeq, train/loss=3.440\r",
+      "Epoch 0:  55%|▌| 1022/1867 [26:04<21:33,  1.53s/it, v_num=cbeq, train/loss=4.220"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 1023/1867 [26:04<21:30,  1.53s/it, v_num=cbeq, train/loss=4.220\r",
+      "Epoch 0:  55%|▌| 1023/1867 [26:04<21:30,  1.53s/it, v_num=cbeq, train/loss=3.690"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 1024/1867 [26:10<21:32,  1.53s/it, v_num=cbeq, train/loss=3.690\r",
+      "Epoch 0:  55%|▌| 1024/1867 [26:10<21:32,  1.53s/it, v_num=cbeq, train/loss=3.000"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 1025/1867 [26:10<21:29,  1.53s/it, v_num=cbeq, train/loss=3.000\r",
+      "Epoch 0:  55%|▌| 1025/1867 [26:10<21:29,  1.53s/it, v_num=cbeq, train/loss=3.020"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 1026/1867 [26:10<21:27,  1.53s/it, v_num=cbeq, train/loss=3.020\r",
+      "Epoch 0:  55%|▌| 1026/1867 [26:10<21:27,  1.53s/it, v_num=cbeq, train/loss=5.590"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 1027/1867 [26:10<21:24,  1.53s/it, v_num=cbeq, train/loss=5.590\r",
+      "Epoch 0:  55%|▌| 1027/1867 [26:10<21:24,  1.53s/it, v_num=cbeq, train/loss=3.580"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 1028/1867 [26:16<21:26,  1.53s/it, v_num=cbeq, train/loss=3.580\r",
+      "Epoch 0:  55%|▌| 1028/1867 [26:16<21:26,  1.53s/it, v_num=cbeq, train/loss=2.550"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 1029/1867 [26:16<21:23,  1.53s/it, v_num=cbeq, train/loss=2.550\r",
+      "Epoch 0:  55%|▌| 1029/1867 [26:16<21:23,  1.53s/it, v_num=cbeq, train/loss=1.200"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 1030/1867 [26:16<21:20,  1.53s/it, v_num=cbeq, train/loss=1.200\r",
+      "Epoch 0:  55%|▌| 1030/1867 [26:16<21:20,  1.53s/it, v_num=cbeq, train/loss=2.970"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 1031/1867 [26:16<21:18,  1.53s/it, v_num=cbeq, train/loss=2.970\r",
+      "Epoch 0:  55%|▌| 1031/1867 [26:16<21:18,  1.53s/it, v_num=cbeq, train/loss=3.000"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 1032/1867 [26:22<21:20,  1.53s/it, v_num=cbeq, train/loss=3.000\r",
+      "Epoch 0:  55%|▌| 1032/1867 [26:22<21:20,  1.53s/it, v_num=cbeq, train/loss=3.390"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 1033/1867 [26:22<21:17,  1.53s/it, v_num=cbeq, train/loss=3.390\r",
+      "Epoch 0:  55%|▌| 1033/1867 [26:22<21:17,  1.53s/it, v_num=cbeq, train/loss=4.380"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 1034/1867 [26:22<21:15,  1.53s/it, v_num=cbeq, train/loss=4.380\r",
+      "Epoch 0:  55%|▌| 1034/1867 [26:22<21:15,  1.53s/it, v_num=cbeq, train/loss=2.970"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 1035/1867 [26:22<21:12,  1.53s/it, v_num=cbeq, train/loss=2.970\r",
+      "Epoch 0:  55%|▌| 1035/1867 [26:22<21:12,  1.53s/it, v_num=cbeq, train/loss=2.140"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  55%|▌| 1036/1867 [26:28<21:14,  1.53s/it, v_num=cbeq, train/loss=2.140\r",
+      "Epoch 0:  55%|▌| 1036/1867 [26:28<21:14,  1.53s/it, v_num=cbeq, train/loss=2.970"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 1037/1867 [26:28<21:11,  1.53s/it, v_num=cbeq, train/loss=2.970\r",
+      "Epoch 0:  56%|▌| 1037/1867 [26:28<21:11,  1.53s/it, v_num=cbeq, train/loss=3.670"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 1038/1867 [26:28<21:08,  1.53s/it, v_num=cbeq, train/loss=3.670\r",
+      "Epoch 0:  56%|▌| 1038/1867 [26:28<21:08,  1.53s/it, v_num=cbeq, train/loss=2.480"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 1039/1867 [26:28<21:06,  1.53s/it, v_num=cbeq, train/loss=2.480\r",
+      "Epoch 0:  56%|▌| 1039/1867 [26:28<21:06,  1.53s/it, v_num=cbeq, train/loss=3.000"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 1040/1867 [26:34<21:07,  1.53s/it, v_num=cbeq, train/loss=3.000\r",
+      "Epoch 0:  56%|▌| 1040/1867 [26:34<21:07,  1.53s/it, v_num=cbeq, train/loss=2.800"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 1041/1867 [26:34<21:05,  1.53s/it, v_num=cbeq, train/loss=2.800\r",
+      "Epoch 0:  56%|▌| 1041/1867 [26:34<21:05,  1.53s/it, v_num=cbeq, train/loss=3.480"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 1042/1867 [26:34<21:02,  1.53s/it, v_num=cbeq, train/loss=3.480\r",
+      "Epoch 0:  56%|▌| 1042/1867 [26:34<21:02,  1.53s/it, v_num=cbeq, train/loss=3.860"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 1043/1867 [26:34<20:59,  1.53s/it, v_num=cbeq, train/loss=3.860\r",
+      "Epoch 0:  56%|▌| 1043/1867 [26:34<20:59,  1.53s/it, v_num=cbeq, train/loss=4.220"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 1044/1867 [26:40<21:01,  1.53s/it, v_num=cbeq, train/loss=4.220\r",
+      "Epoch 0:  56%|▌| 1044/1867 [26:40<21:01,  1.53s/it, v_num=cbeq, train/loss=3.580"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 1045/1867 [26:40<20:58,  1.53s/it, v_num=cbeq, train/loss=3.580\r",
+      "Epoch 0:  56%|▌| 1045/1867 [26:40<20:58,  1.53s/it, v_num=cbeq, train/loss=3.000"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 1046/1867 [26:40<20:56,  1.53s/it, v_num=cbeq, train/loss=3.000\r",
+      "Epoch 0:  56%|▌| 1046/1867 [26:40<20:56,  1.53s/it, v_num=cbeq, train/loss=4.030"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 1047/1867 [26:40<20:53,  1.53s/it, v_num=cbeq, train/loss=4.030\r",
+      "Epoch 0:  56%|▌| 1047/1867 [26:40<20:53,  1.53s/it, v_num=cbeq, train/loss=2.690"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 1048/1867 [26:46<20:55,  1.53s/it, v_num=cbeq, train/loss=2.690\r",
+      "Epoch 0:  56%|▌| 1048/1867 [26:46<20:55,  1.53s/it, v_num=cbeq, train/loss=4.090"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 1049/1867 [26:46<20:52,  1.53s/it, v_num=cbeq, train/loss=4.090\r",
+      "Epoch 0:  56%|▌| 1049/1867 [26:46<20:52,  1.53s/it, v_num=cbeq, train/loss=3.800"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 1050/1867 [26:46<20:50,  1.53s/it, v_num=cbeq, train/loss=3.800\r",
+      "Epoch 0:  56%|▌| 1050/1867 [26:46<20:50,  1.53s/it, v_num=cbeq, train/loss=3.390"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 1051/1867 [26:46<20:47,  1.53s/it, v_num=cbeq, train/loss=3.390\r",
+      "Epoch 0:  56%|▌| 1051/1867 [26:46<20:47,  1.53s/it, v_num=cbeq, train/loss=3.560"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 1052/1867 [26:52<20:48,  1.53s/it, v_num=cbeq, train/loss=3.560\r",
+      "Epoch 0:  56%|▌| 1052/1867 [26:52<20:48,  1.53s/it, v_num=cbeq, train/loss=1.830"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 1053/1867 [26:52<20:46,  1.53s/it, v_num=cbeq, train/loss=1.830\r",
+      "Epoch 0:  56%|▌| 1053/1867 [26:52<20:46,  1.53s/it, v_num=cbeq, train/loss=1.480"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  56%|▌| 1054/1867 [26:52<20:43,  1.53s/it, v_num=cbeq, train/loss=1.480\r",
+      "Epoch 0:  56%|▌| 1054/1867 [26:52<20:43,  1.53s/it, v_num=cbeq, train/loss=3.560"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 1055/1867 [26:52<20:40,  1.53s/it, v_num=cbeq, train/loss=3.560\r",
+      "Epoch 0:  57%|▌| 1055/1867 [26:52<20:40,  1.53s/it, v_num=cbeq, train/loss=3.640"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 1056/1867 [26:57<20:42,  1.53s/it, v_num=cbeq, train/loss=3.640\r",
+      "Epoch 0:  57%|▌| 1056/1867 [26:57<20:42,  1.53s/it, v_num=cbeq, train/loss=1.340"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 1057/1867 [26:57<20:39,  1.53s/it, v_num=cbeq, train/loss=1.340\r",
+      "Epoch 0:  57%|▌| 1057/1867 [26:57<20:39,  1.53s/it, v_num=cbeq, train/loss=4.340"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 1058/1867 [26:58<20:37,  1.53s/it, v_num=cbeq, train/loss=4.340\r",
+      "Epoch 0:  57%|▌| 1058/1867 [26:58<20:37,  1.53s/it, v_num=cbeq, train/loss=3.420"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 1059/1867 [26:58<20:34,  1.53s/it, v_num=cbeq, train/loss=3.420\r",
+      "Epoch 0:  57%|▌| 1059/1867 [26:58<20:34,  1.53s/it, v_num=cbeq, train/loss=3.310"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 1060/1867 [27:03<20:36,  1.53s/it, v_num=cbeq, train/loss=3.310\r",
+      "Epoch 0:  57%|▌| 1060/1867 [27:03<20:36,  1.53s/it, v_num=cbeq, train/loss=3.030"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 1061/1867 [27:03<20:33,  1.53s/it, v_num=cbeq, train/loss=3.030\r",
+      "Epoch 0:  57%|▌| 1061/1867 [27:03<20:33,  1.53s/it, v_num=cbeq, train/loss=3.880"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 1062/1867 [27:03<20:30,  1.53s/it, v_num=cbeq, train/loss=3.880\r",
+      "Epoch 0:  57%|▌| 1062/1867 [27:03<20:30,  1.53s/it, v_num=cbeq, train/loss=1.640"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 1063/1867 [27:03<20:28,  1.53s/it, v_num=cbeq, train/loss=1.640\r",
+      "Epoch 0:  57%|▌| 1063/1867 [27:03<20:28,  1.53s/it, v_num=cbeq, train/loss=3.140"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 1064/1867 [27:09<20:29,  1.53s/it, v_num=cbeq, train/loss=3.140\r",
+      "Epoch 0:  57%|▌| 1064/1867 [27:09<20:29,  1.53s/it, v_num=cbeq, train/loss=3.230"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 1065/1867 [27:09<20:27,  1.53s/it, v_num=cbeq, train/loss=3.230\r",
+      "Epoch 0:  57%|▌| 1065/1867 [27:09<20:27,  1.53s/it, v_num=cbeq, train/loss=2.410"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 1066/1867 [27:09<20:24,  1.53s/it, v_num=cbeq, train/loss=2.410\r",
+      "Epoch 0:  57%|▌| 1066/1867 [27:09<20:24,  1.53s/it, v_num=cbeq, train/loss=3.970"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 1067/1867 [27:09<20:22,  1.53s/it, v_num=cbeq, train/loss=3.970\r",
+      "Epoch 0:  57%|▌| 1067/1867 [27:09<20:22,  1.53s/it, v_num=cbeq, train/loss=3.670"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 1068/1867 [27:15<20:23,  1.53s/it, v_num=cbeq, train/loss=3.670\r",
+      "Epoch 0:  57%|▌| 1068/1867 [27:15<20:23,  1.53s/it, v_num=cbeq, train/loss=3.190"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 1069/1867 [27:15<20:20,  1.53s/it, v_num=cbeq, train/loss=3.190\r",
+      "Epoch 0:  57%|▌| 1069/1867 [27:15<20:20,  1.53s/it, v_num=cbeq, train/loss=4.160"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 1070/1867 [27:15<20:18,  1.53s/it, v_num=cbeq, train/loss=4.160\r",
+      "Epoch 0:  57%|▌| 1070/1867 [27:15<20:18,  1.53s/it, v_num=cbeq, train/loss=2.530"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 1071/1867 [27:15<20:15,  1.53s/it, v_num=cbeq, train/loss=2.530\r",
+      "Epoch 0:  57%|▌| 1071/1867 [27:15<20:15,  1.53s/it, v_num=cbeq, train/loss=3.660"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 1072/1867 [27:21<20:17,  1.53s/it, v_num=cbeq, train/loss=3.660\r",
+      "Epoch 0:  57%|▌| 1072/1867 [27:21<20:17,  1.53s/it, v_num=cbeq, train/loss=4.090"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  57%|▌| 1073/1867 [27:21<20:14,  1.53s/it, v_num=cbeq, train/loss=4.090\r",
+      "Epoch 0:  57%|▌| 1073/1867 [27:21<20:14,  1.53s/it, v_num=cbeq, train/loss=2.530"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 1074/1867 [27:21<20:11,  1.53s/it, v_num=cbeq, train/loss=2.530\r",
+      "Epoch 0:  58%|▌| 1074/1867 [27:21<20:11,  1.53s/it, v_num=cbeq, train/loss=2.250"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 1075/1867 [27:21<20:09,  1.53s/it, v_num=cbeq, train/loss=2.250\r",
+      "Epoch 0:  58%|▌| 1075/1867 [27:21<20:09,  1.53s/it, v_num=cbeq, train/loss=4.190"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 1076/1867 [27:27<20:10,  1.53s/it, v_num=cbeq, train/loss=4.190\r",
+      "Epoch 0:  58%|▌| 1076/1867 [27:27<20:10,  1.53s/it, v_num=cbeq, train/loss=1.540"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 1077/1867 [27:27<20:08,  1.53s/it, v_num=cbeq, train/loss=1.540\r",
+      "Epoch 0:  58%|▌| 1077/1867 [27:27<20:08,  1.53s/it, v_num=cbeq, train/loss=3.780"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 1078/1867 [27:27<20:05,  1.53s/it, v_num=cbeq, train/loss=3.780\r",
+      "Epoch 0:  58%|▌| 1078/1867 [27:27<20:05,  1.53s/it, v_num=cbeq, train/loss=4.190"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 1079/1867 [27:27<20:03,  1.53s/it, v_num=cbeq, train/loss=4.190\r",
+      "Epoch 0:  58%|▌| 1079/1867 [27:27<20:03,  1.53s/it, v_num=cbeq, train/loss=4.310"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 1080/1867 [27:32<20:04,  1.53s/it, v_num=cbeq, train/loss=4.310\r",
+      "Epoch 0:  58%|▌| 1080/1867 [27:32<20:04,  1.53s/it, v_num=cbeq, train/loss=2.620"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 1081/1867 [27:33<20:01,  1.53s/it, v_num=cbeq, train/loss=2.620\r",
+      "Epoch 0:  58%|▌| 1081/1867 [27:33<20:01,  1.53s/it, v_num=cbeq, train/loss=2.610"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 1082/1867 [27:33<19:59,  1.53s/it, v_num=cbeq, train/loss=2.610\r",
+      "Epoch 0:  58%|▌| 1082/1867 [27:33<19:59,  1.53s/it, v_num=cbeq, train/loss=2.890"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 1083/1867 [27:33<19:56,  1.53s/it, v_num=cbeq, train/loss=2.890\r",
+      "Epoch 0:  58%|▌| 1083/1867 [27:33<19:56,  1.53s/it, v_num=cbeq, train/loss=1.560"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 1084/1867 [27:38<19:58,  1.53s/it, v_num=cbeq, train/loss=1.560\r",
+      "Epoch 0:  58%|▌| 1084/1867 [27:38<19:58,  1.53s/it, v_num=cbeq, train/loss=3.330"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 1085/1867 [27:38<19:55,  1.53s/it, v_num=cbeq, train/loss=3.330\r",
+      "Epoch 0:  58%|▌| 1085/1867 [27:38<19:55,  1.53s/it, v_num=cbeq, train/loss=4.620"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 1086/1867 [27:39<19:53,  1.53s/it, v_num=cbeq, train/loss=4.620\r",
+      "Epoch 0:  58%|▌| 1086/1867 [27:39<19:53,  1.53s/it, v_num=cbeq, train/loss=2.750"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 1087/1867 [27:39<19:50,  1.53s/it, v_num=cbeq, train/loss=2.750\r",
+      "Epoch 0:  58%|▌| 1087/1867 [27:39<19:50,  1.53s/it, v_num=cbeq, train/loss=2.410"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 1088/1867 [27:44<19:51,  1.53s/it, v_num=cbeq, train/loss=2.410\r",
+      "Epoch 0:  58%|▌| 1088/1867 [27:44<19:51,  1.53s/it, v_num=cbeq, train/loss=3.360"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 1089/1867 [27:44<19:49,  1.53s/it, v_num=cbeq, train/loss=3.360\r",
+      "Epoch 0:  58%|▌| 1089/1867 [27:44<19:49,  1.53s/it, v_num=cbeq, train/loss=3.020"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 1090/1867 [27:44<19:46,  1.53s/it, v_num=cbeq, train/loss=3.020\r",
+      "Epoch 0:  58%|▌| 1090/1867 [27:44<19:46,  1.53s/it, v_num=cbeq, train/loss=4.160"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 1091/1867 [27:45<19:44,  1.53s/it, v_num=cbeq, train/loss=4.160\r",
+      "Epoch 0:  58%|▌| 1091/1867 [27:45<19:44,  1.53s/it, v_num=cbeq, train/loss=3.200"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  58%|▌| 1092/1867 [27:50<19:45,  1.53s/it, v_num=cbeq, train/loss=3.200\r",
+      "Epoch 0:  58%|▌| 1092/1867 [27:50<19:45,  1.53s/it, v_num=cbeq, train/loss=2.470"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 1093/1867 [27:50<19:43,  1.53s/it, v_num=cbeq, train/loss=2.470"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 1093/1867 [27:50<19:43,  1.53s/it, v_num=cbeq, train/loss=2.860"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 1094/1867 [27:50<19:40,  1.53s/it, v_num=cbeq, train/loss=2.860\r",
+      "Epoch 0:  59%|▌| 1094/1867 [27:50<19:40,  1.53s/it, v_num=cbeq, train/loss=4.090"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 1095/1867 [27:50<19:37,  1.53s/it, v_num=cbeq, train/loss=4.090\r",
+      "Epoch 0:  59%|▌| 1095/1867 [27:50<19:37,  1.53s/it, v_num=cbeq, train/loss=3.550"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 1096/1867 [27:56<19:39,  1.53s/it, v_num=cbeq, train/loss=3.550\r",
+      "Epoch 0:  59%|▌| 1096/1867 [27:56<19:39,  1.53s/it, v_num=cbeq, train/loss=3.340"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 1097/1867 [27:56<19:36,  1.53s/it, v_num=cbeq, train/loss=3.340\r",
+      "Epoch 0:  59%|▌| 1097/1867 [27:56<19:36,  1.53s/it, v_num=cbeq, train/loss=2.940"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 1098/1867 [27:56<19:34,  1.53s/it, v_num=cbeq, train/loss=2.940\r",
+      "Epoch 0:  59%|▌| 1098/1867 [27:56<19:34,  1.53s/it, v_num=cbeq, train/loss=2.810"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 1099/1867 [27:56<19:31,  1.53s/it, v_num=cbeq, train/loss=2.810\r",
+      "Epoch 0:  59%|▌| 1099/1867 [27:56<19:31,  1.53s/it, v_num=cbeq, train/loss=3.310"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 1100/1867 [28:02<19:33,  1.53s/it, v_num=cbeq, train/loss=3.310\r",
+      "Epoch 0:  59%|▌| 1100/1867 [28:02<19:33,  1.53s/it, v_num=cbeq, train/loss=4.030"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 1101/1867 [28:02<19:30,  1.53s/it, v_num=cbeq, train/loss=4.030\r",
+      "Epoch 0:  59%|▌| 1101/1867 [28:02<19:30,  1.53s/it, v_num=cbeq, train/loss=2.880"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 1102/1867 [28:02<19:28,  1.53s/it, v_num=cbeq, train/loss=2.880\r",
+      "Epoch 0:  59%|▌| 1102/1867 [28:02<19:28,  1.53s/it, v_num=cbeq, train/loss=3.160"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 1103/1867 [28:02<19:25,  1.53s/it, v_num=cbeq, train/loss=3.160\r",
+      "Epoch 0:  59%|▌| 1103/1867 [28:02<19:25,  1.53s/it, v_num=cbeq, train/loss=2.950"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 1104/1867 [28:08<19:26,  1.53s/it, v_num=cbeq, train/loss=2.950\r",
+      "Epoch 0:  59%|▌| 1104/1867 [28:08<19:26,  1.53s/it, v_num=cbeq, train/loss=3.980"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 1105/1867 [28:08<19:24,  1.53s/it, v_num=cbeq, train/loss=3.980\r",
+      "Epoch 0:  59%|▌| 1105/1867 [28:08<19:24,  1.53s/it, v_num=cbeq, train/loss=3.580"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 1106/1867 [28:08<19:21,  1.53s/it, v_num=cbeq, train/loss=3.580\r",
+      "Epoch 0:  59%|▌| 1106/1867 [28:08<19:21,  1.53s/it, v_num=cbeq, train/loss=5.060"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 1107/1867 [28:08<19:19,  1.53s/it, v_num=cbeq, train/loss=5.060\r",
+      "Epoch 0:  59%|▌| 1107/1867 [28:08<19:19,  1.53s/it, v_num=cbeq, train/loss=4.560"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 1108/1867 [28:14<19:20,  1.53s/it, v_num=cbeq, train/loss=4.560\r",
+      "Epoch 0:  59%|▌| 1108/1867 [28:14<19:20,  1.53s/it, v_num=cbeq, train/loss=3.940"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 1109/1867 [28:14<19:18,  1.53s/it, v_num=cbeq, train/loss=3.940\r",
+      "Epoch 0:  59%|▌| 1109/1867 [28:14<19:18,  1.53s/it, v_num=cbeq, train/loss=4.470"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  59%|▌| 1110/1867 [28:14<19:15,  1.53s/it, v_num=cbeq, train/loss=4.470\r",
+      "Epoch 0:  59%|▌| 1110/1867 [28:14<19:15,  1.53s/it, v_num=cbeq, train/loss=3.950"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 1111/1867 [28:14<19:13,  1.53s/it, v_num=cbeq, train/loss=3.950\r",
+      "Epoch 0:  60%|▌| 1111/1867 [28:14<19:13,  1.53s/it, v_num=cbeq, train/loss=2.770"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 1112/1867 [28:21<19:15,  1.53s/it, v_num=cbeq, train/loss=2.770\r",
+      "Epoch 0:  60%|▌| 1112/1867 [28:21<19:15,  1.53s/it, v_num=cbeq, train/loss=3.420"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|��| 1113/1867 [28:21<19:12,  1.53s/it, v_num=cbeq, train/loss=3.420\r",
+      "Epoch 0:  60%|▌| 1113/1867 [28:21<19:12,  1.53s/it, v_num=cbeq, train/loss=4.190"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 1114/1867 [28:21<19:10,  1.53s/it, v_num=cbeq, train/loss=4.190\r",
+      "Epoch 0:  60%|▌| 1114/1867 [28:21<19:10,  1.53s/it, v_num=cbeq, train/loss=2.830"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 1115/1867 [28:21<19:07,  1.53s/it, v_num=cbeq, train/loss=2.830\r",
+      "Epoch 0:  60%|▌| 1115/1867 [28:21<19:07,  1.53s/it, v_num=cbeq, train/loss=3.020"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 1116/1867 [28:27<19:08,  1.53s/it, v_num=cbeq, train/loss=3.020\r",
+      "Epoch 0:  60%|▌| 1116/1867 [28:27<19:08,  1.53s/it, v_num=cbeq, train/loss=4.970"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 1117/1867 [28:27<19:06,  1.53s/it, v_num=cbeq, train/loss=4.970\r",
+      "Epoch 0:  60%|▌| 1117/1867 [28:27<19:06,  1.53s/it, v_num=cbeq, train/loss=4.690"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 1118/1867 [28:27<19:03,  1.53s/it, v_num=cbeq, train/loss=4.690\r",
+      "Epoch 0:  60%|▌| 1118/1867 [28:27<19:03,  1.53s/it, v_num=cbeq, train/loss=2.750"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 1119/1867 [28:27<19:01,  1.53s/it, v_num=cbeq, train/loss=2.750\r",
+      "Epoch 0:  60%|▌| 1119/1867 [28:27<19:01,  1.53s/it, v_num=cbeq, train/loss=2.910"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 1120/1867 [28:33<19:02,  1.53s/it, v_num=cbeq, train/loss=2.910\r",
+      "Epoch 0:  60%|▌| 1120/1867 [28:33<19:02,  1.53s/it, v_num=cbeq, train/loss=3.450"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 1121/1867 [28:33<19:00,  1.53s/it, v_num=cbeq, train/loss=3.450\r",
+      "Epoch 0:  60%|▌| 1121/1867 [28:33<19:00,  1.53s/it, v_num=cbeq, train/loss=3.730"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 1122/1867 [28:33<18:57,  1.53s/it, v_num=cbeq, train/loss=3.730\r",
+      "Epoch 0:  60%|▌| 1122/1867 [28:33<18:57,  1.53s/it, v_num=cbeq, train/loss=2.500"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 1123/1867 [28:33<18:55,  1.53s/it, v_num=cbeq, train/loss=2.500\r",
+      "Epoch 0:  60%|▌| 1123/1867 [28:33<18:55,  1.53s/it, v_num=cbeq, train/loss=1.190"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 1124/1867 [28:39<18:56,  1.53s/it, v_num=cbeq, train/loss=1.190\r",
+      "Epoch 0:  60%|▌| 1124/1867 [28:39<18:56,  1.53s/it, v_num=cbeq, train/loss=4.120"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 1125/1867 [28:39<18:54,  1.53s/it, v_num=cbeq, train/loss=4.120\r",
+      "Epoch 0:  60%|▌| 1125/1867 [28:39<18:54,  1.53s/it, v_num=cbeq, train/loss=4.190"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 1126/1867 [28:39<18:51,  1.53s/it, v_num=cbeq, train/loss=4.190\r",
+      "Epoch 0:  60%|▌| 1126/1867 [28:39<18:51,  1.53s/it, v_num=cbeq, train/loss=1.620"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 1127/1867 [28:39<18:49,  1.53s/it, v_num=cbeq, train/loss=1.620\r",
+      "Epoch 0:  60%|▌| 1127/1867 [28:39<18:49,  1.53s/it, v_num=cbeq, train/loss=2.660"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 1128/1867 [28:45<18:50,  1.53s/it, v_num=cbeq, train/loss=2.660\r",
+      "Epoch 0:  60%|▌| 1128/1867 [28:45<18:50,  1.53s/it, v_num=cbeq, train/loss=3.920"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  60%|▌| 1129/1867 [28:45<18:47,  1.53s/it, v_num=cbeq, train/loss=3.920\r",
+      "Epoch 0:  60%|▌| 1129/1867 [28:45<18:47,  1.53s/it, v_num=cbeq, train/loss=4.090"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 1130/1867 [28:45<18:45,  1.53s/it, v_num=cbeq, train/loss=4.090\r",
+      "Epoch 0:  61%|▌| 1130/1867 [28:45<18:45,  1.53s/it, v_num=cbeq, train/loss=2.550"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 1131/1867 [28:45<18:43,  1.53s/it, v_num=cbeq, train/loss=2.550\r",
+      "Epoch 0:  61%|▌| 1131/1867 [28:45<18:43,  1.53s/it, v_num=cbeq, train/loss=3.810"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 1132/1867 [28:51<18:44,  1.53s/it, v_num=cbeq, train/loss=3.810\r",
+      "Epoch 0:  61%|▌| 1132/1867 [28:51<18:44,  1.53s/it, v_num=cbeq, train/loss=2.340"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 1133/1867 [28:51<18:41,  1.53s/it, v_num=cbeq, train/loss=2.340\r",
+      "Epoch 0:  61%|▌| 1133/1867 [28:51<18:41,  1.53s/it, v_num=cbeq, train/loss=4.090"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 1134/1867 [28:51<18:39,  1.53s/it, v_num=cbeq, train/loss=4.090\r",
+      "Epoch 0:  61%|▌| 1134/1867 [28:51<18:39,  1.53s/it, v_num=cbeq, train/loss=3.520"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 1135/1867 [28:51<18:36,  1.53s/it, v_num=cbeq, train/loss=3.520\r",
+      "Epoch 0:  61%|▌| 1135/1867 [28:51<18:36,  1.53s/it, v_num=cbeq, train/loss=2.860"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 1136/1867 [28:57<18:37,  1.53s/it, v_num=cbeq, train/loss=2.860"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 1136/1867 [28:57<18:37,  1.53s/it, v_num=cbeq, train/loss=2.470"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 1137/1867 [28:57<18:35,  1.53s/it, v_num=cbeq, train/loss=2.470\r",
+      "Epoch 0:  61%|▌| 1137/1867 [28:57<18:35,  1.53s/it, v_num=cbeq, train/loss=5.030"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 1138/1867 [28:57<18:32,  1.53s/it, v_num=cbeq, train/loss=5.030\r",
+      "Epoch 0:  61%|▌| 1138/1867 [28:57<18:32,  1.53s/it, v_num=cbeq, train/loss=4.500"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 1139/1867 [28:57<18:30,  1.53s/it, v_num=cbeq, train/loss=4.500\r",
+      "Epoch 0:  61%|▌| 1139/1867 [28:57<18:30,  1.53s/it, v_num=cbeq, train/loss=3.220"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 1140/1867 [29:03<18:31,  1.53s/it, v_num=cbeq, train/loss=3.220"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 1140/1867 [29:03<18:31,  1.53s/it, v_num=cbeq, train/loss=3.620"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 1141/1867 [29:03<18:29,  1.53s/it, v_num=cbeq, train/loss=3.620\r",
+      "Epoch 0:  61%|▌| 1141/1867 [29:03<18:29,  1.53s/it, v_num=cbeq, train/loss=4.720"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 1142/1867 [29:03<18:26,  1.53s/it, v_num=cbeq, train/loss=4.720\r",
+      "Epoch 0:  61%|▌| 1142/1867 [29:03<18:26,  1.53s/it, v_num=cbeq, train/loss=4.000"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 1143/1867 [29:03<18:24,  1.53s/it, v_num=cbeq, train/loss=4.000\r",
+      "Epoch 0:  61%|▌| 1143/1867 [29:03<18:24,  1.53s/it, v_num=cbeq, train/loss=3.480"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 1144/1867 [29:09<18:25,  1.53s/it, v_num=cbeq, train/loss=3.480\r",
+      "Epoch 0:  61%|▌| 1144/1867 [29:09<18:25,  1.53s/it, v_num=cbeq, train/loss=3.670"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 1145/1867 [29:09<18:23,  1.53s/it, v_num=cbeq, train/loss=3.670\r",
+      "Epoch 0:  61%|▌| 1145/1867 [29:09<18:23,  1.53s/it, v_num=cbeq, train/loss=1.420"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 1146/1867 [29:09<18:20,  1.53s/it, v_num=cbeq, train/loss=1.420\r",
+      "Epoch 0:  61%|▌| 1146/1867 [29:09<18:20,  1.53s/it, v_num=cbeq, train/loss=2.920"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 1147/1867 [29:09<18:18,  1.53s/it, v_num=cbeq, train/loss=2.920\r",
+      "Epoch 0:  61%|▌| 1147/1867 [29:09<18:18,  1.53s/it, v_num=cbeq, train/loss=2.440"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  61%|▌| 1148/1867 [29:15<18:19,  1.53s/it, v_num=cbeq, train/loss=2.440\r",
+      "Epoch 0:  61%|▌| 1148/1867 [29:15<18:19,  1.53s/it, v_num=cbeq, train/loss=2.940"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 1149/1867 [29:15<18:16,  1.53s/it, v_num=cbeq, train/loss=2.940\r",
+      "Epoch 0:  62%|▌| 1149/1867 [29:15<18:16,  1.53s/it, v_num=cbeq, train/loss=2.190"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 1150/1867 [29:15<18:14,  1.53s/it, v_num=cbeq, train/loss=2.190\r",
+      "Epoch 0:  62%|▌| 1150/1867 [29:15<18:14,  1.53s/it, v_num=cbeq, train/loss=4.620"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 1151/1867 [29:15<18:12,  1.53s/it, v_num=cbeq, train/loss=4.620\r",
+      "Epoch 0:  62%|▌| 1151/1867 [29:15<18:12,  1.53s/it, v_num=cbeq, train/loss=2.840"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 1152/1867 [29:21<18:13,  1.53s/it, v_num=cbeq, train/loss=2.840\r",
+      "Epoch 0:  62%|▌| 1152/1867 [29:21<18:13,  1.53s/it, v_num=cbeq, train/loss=4.380"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 1153/1867 [29:21<18:10,  1.53s/it, v_num=cbeq, train/loss=4.380\r",
+      "Epoch 0:  62%|▌| 1153/1867 [29:21<18:10,  1.53s/it, v_num=cbeq, train/loss=4.090"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 1154/1867 [29:21<18:08,  1.53s/it, v_num=cbeq, train/loss=4.090\r",
+      "Epoch 0:  62%|▌| 1154/1867 [29:21<18:08,  1.53s/it, v_num=cbeq, train/loss=2.840"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 1155/1867 [29:21<18:06,  1.53s/it, v_num=cbeq, train/loss=2.840\r",
+      "Epoch 0:  62%|▌| 1155/1867 [29:21<18:06,  1.53s/it, v_num=cbeq, train/loss=3.160"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 1156/1867 [29:27<18:06,  1.53s/it, v_num=cbeq, train/loss=3.160\r",
+      "Epoch 0:  62%|▌| 1156/1867 [29:27<18:06,  1.53s/it, v_num=cbeq, train/loss=2.480"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 1157/1867 [29:27<18:04,  1.53s/it, v_num=cbeq, train/loss=2.480\r",
+      "Epoch 0:  62%|▌| 1157/1867 [29:27<18:04,  1.53s/it, v_num=cbeq, train/loss=2.690"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 1158/1867 [29:27<18:02,  1.53s/it, v_num=cbeq, train/loss=2.690\r",
+      "Epoch 0:  62%|▌| 1158/1867 [29:27<18:02,  1.53s/it, v_num=cbeq, train/loss=2.970"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 1159/1867 [29:27<17:59,  1.52s/it, v_num=cbeq, train/loss=2.970\r",
+      "Epoch 0:  62%|▌| 1159/1867 [29:27<17:59,  1.52s/it, v_num=cbeq, train/loss=3.220"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 1160/1867 [29:33<18:00,  1.53s/it, v_num=cbeq, train/loss=3.220\r",
+      "Epoch 0:  62%|▌| 1160/1867 [29:33<18:00,  1.53s/it, v_num=cbeq, train/loss=3.750"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 1161/1867 [29:33<17:58,  1.53s/it, v_num=cbeq, train/loss=3.750\r",
+      "Epoch 0:  62%|▌| 1161/1867 [29:33<17:58,  1.53s/it, v_num=cbeq, train/loss=1.220"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 1162/1867 [29:33<17:55,  1.53s/it, v_num=cbeq, train/loss=1.220\r",
+      "Epoch 0:  62%|▌| 1162/1867 [29:33<17:55,  1.53s/it, v_num=cbeq, train/loss=3.120"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 1163/1867 [29:33<17:53,  1.52s/it, v_num=cbeq, train/loss=3.120\r",
+      "Epoch 0:  62%|▌| 1163/1867 [29:33<17:53,  1.52s/it, v_num=cbeq, train/loss=2.160"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 1164/1867 [29:38<17:54,  1.53s/it, v_num=cbeq, train/loss=2.160\r",
+      "Epoch 0:  62%|▌| 1164/1867 [29:38<17:54,  1.53s/it, v_num=cbeq, train/loss=1.230"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 1165/1867 [29:38<17:51,  1.53s/it, v_num=cbeq, train/loss=1.230\r",
+      "Epoch 0:  62%|▌| 1165/1867 [29:38<17:51,  1.53s/it, v_num=cbeq, train/loss=2.220"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  62%|▌| 1166/1867 [29:38<17:49,  1.53s/it, v_num=cbeq, train/loss=2.220\r",
+      "Epoch 0:  62%|▌| 1166/1867 [29:38<17:49,  1.53s/it, v_num=cbeq, train/loss=2.860"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 1167/1867 [29:39<17:47,  1.52s/it, v_num=cbeq, train/loss=2.860\r",
+      "Epoch 0:  63%|▋| 1167/1867 [29:39<17:47,  1.52s/it, v_num=cbeq, train/loss=3.940"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 1168/1867 [29:44<17:48,  1.53s/it, v_num=cbeq, train/loss=3.940\r",
+      "Epoch 0:  63%|▋| 1168/1867 [29:44<17:48,  1.53s/it, v_num=cbeq, train/loss=3.560"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 1169/1867 [29:44<17:45,  1.53s/it, v_num=cbeq, train/loss=3.560\r",
+      "Epoch 0:  63%|▋| 1169/1867 [29:44<17:45,  1.53s/it, v_num=cbeq, train/loss=3.660"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 1170/1867 [29:44<17:43,  1.53s/it, v_num=cbeq, train/loss=3.660\r",
+      "Epoch 0:  63%|▋| 1170/1867 [29:44<17:43,  1.53s/it, v_num=cbeq, train/loss=2.910"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 1171/1867 [29:45<17:41,  1.52s/it, v_num=cbeq, train/loss=2.910\r",
+      "Epoch 0:  63%|▋| 1171/1867 [29:45<17:41,  1.52s/it, v_num=cbeq, train/loss=3.020"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 1172/1867 [29:50<17:41,  1.53s/it, v_num=cbeq, train/loss=3.020\r",
+      "Epoch 0:  63%|▋| 1172/1867 [29:50<17:41,  1.53s/it, v_num=cbeq, train/loss=3.950"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 1173/1867 [29:50<17:39,  1.53s/it, v_num=cbeq, train/loss=3.950\r",
+      "Epoch 0:  63%|▋| 1173/1867 [29:50<17:39,  1.53s/it, v_num=cbeq, train/loss=4.500"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 1174/1867 [29:50<17:37,  1.53s/it, v_num=cbeq, train/loss=4.500\r",
+      "Epoch 0:  63%|▋| 1174/1867 [29:50<17:37,  1.53s/it, v_num=cbeq, train/loss=3.610"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 1175/1867 [29:51<17:34,  1.52s/it, v_num=cbeq, train/loss=3.610\r",
+      "Epoch 0:  63%|▋| 1175/1867 [29:51<17:34,  1.52s/it, v_num=cbeq, train/loss=3.810"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 1176/1867 [29:56<17:35,  1.53s/it, v_num=cbeq, train/loss=3.810\r",
+      "Epoch 0:  63%|▋| 1176/1867 [29:56<17:35,  1.53s/it, v_num=cbeq, train/loss=4.000"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 1177/1867 [29:56<17:33,  1.53s/it, v_num=cbeq, train/loss=4.000\r",
+      "Epoch 0:  63%|▋| 1177/1867 [29:56<17:33,  1.53s/it, v_num=cbeq, train/loss=3.730"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 1178/1867 [29:56<17:30,  1.53s/it, v_num=cbeq, train/loss=3.730\r",
+      "Epoch 0:  63%|▋| 1178/1867 [29:56<17:30,  1.53s/it, v_num=cbeq, train/loss=4.280"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 1179/1867 [29:56<17:28,  1.52s/it, v_num=cbeq, train/loss=4.280\r",
+      "Epoch 0:  63%|▋| 1179/1867 [29:56<17:28,  1.52s/it, v_num=cbeq, train/loss=2.780"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 1180/1867 [30:02<17:29,  1.53s/it, v_num=cbeq, train/loss=2.780\r",
+      "Epoch 0:  63%|▋| 1180/1867 [30:02<17:29,  1.53s/it, v_num=cbeq, train/loss=4.090"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 1181/1867 [30:02<17:27,  1.53s/it, v_num=cbeq, train/loss=4.090\r",
+      "Epoch 0:  63%|▋| 1181/1867 [30:02<17:27,  1.53s/it, v_num=cbeq, train/loss=4.310"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 1182/1867 [30:02<17:24,  1.53s/it, v_num=cbeq, train/loss=4.310\r",
+      "Epoch 0:  63%|▋| 1182/1867 [30:02<17:24,  1.53s/it, v_num=cbeq, train/loss=3.530"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 1183/1867 [30:02<17:22,  1.52s/it, v_num=cbeq, train/loss=3.530\r",
+      "Epoch 0:  63%|▋| 1183/1867 [30:02<17:22,  1.52s/it, v_num=cbeq, train/loss=2.330"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 1184/1867 [30:08<17:23,  1.53s/it, v_num=cbeq, train/loss=2.330\r",
+      "Epoch 0:  63%|▋| 1184/1867 [30:08<17:23,  1.53s/it, v_num=cbeq, train/loss=3.670"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  63%|▋| 1185/1867 [30:08<17:20,  1.53s/it, v_num=cbeq, train/loss=3.670\r",
+      "Epoch 0:  63%|▋| 1185/1867 [30:08<17:20,  1.53s/it, v_num=cbeq, train/loss=2.050"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 1186/1867 [30:08<17:18,  1.53s/it, v_num=cbeq, train/loss=2.050\r",
+      "Epoch 0:  64%|▋| 1186/1867 [30:08<17:18,  1.53s/it, v_num=cbeq, train/loss=3.450"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 1187/1867 [30:08<17:16,  1.52s/it, v_num=cbeq, train/loss=3.450\r",
+      "Epoch 0:  64%|▋| 1187/1867 [30:08<17:16,  1.52s/it, v_num=cbeq, train/loss=2.360"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 1188/1867 [30:14<17:16,  1.53s/it, v_num=cbeq, train/loss=2.360\r",
+      "Epoch 0:  64%|▋| 1188/1867 [30:14<17:16,  1.53s/it, v_num=cbeq, train/loss=3.720"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 1189/1867 [30:14<17:14,  1.53s/it, v_num=cbeq, train/loss=3.720\r",
+      "Epoch 0:  64%|▋| 1189/1867 [30:14<17:14,  1.53s/it, v_num=cbeq, train/loss=3.020"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 1190/1867 [30:14<17:12,  1.52s/it, v_num=cbeq, train/loss=3.020\r",
+      "Epoch 0:  64%|▋| 1190/1867 [30:14<17:12,  1.52s/it, v_num=cbeq, train/loss=2.410"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 1191/1867 [30:14<17:09,  1.52s/it, v_num=cbeq, train/loss=2.410\r",
+      "Epoch 0:  64%|▋| 1191/1867 [30:14<17:09,  1.52s/it, v_num=cbeq, train/loss=3.050"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 1192/1867 [30:20<17:10,  1.53s/it, v_num=cbeq, train/loss=3.050\r",
+      "Epoch 0:  64%|▋| 1192/1867 [30:20<17:10,  1.53s/it, v_num=cbeq, train/loss=3.950"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 1193/1867 [30:20<17:08,  1.53s/it, v_num=cbeq, train/loss=3.950\r",
+      "Epoch 0:  64%|▋| 1193/1867 [30:20<17:08,  1.53s/it, v_num=cbeq, train/loss=3.800"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 1194/1867 [30:20<17:06,  1.52s/it, v_num=cbeq, train/loss=3.800\r",
+      "Epoch 0:  64%|▋| 1194/1867 [30:20<17:06,  1.52s/it, v_num=cbeq, train/loss=2.700"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 1195/1867 [30:20<17:03,  1.52s/it, v_num=cbeq, train/loss=2.700\r",
+      "Epoch 0:  64%|▋| 1195/1867 [30:20<17:03,  1.52s/it, v_num=cbeq, train/loss=3.220"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 1196/1867 [30:26<17:04,  1.53s/it, v_num=cbeq, train/loss=3.220\r",
+      "Epoch 0:  64%|▋| 1196/1867 [30:26<17:04,  1.53s/it, v_num=cbeq, train/loss=3.190"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 1197/1867 [30:26<17:02,  1.53s/it, v_num=cbeq, train/loss=3.190\r",
+      "Epoch 0:  64%|▋| 1197/1867 [30:26<17:02,  1.53s/it, v_num=cbeq, train/loss=2.580"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 1198/1867 [30:26<16:59,  1.52s/it, v_num=cbeq, train/loss=2.580\r",
+      "Epoch 0:  64%|▋| 1198/1867 [30:26<16:59,  1.52s/it, v_num=cbeq, train/loss=2.280"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 1199/1867 [30:26<16:57,  1.52s/it, v_num=cbeq, train/loss=2.280\r",
+      "Epoch 0:  64%|▋| 1199/1867 [30:26<16:57,  1.52s/it, v_num=cbeq, train/loss=3.480"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 1200/1867 [30:31<16:58,  1.53s/it, v_num=cbeq, train/loss=3.480\r",
+      "Epoch 0:  64%|▋| 1200/1867 [30:31<16:58,  1.53s/it, v_num=cbeq, train/loss=3.500"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 1201/1867 [30:32<16:55,  1.53s/it, v_num=cbeq, train/loss=3.500\r",
+      "Epoch 0:  64%|▋| 1201/1867 [30:32<16:55,  1.53s/it, v_num=cbeq, train/loss=2.720"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 1202/1867 [30:32<16:53,  1.52s/it, v_num=cbeq, train/loss=2.720\r",
+      "Epoch 0:  64%|▋| 1202/1867 [30:32<16:53,  1.52s/it, v_num=cbeq, train/loss=1.430"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 1203/1867 [30:32<16:51,  1.52s/it, v_num=cbeq, train/loss=1.430\r",
+      "Epoch 0:  64%|▋| 1203/1867 [30:32<16:51,  1.52s/it, v_num=cbeq, train/loss=2.170"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  64%|▋| 1204/1867 [30:38<16:52,  1.53s/it, v_num=cbeq, train/loss=2.170\r",
+      "Epoch 0:  64%|▋| 1204/1867 [30:38<16:52,  1.53s/it, v_num=cbeq, train/loss=2.620"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 1205/1867 [30:38<16:49,  1.53s/it, v_num=cbeq, train/loss=2.620\r",
+      "Epoch 0:  65%|▋| 1205/1867 [30:38<16:49,  1.53s/it, v_num=cbeq, train/loss=3.830"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 1206/1867 [30:38<16:47,  1.52s/it, v_num=cbeq, train/loss=3.830\r",
+      "Epoch 0:  65%|▋| 1206/1867 [30:38<16:47,  1.52s/it, v_num=cbeq, train/loss=3.750"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 1207/1867 [30:38<16:45,  1.52s/it, v_num=cbeq, train/loss=3.750\r",
+      "Epoch 0:  65%|▋| 1207/1867 [30:38<16:45,  1.52s/it, v_num=cbeq, train/loss=4.160"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 1208/1867 [30:44<16:46,  1.53s/it, v_num=cbeq, train/loss=4.160\r",
+      "Epoch 0:  65%|▋| 1208/1867 [30:44<16:46,  1.53s/it, v_num=cbeq, train/loss=3.940"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 1209/1867 [30:44<16:44,  1.53s/it, v_num=cbeq, train/loss=3.940\r",
+      "Epoch 0:  65%|▋| 1209/1867 [30:44<16:44,  1.53s/it, v_num=cbeq, train/loss=2.390"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 1210/1867 [30:44<16:41,  1.52s/it, v_num=cbeq, train/loss=2.390\r",
+      "Epoch 0:  65%|▋| 1210/1867 [30:44<16:41,  1.52s/it, v_num=cbeq, train/loss=1.750"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 1211/1867 [30:44<16:39,  1.52s/it, v_num=cbeq, train/loss=1.750\r",
+      "Epoch 0:  65%|▋| 1211/1867 [30:44<16:39,  1.52s/it, v_num=cbeq, train/loss=3.250"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 1212/1867 [30:50<16:40,  1.53s/it, v_num=cbeq, train/loss=3.250\r",
+      "Epoch 0:  65%|▋| 1212/1867 [30:50<16:40,  1.53s/it, v_num=cbeq, train/loss=5.530"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 1213/1867 [30:50<16:37,  1.53s/it, v_num=cbeq, train/loss=5.530\r",
+      "Epoch 0:  65%|▋| 1213/1867 [30:50<16:37,  1.53s/it, v_num=cbeq, train/loss=2.770"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 1214/1867 [30:50<16:35,  1.52s/it, v_num=cbeq, train/loss=2.770\r",
+      "Epoch 0:  65%|▋| 1214/1867 [30:50<16:35,  1.52s/it, v_num=cbeq, train/loss=4.440"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 1215/1867 [30:50<16:33,  1.52s/it, v_num=cbeq, train/loss=4.440\r",
+      "Epoch 0:  65%|▋| 1215/1867 [30:50<16:33,  1.52s/it, v_num=cbeq, train/loss=3.140"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 1216/1867 [30:56<16:33,  1.53s/it, v_num=cbeq, train/loss=3.140\r",
+      "Epoch 0:  65%|▋| 1216/1867 [30:56<16:33,  1.53s/it, v_num=cbeq, train/loss=3.980"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 1217/1867 [30:56<16:31,  1.53s/it, v_num=cbeq, train/loss=3.980\r",
+      "Epoch 0:  65%|▋| 1217/1867 [30:56<16:31,  1.53s/it, v_num=cbeq, train/loss=3.640"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 1218/1867 [30:56<16:29,  1.52s/it, v_num=cbeq, train/loss=3.640\r",
+      "Epoch 0:  65%|▋| 1218/1867 [30:56<16:29,  1.52s/it, v_num=cbeq, train/loss=3.670"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 1219/1867 [30:56<16:26,  1.52s/it, v_num=cbeq, train/loss=3.670\r",
+      "Epoch 0:  65%|▋| 1219/1867 [30:56<16:26,  1.52s/it, v_num=cbeq, train/loss=3.750"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 1220/1867 [31:02<16:27,  1.53s/it, v_num=cbeq, train/loss=3.750\r",
+      "Epoch 0:  65%|▋| 1220/1867 [31:02<16:27,  1.53s/it, v_num=cbeq, train/loss=3.620"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 1221/1867 [31:02<16:25,  1.53s/it, v_num=cbeq, train/loss=3.620\r",
+      "Epoch 0:  65%|▋| 1221/1867 [31:02<16:25,  1.53s/it, v_num=cbeq, train/loss=2.000"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  65%|▋| 1222/1867 [31:02<16:23,  1.52s/it, v_num=cbeq, train/loss=2.000\r",
+      "Epoch 0:  65%|▋| 1222/1867 [31:02<16:23,  1.52s/it, v_num=cbeq, train/loss=3.550"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 1223/1867 [31:02<16:20,  1.52s/it, v_num=cbeq, train/loss=3.550\r",
+      "Epoch 0:  66%|▋| 1223/1867 [31:02<16:20,  1.52s/it, v_num=cbeq, train/loss=3.940"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 1224/1867 [31:07<16:21,  1.53s/it, v_num=cbeq, train/loss=3.940\r",
+      "Epoch 0:  66%|▋| 1224/1867 [31:07<16:21,  1.53s/it, v_num=cbeq, train/loss=2.860"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 1225/1867 [31:08<16:19,  1.52s/it, v_num=cbeq, train/loss=2.860\r",
+      "Epoch 0:  66%|▋| 1225/1867 [31:08<16:19,  1.52s/it, v_num=cbeq, train/loss=4.030"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 1226/1867 [31:08<16:16,  1.52s/it, v_num=cbeq, train/loss=4.030\r",
+      "Epoch 0:  66%|▋| 1226/1867 [31:08<16:16,  1.52s/it, v_num=cbeq, train/loss=2.700"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 1227/1867 [31:08<16:14,  1.52s/it, v_num=cbeq, train/loss=2.700\r",
+      "Epoch 0:  66%|▋| 1227/1867 [31:08<16:14,  1.52s/it, v_num=cbeq, train/loss=3.590"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 1228/1867 [31:13<16:15,  1.53s/it, v_num=cbeq, train/loss=3.590\r",
+      "Epoch 0:  66%|▋| 1228/1867 [31:13<16:15,  1.53s/it, v_num=cbeq, train/loss=4.160"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 1229/1867 [31:13<16:12,  1.52s/it, v_num=cbeq, train/loss=4.160\r",
+      "Epoch 0:  66%|▋| 1229/1867 [31:13<16:12,  1.52s/it, v_num=cbeq, train/loss=4.500"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 1230/1867 [31:14<16:10,  1.52s/it, v_num=cbeq, train/loss=4.500\r",
+      "Epoch 0:  66%|▋| 1230/1867 [31:14<16:10,  1.52s/it, v_num=cbeq, train/loss=3.860"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 1231/1867 [31:14<16:08,  1.52s/it, v_num=cbeq, train/loss=3.860\r",
+      "Epoch 0:  66%|▋| 1231/1867 [31:14<16:08,  1.52s/it, v_num=cbeq, train/loss=3.950"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 1232/1867 [31:19<16:08,  1.53s/it, v_num=cbeq, train/loss=3.950\r",
+      "Epoch 0:  66%|▋| 1232/1867 [31:19<16:08,  1.53s/it, v_num=cbeq, train/loss=1.550"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 1233/1867 [31:19<16:06,  1.52s/it, v_num=cbeq, train/loss=1.550\r",
+      "Epoch 0:  66%|▋| 1233/1867 [31:19<16:06,  1.52s/it, v_num=cbeq, train/loss=4.220"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 1234/1867 [31:19<16:04,  1.52s/it, v_num=cbeq, train/loss=4.220\r",
+      "Epoch 0:  66%|▋| 1234/1867 [31:19<16:04,  1.52s/it, v_num=cbeq, train/loss=2.590"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 1235/1867 [31:19<16:02,  1.52s/it, v_num=cbeq, train/loss=2.590\r",
+      "Epoch 0:  66%|▋| 1235/1867 [31:19<16:02,  1.52s/it, v_num=cbeq, train/loss=3.470"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 1236/1867 [31:25<16:02,  1.53s/it, v_num=cbeq, train/loss=3.470\r",
+      "Epoch 0:  66%|▋| 1236/1867 [31:25<16:02,  1.53s/it, v_num=cbeq, train/loss=3.750"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 1237/1867 [31:25<16:00,  1.52s/it, v_num=cbeq, train/loss=3.750\r",
+      "Epoch 0:  66%|▋| 1237/1867 [31:25<16:00,  1.52s/it, v_num=cbeq, train/loss=1.890"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 1238/1867 [31:25<15:58,  1.52s/it, v_num=cbeq, train/loss=1.890\r",
+      "Epoch 0:  66%|▋| 1238/1867 [31:25<15:58,  1.52s/it, v_num=cbeq, train/loss=5.120"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 1239/1867 [31:25<15:55,  1.52s/it, v_num=cbeq, train/loss=5.120\r",
+      "Epoch 0:  66%|▋| 1239/1867 [31:25<15:55,  1.52s/it, v_num=cbeq, train/loss=3.330"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 1240/1867 [31:31<15:56,  1.53s/it, v_num=cbeq, train/loss=3.330\r",
+      "Epoch 0:  66%|▋| 1240/1867 [31:31<15:56,  1.53s/it, v_num=cbeq, train/loss=4.060"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  66%|▋| 1241/1867 [31:31<15:54,  1.52s/it, v_num=cbeq, train/loss=4.060\r",
+      "Epoch 0:  66%|▋| 1241/1867 [31:31<15:54,  1.52s/it, v_num=cbeq, train/loss=2.810"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 1242/1867 [31:31<15:51,  1.52s/it, v_num=cbeq, train/loss=2.810\r",
+      "Epoch 0:  67%|▋| 1242/1867 [31:31<15:51,  1.52s/it, v_num=cbeq, train/loss=4.440"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 1243/1867 [31:31<15:49,  1.52s/it, v_num=cbeq, train/loss=4.440\r",
+      "Epoch 0:  67%|▋| 1243/1867 [31:31<15:49,  1.52s/it, v_num=cbeq, train/loss=3.670"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 1244/1867 [31:38<15:50,  1.53s/it, v_num=cbeq, train/loss=3.670\r",
+      "Epoch 0:  67%|▋| 1244/1867 [31:38<15:50,  1.53s/it, v_num=cbeq, train/loss=3.800"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 1245/1867 [31:38<15:48,  1.52s/it, v_num=cbeq, train/loss=3.800\r",
+      "Epoch 0:  67%|▋| 1245/1867 [31:38<15:48,  1.52s/it, v_num=cbeq, train/loss=4.810"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 1246/1867 [31:38<15:46,  1.52s/it, v_num=cbeq, train/loss=4.810\r",
+      "Epoch 0:  67%|▋| 1246/1867 [31:38<15:46,  1.52s/it, v_num=cbeq, train/loss=1.720"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 1247/1867 [31:38<15:43,  1.52s/it, v_num=cbeq, train/loss=1.720\r",
+      "Epoch 0:  67%|▋| 1247/1867 [31:38<15:43,  1.52s/it, v_num=cbeq, train/loss=3.910"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 1248/1867 [31:44<15:44,  1.53s/it, v_num=cbeq, train/loss=3.910\r",
+      "Epoch 0:  67%|▋| 1248/1867 [31:44<15:44,  1.53s/it, v_num=cbeq, train/loss=4.810"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 1249/1867 [31:44<15:42,  1.53s/it, v_num=cbeq, train/loss=4.810\r",
+      "Epoch 0:  67%|▋| 1249/1867 [31:44<15:42,  1.53s/it, v_num=cbeq, train/loss=3.660"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 1250/1867 [31:44<15:40,  1.52s/it, v_num=cbeq, train/loss=3.660\r",
+      "Epoch 0:  67%|▋| 1250/1867 [31:44<15:40,  1.52s/it, v_num=cbeq, train/loss=0.879"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 1251/1867 [31:44<15:37,  1.52s/it, v_num=cbeq, train/loss=0.879\r",
+      "Epoch 0:  67%|▋| 1251/1867 [31:44<15:37,  1.52s/it, v_num=cbeq, train/loss=3.090"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 1252/1867 [31:50<15:38,  1.53s/it, v_num=cbeq, train/loss=3.090\r",
+      "Epoch 0:  67%|▋| 1252/1867 [31:50<15:38,  1.53s/it, v_num=cbeq, train/loss=4.060"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 1253/1867 [31:50<15:36,  1.52s/it, v_num=cbeq, train/loss=4.060\r",
+      "Epoch 0:  67%|▋| 1253/1867 [31:50<15:36,  1.52s/it, v_num=cbeq, train/loss=3.050"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 1254/1867 [31:50<15:33,  1.52s/it, v_num=cbeq, train/loss=3.050\r",
+      "Epoch 0:  67%|▋| 1254/1867 [31:50<15:33,  1.52s/it, v_num=cbeq, train/loss=1.790"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 1255/1867 [31:50<15:31,  1.52s/it, v_num=cbeq, train/loss=1.790\r",
+      "Epoch 0:  67%|▋| 1255/1867 [31:50<15:31,  1.52s/it, v_num=cbeq, train/loss=3.720"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 1256/1867 [31:56<15:32,  1.53s/it, v_num=cbeq, train/loss=3.720\r",
+      "Epoch 0:  67%|▋| 1256/1867 [31:56<15:32,  1.53s/it, v_num=cbeq, train/loss=1.580"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 1257/1867 [31:56<15:29,  1.52s/it, v_num=cbeq, train/loss=1.580\r",
+      "Epoch 0:  67%|▋| 1257/1867 [31:56<15:29,  1.52s/it, v_num=cbeq, train/loss=2.310"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 1258/1867 [31:56<15:27,  1.52s/it, v_num=cbeq, train/loss=2.310\r",
+      "Epoch 0:  67%|▋| 1258/1867 [31:56<15:27,  1.52s/it, v_num=cbeq, train/loss=3.660"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 1259/1867 [31:56<15:25,  1.52s/it, v_num=cbeq, train/loss=3.660\r",
+      "Epoch 0:  67%|▋| 1259/1867 [31:56<15:25,  1.52s/it, v_num=cbeq, train/loss=1.260"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  67%|▋| 1260/1867 [32:01<15:25,  1.53s/it, v_num=cbeq, train/loss=1.260\r",
+      "Epoch 0:  67%|▋| 1260/1867 [32:01<15:25,  1.53s/it, v_num=cbeq, train/loss=1.180"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 1261/1867 [32:01<15:23,  1.52s/it, v_num=cbeq, train/loss=1.180\r",
+      "Epoch 0:  68%|▋| 1261/1867 [32:01<15:23,  1.52s/it, v_num=cbeq, train/loss=3.920"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 1262/1867 [32:01<15:21,  1.52s/it, v_num=cbeq, train/loss=3.920\r",
+      "Epoch 0:  68%|▋| 1262/1867 [32:01<15:21,  1.52s/it, v_num=cbeq, train/loss=3.410"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 1263/1867 [32:02<15:19,  1.52s/it, v_num=cbeq, train/loss=3.410\r",
+      "Epoch 0:  68%|▋| 1263/1867 [32:02<15:19,  1.52s/it, v_num=cbeq, train/loss=2.830"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 1264/1867 [32:07<15:19,  1.52s/it, v_num=cbeq, train/loss=2.830\r",
+      "Epoch 0:  68%|▋| 1264/1867 [32:07<15:19,  1.52s/it, v_num=cbeq, train/loss=4.160"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 1265/1867 [32:07<15:17,  1.52s/it, v_num=cbeq, train/loss=4.160\r",
+      "Epoch 0:  68%|▋| 1265/1867 [32:07<15:17,  1.52s/it, v_num=cbeq, train/loss=2.550"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 1266/1867 [32:07<15:15,  1.52s/it, v_num=cbeq, train/loss=2.550\r",
+      "Epoch 0:  68%|▋| 1266/1867 [32:07<15:15,  1.52s/it, v_num=cbeq, train/loss=3.530"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 1267/1867 [32:07<15:12,  1.52s/it, v_num=cbeq, train/loss=3.530\r",
+      "Epoch 0:  68%|▋| 1267/1867 [32:07<15:12,  1.52s/it, v_num=cbeq, train/loss=3.830"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 1268/1867 [32:13<15:13,  1.53s/it, v_num=cbeq, train/loss=3.830\r",
+      "Epoch 0:  68%|▋| 1268/1867 [32:13<15:13,  1.53s/it, v_num=cbeq, train/loss=4.120"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 1269/1867 [32:13<15:11,  1.52s/it, v_num=cbeq, train/loss=4.120"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 1269/1867 [32:13<15:11,  1.52s/it, v_num=cbeq, train/loss=2.390"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 1270/1867 [32:13<15:09,  1.52s/it, v_num=cbeq, train/loss=2.390\r",
+      "Epoch 0:  68%|▋| 1270/1867 [32:13<15:09,  1.52s/it, v_num=cbeq, train/loss=3.640"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 1271/1867 [32:14<15:06,  1.52s/it, v_num=cbeq, train/loss=3.640\r",
+      "Epoch 0:  68%|▋| 1271/1867 [32:14<15:06,  1.52s/it, v_num=cbeq, train/loss=3.970"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 1272/1867 [32:19<15:07,  1.52s/it, v_num=cbeq, train/loss=3.970\r",
+      "Epoch 0:  68%|▋| 1272/1867 [32:19<15:07,  1.52s/it, v_num=cbeq, train/loss=2.860"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 1273/1867 [32:19<15:05,  1.52s/it, v_num=cbeq, train/loss=2.860\r",
+      "Epoch 0:  68%|▋| 1273/1867 [32:19<15:05,  1.52s/it, v_num=cbeq, train/loss=4.030"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 1274/1867 [32:19<15:02,  1.52s/it, v_num=cbeq, train/loss=4.030\r",
+      "Epoch 0:  68%|▋| 1274/1867 [32:19<15:02,  1.52s/it, v_num=cbeq, train/loss=3.910"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 1275/1867 [32:19<15:00,  1.52s/it, v_num=cbeq, train/loss=3.910\r",
+      "Epoch 0:  68%|▋| 1275/1867 [32:19<15:00,  1.52s/it, v_num=cbeq, train/loss=3.580"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 1276/1867 [32:25<15:01,  1.52s/it, v_num=cbeq, train/loss=3.580\r",
+      "Epoch 0:  68%|▋| 1276/1867 [32:25<15:01,  1.52s/it, v_num=cbeq, train/loss=4.280"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 1277/1867 [32:25<14:58,  1.52s/it, v_num=cbeq, train/loss=4.280\r",
+      "Epoch 0:  68%|▋| 1277/1867 [32:25<14:58,  1.52s/it, v_num=cbeq, train/loss=1.700"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  68%|▋| 1278/1867 [32:25<14:56,  1.52s/it, v_num=cbeq, train/loss=1.700\r",
+      "Epoch 0:  68%|▋| 1278/1867 [32:25<14:56,  1.52s/it, v_num=cbeq, train/loss=2.610"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 1279/1867 [32:25<14:54,  1.52s/it, v_num=cbeq, train/loss=2.610\r",
+      "Epoch 0:  69%|▋| 1279/1867 [32:25<14:54,  1.52s/it, v_num=cbeq, train/loss=3.880"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 1280/1867 [32:31<14:54,  1.52s/it, v_num=cbeq, train/loss=3.880\r",
+      "Epoch 0:  69%|▋| 1280/1867 [32:31<14:54,  1.52s/it, v_num=cbeq, train/loss=2.780"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 1281/1867 [32:31<14:52,  1.52s/it, v_num=cbeq, train/loss=2.780\r",
+      "Epoch 0:  69%|▋| 1281/1867 [32:31<14:52,  1.52s/it, v_num=cbeq, train/loss=3.810"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 1282/1867 [32:31<14:50,  1.52s/it, v_num=cbeq, train/loss=3.810\r",
+      "Epoch 0:  69%|▋| 1282/1867 [32:31<14:50,  1.52s/it, v_num=cbeq, train/loss=2.410"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 1283/1867 [32:31<14:48,  1.52s/it, v_num=cbeq, train/loss=2.410\r",
+      "Epoch 0:  69%|▋| 1283/1867 [32:31<14:48,  1.52s/it, v_num=cbeq, train/loss=1.840"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 1284/1867 [32:37<14:48,  1.52s/it, v_num=cbeq, train/loss=1.840\r",
+      "Epoch 0:  69%|▋| 1284/1867 [32:37<14:48,  1.52s/it, v_num=cbeq, train/loss=4.590"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 1285/1867 [32:37<14:46,  1.52s/it, v_num=cbeq, train/loss=4.590\r",
+      "Epoch 0:  69%|▋| 1285/1867 [32:37<14:46,  1.52s/it, v_num=cbeq, train/loss=3.750"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 1286/1867 [32:37<14:44,  1.52s/it, v_num=cbeq, train/loss=3.750\r",
+      "Epoch 0:  69%|▋| 1286/1867 [32:37<14:44,  1.52s/it, v_num=cbeq, train/loss=4.380"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 1287/1867 [32:37<14:42,  1.52s/it, v_num=cbeq, train/loss=4.380\r",
+      "Epoch 0:  69%|▋| 1287/1867 [32:37<14:42,  1.52s/it, v_num=cbeq, train/loss=2.440"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 1288/1867 [32:44<14:43,  1.53s/it, v_num=cbeq, train/loss=2.440\r",
+      "Epoch 0:  69%|▋| 1288/1867 [32:44<14:43,  1.53s/it, v_num=cbeq, train/loss=2.920"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 1289/1867 [32:44<14:40,  1.52s/it, v_num=cbeq, train/loss=2.920\r",
+      "Epoch 0:  69%|▋| 1289/1867 [32:44<14:40,  1.52s/it, v_num=cbeq, train/loss=4.030"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 1290/1867 [32:44<14:38,  1.52s/it, v_num=cbeq, train/loss=4.030\r",
+      "Epoch 0:  69%|▋| 1290/1867 [32:44<14:38,  1.52s/it, v_num=cbeq, train/loss=3.610"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 1291/1867 [32:44<14:36,  1.52s/it, v_num=cbeq, train/loss=3.610\r",
+      "Epoch 0:  69%|▋| 1291/1867 [32:44<14:36,  1.52s/it, v_num=cbeq, train/loss=3.580"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 1292/1867 [32:50<14:36,  1.52s/it, v_num=cbeq, train/loss=3.580\r",
+      "Epoch 0:  69%|▋| 1292/1867 [32:50<14:36,  1.52s/it, v_num=cbeq, train/loss=3.530"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 1293/1867 [32:50<14:34,  1.52s/it, v_num=cbeq, train/loss=3.530\r",
+      "Epoch 0:  69%|▋| 1293/1867 [32:50<14:34,  1.52s/it, v_num=cbeq, train/loss=1.560"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 1294/1867 [32:50<14:32,  1.52s/it, v_num=cbeq, train/loss=1.560\r",
+      "Epoch 0:  69%|▋| 1294/1867 [32:50<14:32,  1.52s/it, v_num=cbeq, train/loss=3.750"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 1295/1867 [32:50<14:30,  1.52s/it, v_num=cbeq, train/loss=3.750\r",
+      "Epoch 0:  69%|▋| 1295/1867 [32:50<14:30,  1.52s/it, v_num=cbeq, train/loss=4.030"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 1296/1867 [32:56<14:30,  1.52s/it, v_num=cbeq, train/loss=4.030\r",
+      "Epoch 0:  69%|▋| 1296/1867 [32:56<14:30,  1.52s/it, v_num=cbeq, train/loss=2.810"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  69%|▋| 1297/1867 [32:56<14:28,  1.52s/it, v_num=cbeq, train/loss=2.810\r",
+      "Epoch 0:  69%|▋| 1297/1867 [32:56<14:28,  1.52s/it, v_num=cbeq, train/loss=3.730"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 1298/1867 [32:56<14:26,  1.52s/it, v_num=cbeq, train/loss=3.730\r",
+      "Epoch 0:  70%|▋| 1298/1867 [32:56<14:26,  1.52s/it, v_num=cbeq, train/loss=2.250"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 1299/1867 [32:56<14:24,  1.52s/it, v_num=cbeq, train/loss=2.250\r",
+      "Epoch 0:  70%|▋| 1299/1867 [32:56<14:24,  1.52s/it, v_num=cbeq, train/loss=3.860"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 1300/1867 [33:01<14:24,  1.52s/it, v_num=cbeq, train/loss=3.860\r",
+      "Epoch 0:  70%|▋| 1300/1867 [33:01<14:24,  1.52s/it, v_num=cbeq, train/loss=3.670"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 1301/1867 [33:01<14:22,  1.52s/it, v_num=cbeq, train/loss=3.670\r",
+      "Epoch 0:  70%|▋| 1301/1867 [33:01<14:22,  1.52s/it, v_num=cbeq, train/loss=4.280"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 1302/1867 [33:02<14:20,  1.52s/it, v_num=cbeq, train/loss=4.280\r",
+      "Epoch 0:  70%|▋| 1302/1867 [33:02<14:20,  1.52s/it, v_num=cbeq, train/loss=4.030"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 1303/1867 [33:02<14:17,  1.52s/it, v_num=cbeq, train/loss=4.030\r",
+      "Epoch 0:  70%|▋| 1303/1867 [33:02<14:17,  1.52s/it, v_num=cbeq, train/loss=2.660"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 1304/1867 [33:07<14:18,  1.52s/it, v_num=cbeq, train/loss=2.660\r",
+      "Epoch 0:  70%|▋| 1304/1867 [33:07<14:18,  1.52s/it, v_num=cbeq, train/loss=0.758"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 1305/1867 [33:07<14:16,  1.52s/it, v_num=cbeq, train/loss=0.758\r",
+      "Epoch 0:  70%|▋| 1305/1867 [33:07<14:16,  1.52s/it, v_num=cbeq, train/loss=1.730"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 1306/1867 [33:07<14:13,  1.52s/it, v_num=cbeq, train/loss=1.730\r",
+      "Epoch 0:  70%|▋| 1306/1867 [33:07<14:13,  1.52s/it, v_num=cbeq, train/loss=2.950"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 1307/1867 [33:08<14:11,  1.52s/it, v_num=cbeq, train/loss=2.950\r",
+      "Epoch 0:  70%|▋| 1307/1867 [33:08<14:11,  1.52s/it, v_num=cbeq, train/loss=4.500"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 1308/1867 [33:13<14:12,  1.52s/it, v_num=cbeq, train/loss=4.500\r",
+      "Epoch 0:  70%|▋| 1308/1867 [33:13<14:12,  1.52s/it, v_num=cbeq, train/loss=3.270"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 1309/1867 [33:13<14:10,  1.52s/it, v_num=cbeq, train/loss=3.270\r",
+      "Epoch 0:  70%|▋| 1309/1867 [33:14<14:10,  1.52s/it, v_num=cbeq, train/loss=3.940"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 1310/1867 [33:14<14:07,  1.52s/it, v_num=cbeq, train/loss=3.940\r",
+      "Epoch 0:  70%|▋| 1310/1867 [33:14<14:07,  1.52s/it, v_num=cbeq, train/loss=3.980"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 1311/1867 [33:14<14:05,  1.52s/it, v_num=cbeq, train/loss=3.980\r",
+      "Epoch 0:  70%|▋| 1311/1867 [33:14<14:05,  1.52s/it, v_num=cbeq, train/loss=3.160"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 1312/1867 [33:20<14:06,  1.52s/it, v_num=cbeq, train/loss=3.160\r",
+      "Epoch 0:  70%|▋| 1312/1867 [33:20<14:06,  1.52s/it, v_num=cbeq, train/loss=3.550"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 1313/1867 [33:20<14:03,  1.52s/it, v_num=cbeq, train/loss=3.550\r",
+      "Epoch 0:  70%|▋| 1313/1867 [33:20<14:03,  1.52s/it, v_num=cbeq, train/loss=2.160"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 1314/1867 [33:20<14:01,  1.52s/it, v_num=cbeq, train/loss=2.160\r",
+      "Epoch 0:  70%|▋| 1314/1867 [33:20<14:01,  1.52s/it, v_num=cbeq, train/loss=3.200"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 1315/1867 [33:20<13:59,  1.52s/it, v_num=cbeq, train/loss=3.200\r",
+      "Epoch 0:  70%|▋| 1315/1867 [33:20<13:59,  1.52s/it, v_num=cbeq, train/loss=2.230"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  70%|▋| 1316/1867 [33:26<13:59,  1.52s/it, v_num=cbeq, train/loss=2.230\r",
+      "Epoch 0:  70%|▋| 1316/1867 [33:26<13:59,  1.52s/it, v_num=cbeq, train/loss=3.560"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 1317/1867 [33:26<13:57,  1.52s/it, v_num=cbeq, train/loss=3.560\r",
+      "Epoch 0:  71%|▋| 1317/1867 [33:26<13:57,  1.52s/it, v_num=cbeq, train/loss=3.050"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 1318/1867 [33:26<13:55,  1.52s/it, v_num=cbeq, train/loss=3.050\r",
+      "Epoch 0:  71%|▋| 1318/1867 [33:26<13:55,  1.52s/it, v_num=cbeq, train/loss=1.550"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 1319/1867 [33:26<13:53,  1.52s/it, v_num=cbeq, train/loss=1.550\r",
+      "Epoch 0:  71%|▋| 1319/1867 [33:26<13:53,  1.52s/it, v_num=cbeq, train/loss=1.880"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 1320/1867 [33:32<13:53,  1.52s/it, v_num=cbeq, train/loss=1.880\r",
+      "Epoch 0:  71%|▋| 1320/1867 [33:32<13:53,  1.52s/it, v_num=cbeq, train/loss=3.830"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 1321/1867 [33:32<13:51,  1.52s/it, v_num=cbeq, train/loss=3.830\r",
+      "Epoch 0:  71%|▋| 1321/1867 [33:32<13:51,  1.52s/it, v_num=cbeq, train/loss=3.690"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 1322/1867 [33:32<13:49,  1.52s/it, v_num=cbeq, train/loss=3.690\r",
+      "Epoch 0:  71%|▋| 1322/1867 [33:32<13:49,  1.52s/it, v_num=cbeq, train/loss=3.770"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 1323/1867 [33:32<13:47,  1.52s/it, v_num=cbeq, train/loss=3.770\r",
+      "Epoch 0:  71%|▋| 1323/1867 [33:32<13:47,  1.52s/it, v_num=cbeq, train/loss=3.840"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 1324/1867 [33:37<13:47,  1.52s/it, v_num=cbeq, train/loss=3.840\r",
+      "Epoch 0:  71%|▋| 1324/1867 [33:37<13:47,  1.52s/it, v_num=cbeq, train/loss=3.830"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 1325/1867 [33:37<13:45,  1.52s/it, v_num=cbeq, train/loss=3.830\r",
+      "Epoch 0:  71%|▋| 1325/1867 [33:37<13:45,  1.52s/it, v_num=cbeq, train/loss=4.720"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 1326/1867 [33:37<13:43,  1.52s/it, v_num=cbeq, train/loss=4.720\r",
+      "Epoch 0:  71%|▋| 1326/1867 [33:37<13:43,  1.52s/it, v_num=cbeq, train/loss=4.780"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 1327/1867 [33:37<13:41,  1.52s/it, v_num=cbeq, train/loss=4.780\r",
+      "Epoch 0:  71%|▋| 1327/1867 [33:37<13:41,  1.52s/it, v_num=cbeq, train/loss=4.090"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 1328/1867 [33:43<13:41,  1.52s/it, v_num=cbeq, train/loss=4.090\r",
+      "Epoch 0:  71%|▋| 1328/1867 [33:43<13:41,  1.52s/it, v_num=cbeq, train/loss=2.450"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 1329/1867 [33:43<13:39,  1.52s/it, v_num=cbeq, train/loss=2.450\r",
+      "Epoch 0:  71%|▋| 1329/1867 [33:43<13:39,  1.52s/it, v_num=cbeq, train/loss=2.800"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 1330/1867 [33:44<13:37,  1.52s/it, v_num=cbeq, train/loss=2.800\r",
+      "Epoch 0:  71%|▋| 1330/1867 [33:44<13:37,  1.52s/it, v_num=cbeq, train/loss=3.590"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 1331/1867 [33:44<13:35,  1.52s/it, v_num=cbeq, train/loss=3.590\r",
+      "Epoch 0:  71%|▋| 1331/1867 [33:44<13:35,  1.52s/it, v_num=cbeq, train/loss=2.950"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 1332/1867 [33:49<13:35,  1.52s/it, v_num=cbeq, train/loss=2.950\r",
+      "Epoch 0:  71%|▋| 1332/1867 [33:49<13:35,  1.52s/it, v_num=cbeq, train/loss=3.550"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 1333/1867 [33:49<13:33,  1.52s/it, v_num=cbeq, train/loss=3.550\r",
+      "Epoch 0:  71%|▋| 1333/1867 [33:49<13:33,  1.52s/it, v_num=cbeq, train/loss=2.880"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  71%|▋| 1334/1867 [33:49<13:31,  1.52s/it, v_num=cbeq, train/loss=2.880\r",
+      "Epoch 0:  71%|▋| 1334/1867 [33:49<13:31,  1.52s/it, v_num=cbeq, train/loss=2.450"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 1335/1867 [33:49<13:28,  1.52s/it, v_num=cbeq, train/loss=2.450\r",
+      "Epoch 0:  72%|▋| 1335/1867 [33:49<13:28,  1.52s/it, v_num=cbeq, train/loss=3.830"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 1336/1867 [33:55<13:29,  1.52s/it, v_num=cbeq, train/loss=3.830\r",
+      "Epoch 0:  72%|▋| 1336/1867 [33:55<13:29,  1.52s/it, v_num=cbeq, train/loss=3.780"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 1337/1867 [33:55<13:26,  1.52s/it, v_num=cbeq, train/loss=3.780\r",
+      "Epoch 0:  72%|▋| 1337/1867 [33:55<13:26,  1.52s/it, v_num=cbeq, train/loss=2.610"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 1338/1867 [33:55<13:24,  1.52s/it, v_num=cbeq, train/loss=2.610\r",
+      "Epoch 0:  72%|▋| 1338/1867 [33:55<13:24,  1.52s/it, v_num=cbeq, train/loss=3.940"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 1339/1867 [33:55<13:22,  1.52s/it, v_num=cbeq, train/loss=3.940\r",
+      "Epoch 0:  72%|▋| 1339/1867 [33:55<13:22,  1.52s/it, v_num=cbeq, train/loss=3.970"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 1340/1867 [34:01<13:22,  1.52s/it, v_num=cbeq, train/loss=3.970\r",
+      "Epoch 0:  72%|▋| 1340/1867 [34:01<13:22,  1.52s/it, v_num=cbeq, train/loss=3.470"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 1341/1867 [34:01<13:20,  1.52s/it, v_num=cbeq, train/loss=3.470\r",
+      "Epoch 0:  72%|▋| 1341/1867 [34:01<13:20,  1.52s/it, v_num=cbeq, train/loss=2.000"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 1342/1867 [34:01<13:18,  1.52s/it, v_num=cbeq, train/loss=2.000\r",
+      "Epoch 0:  72%|▋| 1342/1867 [34:01<13:18,  1.52s/it, v_num=cbeq, train/loss=3.440"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 1343/1867 [34:01<13:16,  1.52s/it, v_num=cbeq, train/loss=3.440\r",
+      "Epoch 0:  72%|▋| 1343/1867 [34:01<13:16,  1.52s/it, v_num=cbeq, train/loss=2.520"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 1344/1867 [34:07<13:16,  1.52s/it, v_num=cbeq, train/loss=2.520\r",
+      "Epoch 0:  72%|▋| 1344/1867 [34:07<13:16,  1.52s/it, v_num=cbeq, train/loss=3.670"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 1345/1867 [34:07<13:14,  1.52s/it, v_num=cbeq, train/loss=3.670\r",
+      "Epoch 0:  72%|▋| 1345/1867 [34:07<13:14,  1.52s/it, v_num=cbeq, train/loss=3.380"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 1346/1867 [34:07<13:12,  1.52s/it, v_num=cbeq, train/loss=3.380\r",
+      "Epoch 0:  72%|▋| 1346/1867 [34:07<13:12,  1.52s/it, v_num=cbeq, train/loss=3.340"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 1347/1867 [34:07<13:10,  1.52s/it, v_num=cbeq, train/loss=3.340\r",
+      "Epoch 0:  72%|▋| 1347/1867 [34:07<13:10,  1.52s/it, v_num=cbeq, train/loss=2.340"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 1348/1867 [34:13<13:10,  1.52s/it, v_num=cbeq, train/loss=2.340\r",
+      "Epoch 0:  72%|▋| 1348/1867 [34:13<13:10,  1.52s/it, v_num=cbeq, train/loss=4.190"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 1349/1867 [34:13<13:08,  1.52s/it, v_num=cbeq, train/loss=4.190\r",
+      "Epoch 0:  72%|▋| 1349/1867 [34:13<13:08,  1.52s/it, v_num=cbeq, train/loss=3.380"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 1350/1867 [34:13<13:06,  1.52s/it, v_num=cbeq, train/loss=3.380\r",
+      "Epoch 0:  72%|▋| 1350/1867 [34:13<13:06,  1.52s/it, v_num=cbeq, train/loss=4.160"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 1351/1867 [34:13<13:04,  1.52s/it, v_num=cbeq, train/loss=4.160\r",
+      "Epoch 0:  72%|▋| 1351/1867 [34:13<13:04,  1.52s/it, v_num=cbeq, train/loss=2.340"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 1352/1867 [34:18<13:04,  1.52s/it, v_num=cbeq, train/loss=2.340\r",
+      "Epoch 0:  72%|▋| 1352/1867 [34:18<13:04,  1.52s/it, v_num=cbeq, train/loss=3.880"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  72%|▋| 1353/1867 [34:18<13:02,  1.52s/it, v_num=cbeq, train/loss=3.880\r",
+      "Epoch 0:  72%|▋| 1353/1867 [34:18<13:02,  1.52s/it, v_num=cbeq, train/loss=1.160"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 1354/1867 [34:19<13:00,  1.52s/it, v_num=cbeq, train/loss=1.160\r",
+      "Epoch 0:  73%|▋| 1354/1867 [34:19<13:00,  1.52s/it, v_num=cbeq, train/loss=4.470"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 1355/1867 [34:19<12:58,  1.52s/it, v_num=cbeq, train/loss=4.470\r",
+      "Epoch 0:  73%|▋| 1355/1867 [34:19<12:58,  1.52s/it, v_num=cbeq, train/loss=3.050"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 1356/1867 [34:24<12:58,  1.52s/it, v_num=cbeq, train/loss=3.050\r",
+      "Epoch 0:  73%|▋| 1356/1867 [34:24<12:58,  1.52s/it, v_num=cbeq, train/loss=3.920"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 1357/1867 [34:24<12:55,  1.52s/it, v_num=cbeq, train/loss=3.920\r",
+      "Epoch 0:  73%|▋| 1357/1867 [34:24<12:55,  1.52s/it, v_num=cbeq, train/loss=3.890"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 1358/1867 [34:24<12:53,  1.52s/it, v_num=cbeq, train/loss=3.890\r",
+      "Epoch 0:  73%|▋| 1358/1867 [34:24<12:53,  1.52s/it, v_num=cbeq, train/loss=4.560"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 1359/1867 [34:24<12:51,  1.52s/it, v_num=cbeq, train/loss=4.560\r",
+      "Epoch 0:  73%|▋| 1359/1867 [34:24<12:51,  1.52s/it, v_num=cbeq, train/loss=4.160"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 1360/1867 [34:30<12:51,  1.52s/it, v_num=cbeq, train/loss=4.160\r",
+      "Epoch 0:  73%|▋| 1360/1867 [34:30<12:51,  1.52s/it, v_num=cbeq, train/loss=2.190"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 1361/1867 [34:30<12:49,  1.52s/it, v_num=cbeq, train/loss=2.190\r",
+      "Epoch 0:  73%|▋| 1361/1867 [34:30<12:49,  1.52s/it, v_num=cbeq, train/loss=3.770"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 1362/1867 [34:30<12:47,  1.52s/it, v_num=cbeq, train/loss=3.770\r",
+      "Epoch 0:  73%|▋| 1362/1867 [34:30<12:47,  1.52s/it, v_num=cbeq, train/loss=1.520"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 1363/1867 [34:30<12:45,  1.52s/it, v_num=cbeq, train/loss=1.520\r",
+      "Epoch 0:  73%|▋| 1363/1867 [34:30<12:45,  1.52s/it, v_num=cbeq, train/loss=2.670"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 1364/1867 [34:36<12:45,  1.52s/it, v_num=cbeq, train/loss=2.670\r",
+      "Epoch 0:  73%|▋| 1364/1867 [34:36<12:45,  1.52s/it, v_num=cbeq, train/loss=4.660"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 1365/1867 [34:36<12:43,  1.52s/it, v_num=cbeq, train/loss=4.660\r",
+      "Epoch 0:  73%|▋| 1365/1867 [34:36<12:43,  1.52s/it, v_num=cbeq, train/loss=2.860"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 1366/1867 [34:36<12:41,  1.52s/it, v_num=cbeq, train/loss=2.860\r",
+      "Epoch 0:  73%|▋| 1366/1867 [34:36<12:41,  1.52s/it, v_num=cbeq, train/loss=2.810"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 1367/1867 [34:36<12:39,  1.52s/it, v_num=cbeq, train/loss=2.810\r",
+      "Epoch 0:  73%|▋| 1367/1867 [34:36<12:39,  1.52s/it, v_num=cbeq, train/loss=1.380"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 1368/1867 [34:42<12:39,  1.52s/it, v_num=cbeq, train/loss=1.380\r",
+      "Epoch 0:  73%|▋| 1368/1867 [34:42<12:39,  1.52s/it, v_num=cbeq, train/loss=3.880"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 1369/1867 [34:42<12:37,  1.52s/it, v_num=cbeq, train/loss=3.880\r",
+      "Epoch 0:  73%|▋| 1369/1867 [34:42<12:37,  1.52s/it, v_num=cbeq, train/loss=2.380"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 1370/1867 [34:42<12:35,  1.52s/it, v_num=cbeq, train/loss=2.380\r",
+      "Epoch 0:  73%|▋| 1370/1867 [34:42<12:35,  1.52s/it, v_num=cbeq, train/loss=3.580"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 1371/1867 [34:42<12:33,  1.52s/it, v_num=cbeq, train/loss=3.580\r",
+      "Epoch 0:  73%|▋| 1371/1867 [34:42<12:33,  1.52s/it, v_num=cbeq, train/loss=3.420"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  73%|▋| 1372/1867 [34:47<12:33,  1.52s/it, v_num=cbeq, train/loss=3.420\r",
+      "Epoch 0:  73%|▋| 1372/1867 [34:47<12:33,  1.52s/it, v_num=cbeq, train/loss=2.880"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 1373/1867 [34:48<12:31,  1.52s/it, v_num=cbeq, train/loss=2.880\r",
+      "Epoch 0:  74%|▋| 1373/1867 [34:48<12:31,  1.52s/it, v_num=cbeq, train/loss=1.530"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 1374/1867 [34:48<12:29,  1.52s/it, v_num=cbeq, train/loss=1.530\r",
+      "Epoch 0:  74%|▋| 1374/1867 [34:48<12:29,  1.52s/it, v_num=cbeq, train/loss=2.530"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 1375/1867 [34:48<12:27,  1.52s/it, v_num=cbeq, train/loss=2.530\r",
+      "Epoch 0:  74%|▋| 1375/1867 [34:48<12:27,  1.52s/it, v_num=cbeq, train/loss=3.810"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 1376/1867 [34:53<12:27,  1.52s/it, v_num=cbeq, train/loss=3.810\r",
+      "Epoch 0:  74%|▋| 1376/1867 [34:53<12:27,  1.52s/it, v_num=cbeq, train/loss=3.800"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 1377/1867 [34:53<12:25,  1.52s/it, v_num=cbeq, train/loss=3.800\r",
+      "Epoch 0:  74%|▋| 1377/1867 [34:53<12:25,  1.52s/it, v_num=cbeq, train/loss=4.060"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 1378/1867 [34:54<12:23,  1.52s/it, v_num=cbeq, train/loss=4.060\r",
+      "Epoch 0:  74%|▋| 1378/1867 [34:54<12:23,  1.52s/it, v_num=cbeq, train/loss=2.980"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 1379/1867 [34:54<12:21,  1.52s/it, v_num=cbeq, train/loss=2.980\r",
+      "Epoch 0:  74%|▋| 1379/1867 [34:54<12:21,  1.52s/it, v_num=cbeq, train/loss=3.470"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 1380/1867 [34:59<12:20,  1.52s/it, v_num=cbeq, train/loss=3.470\r",
+      "Epoch 0:  74%|▋| 1380/1867 [34:59<12:20,  1.52s/it, v_num=cbeq, train/loss=3.560"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 1381/1867 [34:59<12:18,  1.52s/it, v_num=cbeq, train/loss=3.560\r",
+      "Epoch 0:  74%|▋| 1381/1867 [34:59<12:18,  1.52s/it, v_num=cbeq, train/loss=2.440"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 1382/1867 [34:59<12:16,  1.52s/it, v_num=cbeq, train/loss=2.440\r",
+      "Epoch 0:  74%|▋| 1382/1867 [34:59<12:16,  1.52s/it, v_num=cbeq, train/loss=3.000"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 1383/1867 [34:59<12:14,  1.52s/it, v_num=cbeq, train/loss=3.000"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 1383/1867 [34:59<12:14,  1.52s/it, v_num=cbeq, train/loss=3.410"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 1384/1867 [35:05<12:14,  1.52s/it, v_num=cbeq, train/loss=3.410\r",
+      "Epoch 0:  74%|▋| 1384/1867 [35:05<12:14,  1.52s/it, v_num=cbeq, train/loss=3.920"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 1385/1867 [35:05<12:12,  1.52s/it, v_num=cbeq, train/loss=3.920\r",
+      "Epoch 0:  74%|▋| 1385/1867 [35:05<12:12,  1.52s/it, v_num=cbeq, train/loss=1.040"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 1386/1867 [35:05<12:10,  1.52s/it, v_num=cbeq, train/loss=1.040\r",
+      "Epoch 0:  74%|▋| 1386/1867 [35:05<12:10,  1.52s/it, v_num=cbeq, train/loss=3.970"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 1387/1867 [35:05<12:08,  1.52s/it, v_num=cbeq, train/loss=3.970\r",
+      "Epoch 0:  74%|▋| 1387/1867 [35:05<12:08,  1.52s/it, v_num=cbeq, train/loss=2.980"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 1388/1867 [35:11<12:08,  1.52s/it, v_num=cbeq, train/loss=2.980\r",
+      "Epoch 0:  74%|▋| 1388/1867 [35:11<12:08,  1.52s/it, v_num=cbeq, train/loss=2.830"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 1389/1867 [35:11<12:06,  1.52s/it, v_num=cbeq, train/loss=2.830\r",
+      "Epoch 0:  74%|▋| 1389/1867 [35:11<12:06,  1.52s/it, v_num=cbeq, train/loss=3.420"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  74%|▋| 1390/1867 [35:11<12:04,  1.52s/it, v_num=cbeq, train/loss=3.420\r",
+      "Epoch 0:  74%|▋| 1390/1867 [35:11<12:04,  1.52s/it, v_num=cbeq, train/loss=4.190"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▋| 1391/1867 [35:11<12:02,  1.52s/it, v_num=cbeq, train/loss=4.190\r",
+      "Epoch 0:  75%|▋| 1391/1867 [35:11<12:02,  1.52s/it, v_num=cbeq, train/loss=2.550"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▋| 1392/1867 [35:17<12:02,  1.52s/it, v_num=cbeq, train/loss=2.550\r",
+      "Epoch 0:  75%|▋| 1392/1867 [35:17<12:02,  1.52s/it, v_num=cbeq, train/loss=2.590"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▋| 1393/1867 [35:17<12:00,  1.52s/it, v_num=cbeq, train/loss=2.590\r",
+      "Epoch 0:  75%|▋| 1393/1867 [35:17<12:00,  1.52s/it, v_num=cbeq, train/loss=2.610"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▋| 1394/1867 [35:17<11:58,  1.52s/it, v_num=cbeq, train/loss=2.610\r",
+      "Epoch 0:  75%|▋| 1394/1867 [35:17<11:58,  1.52s/it, v_num=cbeq, train/loss=2.090"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▋| 1395/1867 [35:17<11:56,  1.52s/it, v_num=cbeq, train/loss=2.090\r",
+      "Epoch 0:  75%|▋| 1395/1867 [35:17<11:56,  1.52s/it, v_num=cbeq, train/loss=5.190"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▋| 1396/1867 [35:23<11:56,  1.52s/it, v_num=cbeq, train/loss=5.190\r",
+      "Epoch 0:  75%|▋| 1396/1867 [35:23<11:56,  1.52s/it, v_num=cbeq, train/loss=2.300"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▋| 1397/1867 [35:23<11:54,  1.52s/it, v_num=cbeq, train/loss=2.300\r",
+      "Epoch 0:  75%|▋| 1397/1867 [35:23<11:54,  1.52s/it, v_num=cbeq, train/loss=2.000"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▋| 1398/1867 [35:23<11:52,  1.52s/it, v_num=cbeq, train/loss=2.000\r",
+      "Epoch 0:  75%|▋| 1398/1867 [35:23<11:52,  1.52s/it, v_num=cbeq, train/loss=1.410"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▋| 1399/1867 [35:23<11:50,  1.52s/it, v_num=cbeq, train/loss=1.410\r",
+      "Epoch 0:  75%|▋| 1399/1867 [35:23<11:50,  1.52s/it, v_num=cbeq, train/loss=4.220"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▋| 1400/1867 [35:29<11:50,  1.52s/it, v_num=cbeq, train/loss=4.220\r",
+      "Epoch 0:  75%|▋| 1400/1867 [35:29<11:50,  1.52s/it, v_num=cbeq, train/loss=3.000"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▊| 1401/1867 [35:29<11:48,  1.52s/it, v_num=cbeq, train/loss=3.000\r",
+      "Epoch 0:  75%|▊| 1401/1867 [35:29<11:48,  1.52s/it, v_num=cbeq, train/loss=3.220"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▊| 1402/1867 [35:29<11:46,  1.52s/it, v_num=cbeq, train/loss=3.220\r",
+      "Epoch 0:  75%|▊| 1402/1867 [35:29<11:46,  1.52s/it, v_num=cbeq, train/loss=3.950"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▊| 1403/1867 [35:29<11:44,  1.52s/it, v_num=cbeq, train/loss=3.950\r",
+      "Epoch 0:  75%|▊| 1403/1867 [35:29<11:44,  1.52s/it, v_num=cbeq, train/loss=3.690"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▊| 1404/1867 [35:35<11:44,  1.52s/it, v_num=cbeq, train/loss=3.690\r",
+      "Epoch 0:  75%|▊| 1404/1867 [35:35<11:44,  1.52s/it, v_num=cbeq, train/loss=2.520"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▊| 1405/1867 [35:35<11:42,  1.52s/it, v_num=cbeq, train/loss=2.520\r",
+      "Epoch 0:  75%|▊| 1405/1867 [35:35<11:42,  1.52s/it, v_num=cbeq, train/loss=3.050"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▊| 1406/1867 [35:35<11:40,  1.52s/it, v_num=cbeq, train/loss=3.050\r",
+      "Epoch 0:  75%|▊| 1406/1867 [35:35<11:40,  1.52s/it, v_num=cbeq, train/loss=2.690"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▊| 1407/1867 [35:35<11:38,  1.52s/it, v_num=cbeq, train/loss=2.690\r",
+      "Epoch 0:  75%|▊| 1407/1867 [35:35<11:38,  1.52s/it, v_num=cbeq, train/loss=1.460"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▊| 1408/1867 [35:41<11:37,  1.52s/it, v_num=cbeq, train/loss=1.460\r",
+      "Epoch 0:  75%|▊| 1408/1867 [35:41<11:37,  1.52s/it, v_num=cbeq, train/loss=3.810"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  75%|▊| 1409/1867 [35:41<11:35,  1.52s/it, v_num=cbeq, train/loss=3.810\r",
+      "Epoch 0:  75%|▊| 1409/1867 [35:41<11:35,  1.52s/it, v_num=cbeq, train/loss=3.660"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 1410/1867 [35:41<11:34,  1.52s/it, v_num=cbeq, train/loss=3.660\r",
+      "Epoch 0:  76%|▊| 1410/1867 [35:41<11:34,  1.52s/it, v_num=cbeq, train/loss=4.160"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 1411/1867 [35:41<11:32,  1.52s/it, v_num=cbeq, train/loss=4.160\r",
+      "Epoch 0:  76%|▊| 1411/1867 [35:41<11:32,  1.52s/it, v_num=cbeq, train/loss=3.420"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 1412/1867 [35:47<11:31,  1.52s/it, v_num=cbeq, train/loss=3.420\r",
+      "Epoch 0:  76%|▊| 1412/1867 [35:47<11:31,  1.52s/it, v_num=cbeq, train/loss=2.800"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 1413/1867 [35:47<11:29,  1.52s/it, v_num=cbeq, train/loss=2.800\r",
+      "Epoch 0:  76%|▊| 1413/1867 [35:47<11:29,  1.52s/it, v_num=cbeq, train/loss=4.060"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 1414/1867 [35:47<11:27,  1.52s/it, v_num=cbeq, train/loss=4.060\r",
+      "Epoch 0:  76%|▊| 1414/1867 [35:47<11:27,  1.52s/it, v_num=cbeq, train/loss=2.250"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 1415/1867 [35:47<11:25,  1.52s/it, v_num=cbeq, train/loss=2.250\r",
+      "Epoch 0:  76%|▊| 1415/1867 [35:47<11:25,  1.52s/it, v_num=cbeq, train/loss=4.750"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 1416/1867 [35:53<11:25,  1.52s/it, v_num=cbeq, train/loss=4.750\r",
+      "Epoch 0:  76%|▊| 1416/1867 [35:53<11:25,  1.52s/it, v_num=cbeq, train/loss=2.780"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 1417/1867 [35:53<11:23,  1.52s/it, v_num=cbeq, train/loss=2.780\r",
+      "Epoch 0:  76%|▊| 1417/1867 [35:53<11:23,  1.52s/it, v_num=cbeq, train/loss=3.750"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 1418/1867 [35:53<11:21,  1.52s/it, v_num=cbeq, train/loss=3.750\r",
+      "Epoch 0:  76%|▊| 1418/1867 [35:53<11:21,  1.52s/it, v_num=cbeq, train/loss=2.810"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 1419/1867 [35:53<11:19,  1.52s/it, v_num=cbeq, train/loss=2.810\r",
+      "Epoch 0:  76%|▊| 1419/1867 [35:53<11:19,  1.52s/it, v_num=cbeq, train/loss=3.220"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 1420/1867 [35:59<11:19,  1.52s/it, v_num=cbeq, train/loss=3.220\r",
+      "Epoch 0:  76%|▊| 1420/1867 [35:59<11:19,  1.52s/it, v_num=cbeq, train/loss=4.250"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 1421/1867 [35:59<11:17,  1.52s/it, v_num=cbeq, train/loss=4.250\r",
+      "Epoch 0:  76%|▊| 1421/1867 [35:59<11:17,  1.52s/it, v_num=cbeq, train/loss=2.340"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 1422/1867 [35:59<11:15,  1.52s/it, v_num=cbeq, train/loss=2.340\r",
+      "Epoch 0:  76%|▊| 1422/1867 [35:59<11:15,  1.52s/it, v_num=cbeq, train/loss=4.310"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 1423/1867 [35:59<11:13,  1.52s/it, v_num=cbeq, train/loss=4.310\r",
+      "Epoch 0:  76%|▊| 1423/1867 [35:59<11:13,  1.52s/it, v_num=cbeq, train/loss=3.090"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 1424/1867 [36:04<11:13,  1.52s/it, v_num=cbeq, train/loss=3.090\r",
+      "Epoch 0:  76%|▊| 1424/1867 [36:04<11:13,  1.52s/it, v_num=cbeq, train/loss=4.060"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 1425/1867 [36:04<11:11,  1.52s/it, v_num=cbeq, train/loss=4.060\r",
+      "Epoch 0:  76%|▊| 1425/1867 [36:04<11:11,  1.52s/it, v_num=cbeq, train/loss=3.980"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 1426/1867 [36:04<11:09,  1.52s/it, v_num=cbeq, train/loss=3.980\r",
+      "Epoch 0:  76%|▊| 1426/1867 [36:04<11:09,  1.52s/it, v_num=cbeq, train/loss=4.840"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 1427/1867 [36:05<11:07,  1.52s/it, v_num=cbeq, train/loss=4.840\r",
+      "Epoch 0:  76%|▊| 1427/1867 [36:05<11:07,  1.52s/it, v_num=cbeq, train/loss=4.880"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  76%|▊| 1428/1867 [36:10<11:07,  1.52s/it, v_num=cbeq, train/loss=4.880\r",
+      "Epoch 0:  76%|▊| 1428/1867 [36:10<11:07,  1.52s/it, v_num=cbeq, train/loss=4.750"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 1429/1867 [36:10<11:05,  1.52s/it, v_num=cbeq, train/loss=4.750\r",
+      "Epoch 0:  77%|▊| 1429/1867 [36:10<11:05,  1.52s/it, v_num=cbeq, train/loss=2.050"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 1430/1867 [36:10<11:03,  1.52s/it, v_num=cbeq, train/loss=2.050\r",
+      "Epoch 0:  77%|▊| 1430/1867 [36:10<11:03,  1.52s/it, v_num=cbeq, train/loss=1.650"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 1431/1867 [36:10<11:01,  1.52s/it, v_num=cbeq, train/loss=1.650\r",
+      "Epoch 0:  77%|▊| 1431/1867 [36:10<11:01,  1.52s/it, v_num=cbeq, train/loss=3.920"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 1432/1867 [36:16<11:01,  1.52s/it, v_num=cbeq, train/loss=3.920\r",
+      "Epoch 0:  77%|▊| 1432/1867 [36:16<11:01,  1.52s/it, v_num=cbeq, train/loss=3.640"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 1433/1867 [36:16<10:59,  1.52s/it, v_num=cbeq, train/loss=3.640\r",
+      "Epoch 0:  77%|▊| 1433/1867 [36:16<10:59,  1.52s/it, v_num=cbeq, train/loss=2.750"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 1434/1867 [36:16<10:57,  1.52s/it, v_num=cbeq, train/loss=2.750\r",
+      "Epoch 0:  77%|▊| 1434/1867 [36:16<10:57,  1.52s/it, v_num=cbeq, train/loss=3.250"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 1435/1867 [36:16<10:55,  1.52s/it, v_num=cbeq, train/loss=3.250\r",
+      "Epoch 0:  77%|▊| 1435/1867 [36:16<10:55,  1.52s/it, v_num=cbeq, train/loss=4.120"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 1436/1867 [36:22<10:55,  1.52s/it, v_num=cbeq, train/loss=4.120\r",
+      "Epoch 0:  77%|▊| 1436/1867 [36:22<10:55,  1.52s/it, v_num=cbeq, train/loss=3.830"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 1437/1867 [36:22<10:53,  1.52s/it, v_num=cbeq, train/loss=3.830\r",
+      "Epoch 0:  77%|▊| 1437/1867 [36:22<10:53,  1.52s/it, v_num=cbeq, train/loss=2.550"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 1438/1867 [36:22<10:51,  1.52s/it, v_num=cbeq, train/loss=2.550\r",
+      "Epoch 0:  77%|▊| 1438/1867 [36:22<10:51,  1.52s/it, v_num=cbeq, train/loss=3.380"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 1439/1867 [36:22<10:49,  1.52s/it, v_num=cbeq, train/loss=3.380\r",
+      "Epoch 0:  77%|▊| 1439/1867 [36:22<10:49,  1.52s/it, v_num=cbeq, train/loss=4.530"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 1440/1867 [36:28<10:48,  1.52s/it, v_num=cbeq, train/loss=4.530\r",
+      "Epoch 0:  77%|▊| 1440/1867 [36:28<10:48,  1.52s/it, v_num=cbeq, train/loss=2.620"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 1441/1867 [36:28<10:46,  1.52s/it, v_num=cbeq, train/loss=2.620\r",
+      "Epoch 0:  77%|▊| 1441/1867 [36:28<10:46,  1.52s/it, v_num=cbeq, train/loss=2.670"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 1442/1867 [36:28<10:45,  1.52s/it, v_num=cbeq, train/loss=2.670\r",
+      "Epoch 0:  77%|▊| 1442/1867 [36:28<10:45,  1.52s/it, v_num=cbeq, train/loss=3.880"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 1443/1867 [36:28<10:43,  1.52s/it, v_num=cbeq, train/loss=3.880\r",
+      "Epoch 0:  77%|▊| 1443/1867 [36:28<10:43,  1.52s/it, v_num=cbeq, train/loss=4.530"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 1444/1867 [36:34<10:42,  1.52s/it, v_num=cbeq, train/loss=4.530\r",
+      "Epoch 0:  77%|▊| 1444/1867 [36:34<10:42,  1.52s/it, v_num=cbeq, train/loss=1.800"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 1445/1867 [36:34<10:40,  1.52s/it, v_num=cbeq, train/loss=1.800\r",
+      "Epoch 0:  77%|▊| 1445/1867 [36:34<10:40,  1.52s/it, v_num=cbeq, train/loss=4.310"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  77%|▊| 1446/1867 [36:34<10:38,  1.52s/it, v_num=cbeq, train/loss=4.310\r",
+      "Epoch 0:  77%|▊| 1446/1867 [36:34<10:38,  1.52s/it, v_num=cbeq, train/loss=3.230"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 1447/1867 [36:34<10:36,  1.52s/it, v_num=cbeq, train/loss=3.230\r",
+      "Epoch 0:  78%|▊| 1447/1867 [36:34<10:36,  1.52s/it, v_num=cbeq, train/loss=3.660"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 1448/1867 [36:40<10:36,  1.52s/it, v_num=cbeq, train/loss=3.660"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 1448/1867 [36:40<10:36,  1.52s/it, v_num=cbeq, train/loss=4.840"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 1449/1867 [36:40<10:34,  1.52s/it, v_num=cbeq, train/loss=4.840\r",
+      "Epoch 0:  78%|▊| 1449/1867 [36:40<10:34,  1.52s/it, v_num=cbeq, train/loss=4.840"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 1450/1867 [36:40<10:32,  1.52s/it, v_num=cbeq, train/loss=4.840\r",
+      "Epoch 0:  78%|▊| 1450/1867 [36:40<10:32,  1.52s/it, v_num=cbeq, train/loss=2.840"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 1451/1867 [36:40<10:30,  1.52s/it, v_num=cbeq, train/loss=2.840\r",
+      "Epoch 0:  78%|▊| 1451/1867 [36:40<10:30,  1.52s/it, v_num=cbeq, train/loss=2.950"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 1452/1867 [36:46<10:30,  1.52s/it, v_num=cbeq, train/loss=2.950\r",
+      "Epoch 0:  78%|▊| 1452/1867 [36:46<10:30,  1.52s/it, v_num=cbeq, train/loss=2.880"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 1453/1867 [36:46<10:28,  1.52s/it, v_num=cbeq, train/loss=2.880\r",
+      "Epoch 0:  78%|▊| 1453/1867 [36:46<10:28,  1.52s/it, v_num=cbeq, train/loss=1.620"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 1454/1867 [36:46<10:26,  1.52s/it, v_num=cbeq, train/loss=1.620\r",
+      "Epoch 0:  78%|▊| 1454/1867 [36:46<10:26,  1.52s/it, v_num=cbeq, train/loss=3.200"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 1455/1867 [36:46<10:24,  1.52s/it, v_num=cbeq, train/loss=3.200\r",
+      "Epoch 0:  78%|▊| 1455/1867 [36:46<10:24,  1.52s/it, v_num=cbeq, train/loss=4.060"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 1456/1867 [36:52<10:24,  1.52s/it, v_num=cbeq, train/loss=4.060\r",
+      "Epoch 0:  78%|▊| 1456/1867 [36:52<10:24,  1.52s/it, v_num=cbeq, train/loss=3.420"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 1457/1867 [36:52<10:22,  1.52s/it, v_num=cbeq, train/loss=3.420\r",
+      "Epoch 0:  78%|▊| 1457/1867 [36:52<10:22,  1.52s/it, v_num=cbeq, train/loss=2.780"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 1458/1867 [36:52<10:20,  1.52s/it, v_num=cbeq, train/loss=2.780"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 1458/1867 [36:52<10:20,  1.52s/it, v_num=cbeq, train/loss=3.110"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 1459/1867 [36:52<10:18,  1.52s/it, v_num=cbeq, train/loss=3.110\r",
+      "Epoch 0:  78%|▊| 1459/1867 [36:52<10:18,  1.52s/it, v_num=cbeq, train/loss=1.880"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 1460/1867 [36:58<10:18,  1.52s/it, v_num=cbeq, train/loss=1.880\r",
+      "Epoch 0:  78%|▊| 1460/1867 [36:58<10:18,  1.52s/it, v_num=cbeq, train/loss=3.610"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 1461/1867 [36:58<10:16,  1.52s/it, v_num=cbeq, train/loss=3.610\r",
+      "Epoch 0:  78%|▊| 1461/1867 [36:58<10:16,  1.52s/it, v_num=cbeq, train/loss=2.920"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 1462/1867 [36:58<10:14,  1.52s/it, v_num=cbeq, train/loss=2.920\r",
+      "Epoch 0:  78%|▊| 1462/1867 [36:58<10:14,  1.52s/it, v_num=cbeq, train/loss=1.210"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 1463/1867 [36:58<10:12,  1.52s/it, v_num=cbeq, train/loss=1.210\r",
+      "Epoch 0:  78%|▊| 1463/1867 [36:58<10:12,  1.52s/it, v_num=cbeq, train/loss=4.410"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 1464/1867 [37:03<10:12,  1.52s/it, v_num=cbeq, train/loss=4.410\r",
+      "Epoch 0:  78%|▊| 1464/1867 [37:03<10:12,  1.52s/it, v_num=cbeq, train/loss=3.560"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  78%|▊| 1465/1867 [37:03<10:10,  1.52s/it, v_num=cbeq, train/loss=3.560\r",
+      "Epoch 0:  78%|▊| 1465/1867 [37:03<10:10,  1.52s/it, v_num=cbeq, train/loss=4.310"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 1466/1867 [37:04<10:08,  1.52s/it, v_num=cbeq, train/loss=4.310\r",
+      "Epoch 0:  79%|▊| 1466/1867 [37:04<10:08,  1.52s/it, v_num=cbeq, train/loss=4.190"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 1467/1867 [37:04<10:06,  1.52s/it, v_num=cbeq, train/loss=4.190\r",
+      "Epoch 0:  79%|▊| 1467/1867 [37:04<10:06,  1.52s/it, v_num=cbeq, train/loss=3.610"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 1468/1867 [37:09<10:06,  1.52s/it, v_num=cbeq, train/loss=3.610\r",
+      "Epoch 0:  79%|▊| 1468/1867 [37:09<10:06,  1.52s/it, v_num=cbeq, train/loss=2.230"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 1469/1867 [37:09<10:04,  1.52s/it, v_num=cbeq, train/loss=2.230\r",
+      "Epoch 0:  79%|▊| 1469/1867 [37:09<10:04,  1.52s/it, v_num=cbeq, train/loss=3.810"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 1470/1867 [37:09<10:02,  1.52s/it, v_num=cbeq, train/loss=3.810\r",
+      "Epoch 0:  79%|▊| 1470/1867 [37:09<10:02,  1.52s/it, v_num=cbeq, train/loss=3.610"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 1471/1867 [37:09<10:00,  1.52s/it, v_num=cbeq, train/loss=3.610\r",
+      "Epoch 0:  79%|▊| 1471/1867 [37:09<10:00,  1.52s/it, v_num=cbeq, train/loss=3.200"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 1472/1867 [37:15<09:59,  1.52s/it, v_num=cbeq, train/loss=3.200\r",
+      "Epoch 0:  79%|▊| 1472/1867 [37:15<09:59,  1.52s/it, v_num=cbeq, train/loss=3.730"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 1473/1867 [37:15<09:57,  1.52s/it, v_num=cbeq, train/loss=3.730\r",
+      "Epoch 0:  79%|▊| 1473/1867 [37:15<09:57,  1.52s/it, v_num=cbeq, train/loss=2.780"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 1474/1867 [37:15<09:56,  1.52s/it, v_num=cbeq, train/loss=2.780\r",
+      "Epoch 0:  79%|▊| 1474/1867 [37:15<09:56,  1.52s/it, v_num=cbeq, train/loss=3.390"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 1475/1867 [37:15<09:54,  1.52s/it, v_num=cbeq, train/loss=3.390\r",
+      "Epoch 0:  79%|▊| 1475/1867 [37:15<09:54,  1.52s/it, v_num=cbeq, train/loss=3.050"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 1476/1867 [37:22<09:53,  1.52s/it, v_num=cbeq, train/loss=3.050\r",
+      "Epoch 0:  79%|▊| 1476/1867 [37:22<09:53,  1.52s/it, v_num=cbeq, train/loss=3.860"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 1477/1867 [37:22<09:52,  1.52s/it, v_num=cbeq, train/loss=3.860\r",
+      "Epoch 0:  79%|▊| 1477/1867 [37:22<09:52,  1.52s/it, v_num=cbeq, train/loss=3.660"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 1478/1867 [37:22<09:50,  1.52s/it, v_num=cbeq, train/loss=3.660"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 1478/1867 [37:22<09:50,  1.52s/it, v_num=cbeq, train/loss=3.110"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 1479/1867 [37:22<09:48,  1.52s/it, v_num=cbeq, train/loss=3.110\r",
+      "Epoch 0:  79%|▊| 1479/1867 [37:22<09:48,  1.52s/it, v_num=cbeq, train/loss=2.250"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 1480/1867 [37:27<09:47,  1.52s/it, v_num=cbeq, train/loss=2.250\r",
+      "Epoch 0:  79%|▊| 1480/1867 [37:27<09:47,  1.52s/it, v_num=cbeq, train/loss=2.750"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 1481/1867 [37:27<09:45,  1.52s/it, v_num=cbeq, train/loss=2.750\r",
+      "Epoch 0:  79%|▊| 1481/1867 [37:27<09:45,  1.52s/it, v_num=cbeq, train/loss=2.780"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 1482/1867 [37:27<09:43,  1.52s/it, v_num=cbeq, train/loss=2.780\r",
+      "Epoch 0:  79%|▊| 1482/1867 [37:27<09:43,  1.52s/it, v_num=cbeq, train/loss=4.160"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 1483/1867 [37:28<09:42,  1.52s/it, v_num=cbeq, train/loss=4.160\r",
+      "Epoch 0:  79%|▊| 1483/1867 [37:28<09:42,  1.52s/it, v_num=cbeq, train/loss=5.410"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  79%|▊| 1484/1867 [37:33<09:41,  1.52s/it, v_num=cbeq, train/loss=5.410\r",
+      "Epoch 0:  79%|▊| 1484/1867 [37:33<09:41,  1.52s/it, v_num=cbeq, train/loss=4.030"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 1485/1867 [37:33<09:39,  1.52s/it, v_num=cbeq, train/loss=4.030\r",
+      "Epoch 0:  80%|▊| 1485/1867 [37:33<09:39,  1.52s/it, v_num=cbeq, train/loss=2.000"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 1486/1867 [37:33<09:37,  1.52s/it, v_num=cbeq, train/loss=2.000\r",
+      "Epoch 0:  80%|▊| 1486/1867 [37:33<09:37,  1.52s/it, v_num=cbeq, train/loss=3.560"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 1487/1867 [37:33<09:35,  1.52s/it, v_num=cbeq, train/loss=3.560\r",
+      "Epoch 0:  80%|▊| 1487/1867 [37:33<09:35,  1.52s/it, v_num=cbeq, train/loss=2.450"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 1488/1867 [37:39<09:35,  1.52s/it, v_num=cbeq, train/loss=2.450\r",
+      "Epoch 0:  80%|▊| 1488/1867 [37:39<09:35,  1.52s/it, v_num=cbeq, train/loss=2.550"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 1489/1867 [37:39<09:33,  1.52s/it, v_num=cbeq, train/loss=2.550\r",
+      "Epoch 0:  80%|▊| 1489/1867 [37:39<09:33,  1.52s/it, v_num=cbeq, train/loss=3.230"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 1490/1867 [37:39<09:31,  1.52s/it, v_num=cbeq, train/loss=3.230\r",
+      "Epoch 0:  80%|▊| 1490/1867 [37:39<09:31,  1.52s/it, v_num=cbeq, train/loss=3.480"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 1491/1867 [37:39<09:29,  1.52s/it, v_num=cbeq, train/loss=3.480\r",
+      "Epoch 0:  80%|▊| 1491/1867 [37:39<09:29,  1.52s/it, v_num=cbeq, train/loss=1.680"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 1492/1867 [37:45<09:29,  1.52s/it, v_num=cbeq, train/loss=1.680\r",
+      "Epoch 0:  80%|▊| 1492/1867 [37:45<09:29,  1.52s/it, v_num=cbeq, train/loss=2.890"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 1493/1867 [37:45<09:27,  1.52s/it, v_num=cbeq, train/loss=2.890\r",
+      "Epoch 0:  80%|▊| 1493/1867 [37:45<09:27,  1.52s/it, v_num=cbeq, train/loss=4.380"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 1494/1867 [37:45<09:25,  1.52s/it, v_num=cbeq, train/loss=4.380\r",
+      "Epoch 0:  80%|▊| 1494/1867 [37:45<09:25,  1.52s/it, v_num=cbeq, train/loss=2.750"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 1495/1867 [37:45<09:23,  1.52s/it, v_num=cbeq, train/loss=2.750\r",
+      "Epoch 0:  80%|▊| 1495/1867 [37:45<09:23,  1.52s/it, v_num=cbeq, train/loss=3.940"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 1496/1867 [37:51<09:23,  1.52s/it, v_num=cbeq, train/loss=3.940\r",
+      "Epoch 0:  80%|▊| 1496/1867 [37:51<09:23,  1.52s/it, v_num=cbeq, train/loss=3.390"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 1497/1867 [37:51<09:21,  1.52s/it, v_num=cbeq, train/loss=3.390\r",
+      "Epoch 0:  80%|▊| 1497/1867 [37:51<09:21,  1.52s/it, v_num=cbeq, train/loss=3.270"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 1498/1867 [37:51<09:19,  1.52s/it, v_num=cbeq, train/loss=3.270\r",
+      "Epoch 0:  80%|▊| 1498/1867 [37:51<09:19,  1.52s/it, v_num=cbeq, train/loss=4.660"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 1499/1867 [37:51<09:17,  1.52s/it, v_num=cbeq, train/loss=4.660\r",
+      "Epoch 0:  80%|▊| 1499/1867 [37:51<09:17,  1.52s/it, v_num=cbeq, train/loss=4.940"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 1500/1867 [37:57<09:17,  1.52s/it, v_num=cbeq, train/loss=4.940\r",
+      "Epoch 0:  80%|▊| 1500/1867 [37:57<09:17,  1.52s/it, v_num=cbeq, train/loss=2.780"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 1501/1867 [37:57<09:15,  1.52s/it, v_num=cbeq, train/loss=2.780\r",
+      "Epoch 0:  80%|▊| 1501/1867 [37:57<09:15,  1.52s/it, v_num=cbeq, train/loss=4.060"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  80%|▊| 1502/1867 [37:57<09:13,  1.52s/it, v_num=cbeq, train/loss=4.060\r",
+      "Epoch 0:  80%|▊| 1502/1867 [37:57<09:13,  1.52s/it, v_num=cbeq, train/loss=3.220"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 1503/1867 [37:57<09:11,  1.52s/it, v_num=cbeq, train/loss=3.220\r",
+      "Epoch 0:  81%|▊| 1503/1867 [37:57<09:11,  1.52s/it, v_num=cbeq, train/loss=3.420"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 1504/1867 [38:02<09:11,  1.52s/it, v_num=cbeq, train/loss=3.420\r",
+      "Epoch 0:  81%|▊| 1504/1867 [38:02<09:11,  1.52s/it, v_num=cbeq, train/loss=3.410"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 1505/1867 [38:03<09:09,  1.52s/it, v_num=cbeq, train/loss=3.410\r",
+      "Epoch 0:  81%|▊| 1505/1867 [38:03<09:09,  1.52s/it, v_num=cbeq, train/loss=2.940"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 1506/1867 [38:03<09:07,  1.52s/it, v_num=cbeq, train/loss=2.940\r",
+      "Epoch 0:  81%|▊| 1506/1867 [38:03<09:07,  1.52s/it, v_num=cbeq, train/loss=1.450"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 1507/1867 [38:03<09:05,  1.52s/it, v_num=cbeq, train/loss=1.450\r",
+      "Epoch 0:  81%|▊| 1507/1867 [38:03<09:05,  1.52s/it, v_num=cbeq, train/loss=3.080"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 1508/1867 [38:08<09:04,  1.52s/it, v_num=cbeq, train/loss=3.080\r",
+      "Epoch 0:  81%|▊| 1508/1867 [38:08<09:04,  1.52s/it, v_num=cbeq, train/loss=3.140"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 1509/1867 [38:08<09:02,  1.52s/it, v_num=cbeq, train/loss=3.140\r",
+      "Epoch 0:  81%|▊| 1509/1867 [38:08<09:02,  1.52s/it, v_num=cbeq, train/loss=1.620"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 1510/1867 [38:08<09:01,  1.52s/it, v_num=cbeq, train/loss=1.620\r",
+      "Epoch 0:  81%|▊| 1510/1867 [38:08<09:01,  1.52s/it, v_num=cbeq, train/loss=4.220"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 1511/1867 [38:09<08:59,  1.51s/it, v_num=cbeq, train/loss=4.220\r",
+      "Epoch 0:  81%|▊| 1511/1867 [38:09<08:59,  1.51s/it, v_num=cbeq, train/loss=4.380"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 1512/1867 [38:14<08:58,  1.52s/it, v_num=cbeq, train/loss=4.380\r",
+      "Epoch 0:  81%|▊| 1512/1867 [38:14<08:58,  1.52s/it, v_num=cbeq, train/loss=3.140"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 1513/1867 [38:14<08:56,  1.52s/it, v_num=cbeq, train/loss=3.140\r",
+      "Epoch 0:  81%|▊| 1513/1867 [38:14<08:56,  1.52s/it, v_num=cbeq, train/loss=3.450"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 1514/1867 [38:14<08:55,  1.52s/it, v_num=cbeq, train/loss=3.450\r",
+      "Epoch 0:  81%|▊| 1514/1867 [38:14<08:55,  1.52s/it, v_num=cbeq, train/loss=3.590"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 1515/1867 [38:14<08:53,  1.51s/it, v_num=cbeq, train/loss=3.590\r",
+      "Epoch 0:  81%|▊| 1515/1867 [38:14<08:53,  1.51s/it, v_num=cbeq, train/loss=2.720"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 1516/1867 [38:20<08:52,  1.52s/it, v_num=cbeq, train/loss=2.720\r",
+      "Epoch 0:  81%|▊| 1516/1867 [38:20<08:52,  1.52s/it, v_num=cbeq, train/loss=1.900"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 1517/1867 [38:20<08:50,  1.52s/it, v_num=cbeq, train/loss=1.900\r",
+      "Epoch 0:  81%|▊| 1517/1867 [38:20<08:50,  1.52s/it, v_num=cbeq, train/loss=3.250"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 1518/1867 [38:20<08:48,  1.52s/it, v_num=cbeq, train/loss=3.250\r",
+      "Epoch 0:  81%|▊| 1518/1867 [38:20<08:48,  1.52s/it, v_num=cbeq, train/loss=2.470"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 1519/1867 [38:20<08:47,  1.51s/it, v_num=cbeq, train/loss=2.470\r",
+      "Epoch 0:  81%|▊| 1519/1867 [38:20<08:47,  1.51s/it, v_num=cbeq, train/loss=3.940"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 1520/1867 [38:26<08:46,  1.52s/it, v_num=cbeq, train/loss=3.940\r",
+      "Epoch 0:  81%|▊| 1520/1867 [38:26<08:46,  1.52s/it, v_num=cbeq, train/loss=3.140"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  81%|▊| 1521/1867 [38:26<08:44,  1.52s/it, v_num=cbeq, train/loss=3.140\r",
+      "Epoch 0:  81%|▊| 1521/1867 [38:26<08:44,  1.52s/it, v_num=cbeq, train/loss=2.980"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 1522/1867 [38:26<08:42,  1.52s/it, v_num=cbeq, train/loss=2.980\r",
+      "Epoch 0:  82%|▊| 1522/1867 [38:26<08:42,  1.52s/it, v_num=cbeq, train/loss=4.940"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 1523/1867 [38:26<08:40,  1.51s/it, v_num=cbeq, train/loss=4.940\r",
+      "Epoch 0:  82%|▊| 1523/1867 [38:26<08:40,  1.51s/it, v_num=cbeq, train/loss=3.730"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 1524/1867 [38:32<08:40,  1.52s/it, v_num=cbeq, train/loss=3.730\r",
+      "Epoch 0:  82%|▊| 1524/1867 [38:32<08:40,  1.52s/it, v_num=cbeq, train/loss=1.740"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 1525/1867 [38:32<08:38,  1.52s/it, v_num=cbeq, train/loss=1.740\r",
+      "Epoch 0:  82%|▊| 1525/1867 [38:32<08:38,  1.52s/it, v_num=cbeq, train/loss=3.750"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 1526/1867 [38:32<08:36,  1.52s/it, v_num=cbeq, train/loss=3.750\r",
+      "Epoch 0:  82%|▊| 1526/1867 [38:32<08:36,  1.52s/it, v_num=cbeq, train/loss=4.160"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 1527/1867 [38:32<08:34,  1.51s/it, v_num=cbeq, train/loss=4.160\r",
+      "Epoch 0:  82%|▊| 1527/1867 [38:32<08:34,  1.51s/it, v_num=cbeq, train/loss=1.400"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 1528/1867 [38:38<08:34,  1.52s/it, v_num=cbeq, train/loss=1.400\r",
+      "Epoch 0:  82%|▊| 1528/1867 [38:38<08:34,  1.52s/it, v_num=cbeq, train/loss=2.550"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 1529/1867 [38:38<08:32,  1.52s/it, v_num=cbeq, train/loss=2.550\r",
+      "Epoch 0:  82%|▊| 1529/1867 [38:38<08:32,  1.52s/it, v_num=cbeq, train/loss=2.580"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 1530/1867 [38:38<08:30,  1.52s/it, v_num=cbeq, train/loss=2.580\r",
+      "Epoch 0:  82%|▊| 1530/1867 [38:38<08:30,  1.52s/it, v_num=cbeq, train/loss=3.330"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 1531/1867 [38:38<08:28,  1.51s/it, v_num=cbeq, train/loss=3.330\r",
+      "Epoch 0:  82%|▊| 1531/1867 [38:38<08:28,  1.51s/it, v_num=cbeq, train/loss=3.860"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 1532/1867 [38:44<08:28,  1.52s/it, v_num=cbeq, train/loss=3.860\r",
+      "Epoch 0:  82%|▊| 1532/1867 [38:44<08:28,  1.52s/it, v_num=cbeq, train/loss=1.580"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 1533/1867 [38:44<08:26,  1.52s/it, v_num=cbeq, train/loss=1.580\r",
+      "Epoch 0:  82%|▊| 1533/1867 [38:44<08:26,  1.52s/it, v_num=cbeq, train/loss=3.500"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 1534/1867 [38:44<08:24,  1.52s/it, v_num=cbeq, train/loss=3.500\r",
+      "Epoch 0:  82%|▊| 1534/1867 [38:44<08:24,  1.52s/it, v_num=cbeq, train/loss=3.910"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 1535/1867 [38:44<08:22,  1.51s/it, v_num=cbeq, train/loss=3.910\r",
+      "Epoch 0:  82%|▊| 1535/1867 [38:44<08:22,  1.51s/it, v_num=cbeq, train/loss=2.670"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 1536/1867 [38:49<08:22,  1.52s/it, v_num=cbeq, train/loss=2.670\r",
+      "Epoch 0:  82%|▊| 1536/1867 [38:49<08:22,  1.52s/it, v_num=cbeq, train/loss=3.810"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 1537/1867 [38:49<08:20,  1.52s/it, v_num=cbeq, train/loss=3.810\r",
+      "Epoch 0:  82%|▊| 1537/1867 [38:49<08:20,  1.52s/it, v_num=cbeq, train/loss=4.840"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 1538/1867 [38:50<08:18,  1.51s/it, v_num=cbeq, train/loss=4.840\r",
+      "Epoch 0:  82%|▊| 1538/1867 [38:50<08:18,  1.51s/it, v_num=cbeq, train/loss=4.000"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 1539/1867 [38:50<08:16,  1.51s/it, v_num=cbeq, train/loss=4.000\r",
+      "Epoch 0:  82%|▊| 1539/1867 [38:50<08:16,  1.51s/it, v_num=cbeq, train/loss=3.660"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  82%|▊| 1540/1867 [38:55<08:15,  1.52s/it, v_num=cbeq, train/loss=3.660\r",
+      "Epoch 0:  82%|▊| 1540/1867 [38:55<08:15,  1.52s/it, v_num=cbeq, train/loss=1.800"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 1541/1867 [38:55<08:14,  1.52s/it, v_num=cbeq, train/loss=1.800\r",
+      "Epoch 0:  83%|▊| 1541/1867 [38:55<08:14,  1.52s/it, v_num=cbeq, train/loss=2.550"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 1542/1867 [38:55<08:12,  1.51s/it, v_num=cbeq, train/loss=2.550\r",
+      "Epoch 0:  83%|▊| 1542/1867 [38:55<08:12,  1.51s/it, v_num=cbeq, train/loss=3.670"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 1543/1867 [38:55<08:10,  1.51s/it, v_num=cbeq, train/loss=3.670\r",
+      "Epoch 0:  83%|▊| 1543/1867 [38:55<08:10,  1.51s/it, v_num=cbeq, train/loss=3.270"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 1544/1867 [39:01<08:09,  1.52s/it, v_num=cbeq, train/loss=3.270\r",
+      "Epoch 0:  83%|▊| 1544/1867 [39:01<08:09,  1.52s/it, v_num=cbeq, train/loss=1.520"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 1545/1867 [39:01<08:08,  1.52s/it, v_num=cbeq, train/loss=1.520\r",
+      "Epoch 0:  83%|▊| 1545/1867 [39:01<08:08,  1.52s/it, v_num=cbeq, train/loss=5.060"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 1546/1867 [39:01<08:06,  1.51s/it, v_num=cbeq, train/loss=5.060\r",
+      "Epoch 0:  83%|▊| 1546/1867 [39:01<08:06,  1.51s/it, v_num=cbeq, train/loss=3.250"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 1547/1867 [39:01<08:04,  1.51s/it, v_num=cbeq, train/loss=3.250\r",
+      "Epoch 0:  83%|▊| 1547/1867 [39:01<08:04,  1.51s/it, v_num=cbeq, train/loss=3.840"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 1548/1867 [39:07<08:03,  1.52s/it, v_num=cbeq, train/loss=3.840\r",
+      "Epoch 0:  83%|▊| 1548/1867 [39:07<08:03,  1.52s/it, v_num=cbeq, train/loss=2.500"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 1549/1867 [39:07<08:01,  1.52s/it, v_num=cbeq, train/loss=2.500\r",
+      "Epoch 0:  83%|▊| 1549/1867 [39:07<08:01,  1.52s/it, v_num=cbeq, train/loss=3.640"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 1550/1867 [39:07<08:00,  1.51s/it, v_num=cbeq, train/loss=3.640\r",
+      "Epoch 0:  83%|▊| 1550/1867 [39:07<08:00,  1.51s/it, v_num=cbeq, train/loss=4.220"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 1551/1867 [39:07<07:58,  1.51s/it, v_num=cbeq, train/loss=4.220\r",
+      "Epoch 0:  83%|▊| 1551/1867 [39:07<07:58,  1.51s/it, v_num=cbeq, train/loss=1.680"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 1552/1867 [39:13<07:57,  1.52s/it, v_num=cbeq, train/loss=1.680\r",
+      "Epoch 0:  83%|▊| 1552/1867 [39:13<07:57,  1.52s/it, v_num=cbeq, train/loss=3.920"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 1553/1867 [39:13<07:55,  1.52s/it, v_num=cbeq, train/loss=3.920\r",
+      "Epoch 0:  83%|▊| 1553/1867 [39:13<07:55,  1.52s/it, v_num=cbeq, train/loss=3.300"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 1554/1867 [39:13<07:54,  1.51s/it, v_num=cbeq, train/loss=3.300\r",
+      "Epoch 0:  83%|▊| 1554/1867 [39:13<07:54,  1.51s/it, v_num=cbeq, train/loss=1.050"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 1555/1867 [39:13<07:52,  1.51s/it, v_num=cbeq, train/loss=1.050\r",
+      "Epoch 0:  83%|▊| 1555/1867 [39:13<07:52,  1.51s/it, v_num=cbeq, train/loss=3.060"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 1556/1867 [39:19<07:51,  1.52s/it, v_num=cbeq, train/loss=3.060\r",
+      "Epoch 0:  83%|▊| 1556/1867 [39:19<07:51,  1.52s/it, v_num=cbeq, train/loss=4.560"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 1557/1867 [39:19<07:49,  1.52s/it, v_num=cbeq, train/loss=4.560\r",
+      "Epoch 0:  83%|▊| 1557/1867 [39:19<07:49,  1.52s/it, v_num=cbeq, train/loss=2.000"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  83%|▊| 1558/1867 [39:19<07:47,  1.51s/it, v_num=cbeq, train/loss=2.000\r",
+      "Epoch 0:  83%|▊| 1558/1867 [39:19<07:47,  1.51s/it, v_num=cbeq, train/loss=3.390"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 1559/1867 [39:19<07:46,  1.51s/it, v_num=cbeq, train/loss=3.390\r",
+      "Epoch 0:  84%|▊| 1559/1867 [39:19<07:46,  1.51s/it, v_num=cbeq, train/loss=3.560"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 1560/1867 [39:25<07:45,  1.52s/it, v_num=cbeq, train/loss=3.560\r",
+      "Epoch 0:  84%|▊| 1560/1867 [39:25<07:45,  1.52s/it, v_num=cbeq, train/loss=3.250"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 1561/1867 [39:25<07:43,  1.52s/it, v_num=cbeq, train/loss=3.250\r",
+      "Epoch 0:  84%|▊| 1561/1867 [39:25<07:43,  1.52s/it, v_num=cbeq, train/loss=4.310"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 1562/1867 [39:25<07:41,  1.51s/it, v_num=cbeq, train/loss=4.310\r",
+      "Epoch 0:  84%|▊| 1562/1867 [39:25<07:41,  1.51s/it, v_num=cbeq, train/loss=3.060"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 1563/1867 [39:25<07:40,  1.51s/it, v_num=cbeq, train/loss=3.060\r",
+      "Epoch 0:  84%|▊| 1563/1867 [39:25<07:40,  1.51s/it, v_num=cbeq, train/loss=3.110"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 1564/1867 [39:31<07:39,  1.52s/it, v_num=cbeq, train/loss=3.110\r",
+      "Epoch 0:  84%|▊| 1564/1867 [39:31<07:39,  1.52s/it, v_num=cbeq, train/loss=3.020"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 1565/1867 [39:31<07:37,  1.52s/it, v_num=cbeq, train/loss=3.020\r",
+      "Epoch 0:  84%|▊| 1565/1867 [39:31<07:37,  1.52s/it, v_num=cbeq, train/loss=1.080"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 1566/1867 [39:31<07:35,  1.51s/it, v_num=cbeq, train/loss=1.080\r",
+      "Epoch 0:  84%|▊| 1566/1867 [39:31<07:35,  1.51s/it, v_num=cbeq, train/loss=2.390"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 1567/1867 [39:31<07:33,  1.51s/it, v_num=cbeq, train/loss=2.390\r",
+      "Epoch 0:  84%|▊| 1567/1867 [39:31<07:33,  1.51s/it, v_num=cbeq, train/loss=3.480"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 1568/1867 [39:36<07:33,  1.52s/it, v_num=cbeq, train/loss=3.480\r",
+      "Epoch 0:  84%|▊| 1568/1867 [39:36<07:33,  1.52s/it, v_num=cbeq, train/loss=3.120"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 1569/1867 [39:36<07:31,  1.51s/it, v_num=cbeq, train/loss=3.120\r",
+      "Epoch 0:  84%|▊| 1569/1867 [39:36<07:31,  1.51s/it, v_num=cbeq, train/loss=2.890"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 1570/1867 [39:36<07:29,  1.51s/it, v_num=cbeq, train/loss=2.890\r",
+      "Epoch 0:  84%|▊| 1570/1867 [39:36<07:29,  1.51s/it, v_num=cbeq, train/loss=3.020"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 1571/1867 [39:37<07:27,  1.51s/it, v_num=cbeq, train/loss=3.020\r",
+      "Epoch 0:  84%|▊| 1571/1867 [39:37<07:27,  1.51s/it, v_num=cbeq, train/loss=4.090"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 1572/1867 [39:42<07:27,  1.52s/it, v_num=cbeq, train/loss=4.090\r",
+      "Epoch 0:  84%|▊| 1572/1867 [39:42<07:27,  1.52s/it, v_num=cbeq, train/loss=3.890"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 1573/1867 [39:42<07:25,  1.51s/it, v_num=cbeq, train/loss=3.890\r",
+      "Epoch 0:  84%|▊| 1573/1867 [39:42<07:25,  1.51s/it, v_num=cbeq, train/loss=3.530"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 1574/1867 [39:42<07:23,  1.51s/it, v_num=cbeq, train/loss=3.530\r",
+      "Epoch 0:  84%|▊| 1574/1867 [39:42<07:23,  1.51s/it, v_num=cbeq, train/loss=2.160"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 1575/1867 [39:43<07:21,  1.51s/it, v_num=cbeq, train/loss=2.160\r",
+      "Epoch 0:  84%|▊| 1575/1867 [39:43<07:21,  1.51s/it, v_num=cbeq, train/loss=3.770"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 1576/1867 [39:48<07:21,  1.52s/it, v_num=cbeq, train/loss=3.770\r",
+      "Epoch 0:  84%|▊| 1576/1867 [39:48<07:21,  1.52s/it, v_num=cbeq, train/loss=3.690"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  84%|▊| 1577/1867 [39:48<07:19,  1.51s/it, v_num=cbeq, train/loss=3.690\r",
+      "Epoch 0:  84%|▊| 1577/1867 [39:48<07:19,  1.51s/it, v_num=cbeq, train/loss=3.340"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 1578/1867 [39:48<07:17,  1.51s/it, v_num=cbeq, train/loss=3.340\r",
+      "Epoch 0:  85%|▊| 1578/1867 [39:48<07:17,  1.51s/it, v_num=cbeq, train/loss=1.990"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 1579/1867 [39:48<07:15,  1.51s/it, v_num=cbeq, train/loss=1.990\r",
+      "Epoch 0:  85%|▊| 1579/1867 [39:48<07:15,  1.51s/it, v_num=cbeq, train/loss=3.390"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 1580/1867 [39:54<07:14,  1.52s/it, v_num=cbeq, train/loss=3.390\r",
+      "Epoch 0:  85%|▊| 1580/1867 [39:54<07:14,  1.52s/it, v_num=cbeq, train/loss=3.700"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 1581/1867 [39:54<07:13,  1.51s/it, v_num=cbeq, train/loss=3.700\r",
+      "Epoch 0:  85%|▊| 1581/1867 [39:54<07:13,  1.51s/it, v_num=cbeq, train/loss=3.480"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 1582/1867 [39:54<07:11,  1.51s/it, v_num=cbeq, train/loss=3.480\r",
+      "Epoch 0:  85%|▊| 1582/1867 [39:54<07:11,  1.51s/it, v_num=cbeq, train/loss=2.800"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 1583/1867 [39:54<07:09,  1.51s/it, v_num=cbeq, train/loss=2.800\r",
+      "Epoch 0:  85%|▊| 1583/1867 [39:54<07:09,  1.51s/it, v_num=cbeq, train/loss=1.100"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 1584/1867 [40:00<07:08,  1.52s/it, v_num=cbeq, train/loss=1.100\r",
+      "Epoch 0:  85%|▊| 1584/1867 [40:00<07:08,  1.52s/it, v_num=cbeq, train/loss=1.960"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 1585/1867 [40:00<07:07,  1.51s/it, v_num=cbeq, train/loss=1.960\r",
+      "Epoch 0:  85%|▊| 1585/1867 [40:00<07:07,  1.51s/it, v_num=cbeq, train/loss=3.970"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 1586/1867 [40:00<07:05,  1.51s/it, v_num=cbeq, train/loss=3.970\r",
+      "Epoch 0:  85%|▊| 1586/1867 [40:00<07:05,  1.51s/it, v_num=cbeq, train/loss=3.770"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 1587/1867 [40:00<07:03,  1.51s/it, v_num=cbeq, train/loss=3.770\r",
+      "Epoch 0:  85%|▊| 1587/1867 [40:00<07:03,  1.51s/it, v_num=cbeq, train/loss=1.260"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 1588/1867 [40:06<07:02,  1.52s/it, v_num=cbeq, train/loss=1.260\r",
+      "Epoch 0:  85%|▊| 1588/1867 [40:06<07:02,  1.52s/it, v_num=cbeq, train/loss=4.030"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 1589/1867 [40:06<07:01,  1.51s/it, v_num=cbeq, train/loss=4.030\r",
+      "Epoch 0:  85%|▊| 1589/1867 [40:06<07:01,  1.51s/it, v_num=cbeq, train/loss=2.250"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 1590/1867 [40:06<06:59,  1.51s/it, v_num=cbeq, train/loss=2.250\r",
+      "Epoch 0:  85%|▊| 1590/1867 [40:06<06:59,  1.51s/it, v_num=cbeq, train/loss=2.300"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 1591/1867 [40:06<06:57,  1.51s/it, v_num=cbeq, train/loss=2.300\r",
+      "Epoch 0:  85%|▊| 1591/1867 [40:06<06:57,  1.51s/it, v_num=cbeq, train/loss=3.520"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 1592/1867 [40:12<06:56,  1.52s/it, v_num=cbeq, train/loss=3.520\r",
+      "Epoch 0:  85%|▊| 1592/1867 [40:12<06:56,  1.52s/it, v_num=cbeq, train/loss=2.060"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 1593/1867 [40:12<06:54,  1.51s/it, v_num=cbeq, train/loss=2.060\r",
+      "Epoch 0:  85%|▊| 1593/1867 [40:12<06:54,  1.51s/it, v_num=cbeq, train/loss=3.110"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 1594/1867 [40:12<06:53,  1.51s/it, v_num=cbeq, train/loss=3.110\r",
+      "Epoch 0:  85%|▊| 1594/1867 [40:12<06:53,  1.51s/it, v_num=cbeq, train/loss=2.890"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 1595/1867 [40:12<06:51,  1.51s/it, v_num=cbeq, train/loss=2.890"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 1595/1867 [40:12<06:51,  1.51s/it, v_num=cbeq, train/loss=2.440"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  85%|▊| 1596/1867 [40:18<06:50,  1.52s/it, v_num=cbeq, train/loss=2.440\r",
+      "Epoch 0:  85%|▊| 1596/1867 [40:18<06:50,  1.52s/it, v_num=cbeq, train/loss=3.560"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 1597/1867 [40:18<06:48,  1.51s/it, v_num=cbeq, train/loss=3.560\r",
+      "Epoch 0:  86%|▊| 1597/1867 [40:18<06:48,  1.51s/it, v_num=cbeq, train/loss=3.090"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 1598/1867 [40:18<06:47,  1.51s/it, v_num=cbeq, train/loss=3.090\r",
+      "Epoch 0:  86%|▊| 1598/1867 [40:18<06:47,  1.51s/it, v_num=cbeq, train/loss=3.220"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 1599/1867 [40:18<06:45,  1.51s/it, v_num=cbeq, train/loss=3.220\r",
+      "Epoch 0:  86%|▊| 1599/1867 [40:18<06:45,  1.51s/it, v_num=cbeq, train/loss=3.020"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 1600/1867 [40:24<06:44,  1.52s/it, v_num=cbeq, train/loss=3.020\r",
+      "Epoch 0:  86%|▊| 1600/1867 [40:24<06:44,  1.52s/it, v_num=cbeq, train/loss=4.060"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 1601/1867 [40:24<06:42,  1.51s/it, v_num=cbeq, train/loss=4.060\r",
+      "Epoch 0:  86%|▊| 1601/1867 [40:24<06:42,  1.51s/it, v_num=cbeq, train/loss=2.090"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 1602/1867 [40:24<06:41,  1.51s/it, v_num=cbeq, train/loss=2.090\r",
+      "Epoch 0:  86%|▊| 1602/1867 [40:24<06:41,  1.51s/it, v_num=cbeq, train/loss=1.840"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 1603/1867 [40:24<06:39,  1.51s/it, v_num=cbeq, train/loss=1.840\r",
+      "Epoch 0:  86%|▊| 1603/1867 [40:24<06:39,  1.51s/it, v_num=cbeq, train/loss=3.800"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 1604/1867 [40:30<06:38,  1.52s/it, v_num=cbeq, train/loss=3.800\r",
+      "Epoch 0:  86%|▊| 1604/1867 [40:30<06:38,  1.52s/it, v_num=cbeq, train/loss=1.990"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 1605/1867 [40:30<06:36,  1.51s/it, v_num=cbeq, train/loss=1.990\r",
+      "Epoch 0:  86%|▊| 1605/1867 [40:30<06:36,  1.51s/it, v_num=cbeq, train/loss=2.000"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 1606/1867 [40:30<06:34,  1.51s/it, v_num=cbeq, train/loss=2.000\r",
+      "Epoch 0:  86%|▊| 1606/1867 [40:30<06:34,  1.51s/it, v_num=cbeq, train/loss=1.760"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 1607/1867 [40:30<06:33,  1.51s/it, v_num=cbeq, train/loss=1.760\r",
+      "Epoch 0:  86%|▊| 1607/1867 [40:30<06:33,  1.51s/it, v_num=cbeq, train/loss=3.890"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 1608/1867 [40:36<06:32,  1.51s/it, v_num=cbeq, train/loss=3.890\r",
+      "Epoch 0:  86%|▊| 1608/1867 [40:36<06:32,  1.51s/it, v_num=cbeq, train/loss=1.900"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 1609/1867 [40:36<06:30,  1.51s/it, v_num=cbeq, train/loss=1.900\r",
+      "Epoch 0:  86%|▊| 1609/1867 [40:36<06:30,  1.51s/it, v_num=cbeq, train/loss=1.910"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 1610/1867 [40:36<06:28,  1.51s/it, v_num=cbeq, train/loss=1.910\r",
+      "Epoch 0:  86%|▊| 1610/1867 [40:36<06:28,  1.51s/it, v_num=cbeq, train/loss=3.550"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 1611/1867 [40:36<06:27,  1.51s/it, v_num=cbeq, train/loss=3.550\r",
+      "Epoch 0:  86%|▊| 1611/1867 [40:36<06:27,  1.51s/it, v_num=cbeq, train/loss=3.470"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 1612/1867 [40:42<06:26,  1.51s/it, v_num=cbeq, train/loss=3.470\r",
+      "Epoch 0:  86%|▊| 1612/1867 [40:42<06:26,  1.51s/it, v_num=cbeq, train/loss=3.330"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 1613/1867 [40:42<06:24,  1.51s/it, v_num=cbeq, train/loss=3.330\r",
+      "Epoch 0:  86%|▊| 1613/1867 [40:42<06:24,  1.51s/it, v_num=cbeq, train/loss=2.000"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  86%|▊| 1614/1867 [40:42<06:22,  1.51s/it, v_num=cbeq, train/loss=2.000\r",
+      "Epoch 0:  86%|▊| 1614/1867 [40:42<06:22,  1.51s/it, v_num=cbeq, train/loss=3.110"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 1615/1867 [40:42<06:21,  1.51s/it, v_num=cbeq, train/loss=3.110\r",
+      "Epoch 0:  87%|▊| 1615/1867 [40:42<06:21,  1.51s/it, v_num=cbeq, train/loss=1.620"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 1616/1867 [40:47<06:20,  1.51s/it, v_num=cbeq, train/loss=1.620\r",
+      "Epoch 0:  87%|▊| 1616/1867 [40:47<06:20,  1.51s/it, v_num=cbeq, train/loss=3.970"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 1617/1867 [40:47<06:18,  1.51s/it, v_num=cbeq, train/loss=3.970\r",
+      "Epoch 0:  87%|▊| 1617/1867 [40:47<06:18,  1.51s/it, v_num=cbeq, train/loss=3.910"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 1618/1867 [40:48<06:16,  1.51s/it, v_num=cbeq, train/loss=3.910\r",
+      "Epoch 0:  87%|▊| 1618/1867 [40:48<06:16,  1.51s/it, v_num=cbeq, train/loss=2.980"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 1619/1867 [40:48<06:14,  1.51s/it, v_num=cbeq, train/loss=2.980\r",
+      "Epoch 0:  87%|▊| 1619/1867 [40:48<06:14,  1.51s/it, v_num=cbeq, train/loss=2.780"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 1620/1867 [40:53<06:14,  1.51s/it, v_num=cbeq, train/loss=2.780\r",
+      "Epoch 0:  87%|▊| 1620/1867 [40:53<06:14,  1.51s/it, v_num=cbeq, train/loss=1.580"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 1621/1867 [40:53<06:12,  1.51s/it, v_num=cbeq, train/loss=1.580\r",
+      "Epoch 0:  87%|▊| 1621/1867 [40:53<06:12,  1.51s/it, v_num=cbeq, train/loss=4.090"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 1622/1867 [40:53<06:10,  1.51s/it, v_num=cbeq, train/loss=4.090\r",
+      "Epoch 0:  87%|▊| 1622/1867 [40:53<06:10,  1.51s/it, v_num=cbeq, train/loss=4.750"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 1623/1867 [40:53<06:08,  1.51s/it, v_num=cbeq, train/loss=4.750\r",
+      "Epoch 0:  87%|▊| 1623/1867 [40:53<06:08,  1.51s/it, v_num=cbeq, train/loss=2.530"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 1624/1867 [40:59<06:08,  1.51s/it, v_num=cbeq, train/loss=2.530\r",
+      "Epoch 0:  87%|▊| 1624/1867 [40:59<06:08,  1.51s/it, v_num=cbeq, train/loss=2.940"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 1625/1867 [40:59<06:06,  1.51s/it, v_num=cbeq, train/loss=2.940\r",
+      "Epoch 0:  87%|▊| 1625/1867 [40:59<06:06,  1.51s/it, v_num=cbeq, train/loss=2.380"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 1626/1867 [40:59<06:04,  1.51s/it, v_num=cbeq, train/loss=2.380\r",
+      "Epoch 0:  87%|▊| 1626/1867 [40:59<06:04,  1.51s/it, v_num=cbeq, train/loss=2.250"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 1627/1867 [40:59<06:02,  1.51s/it, v_num=cbeq, train/loss=2.250\r",
+      "Epoch 0:  87%|▊| 1627/1867 [40:59<06:02,  1.51s/it, v_num=cbeq, train/loss=4.090"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 1628/1867 [41:06<06:02,  1.52s/it, v_num=cbeq, train/loss=4.090\r",
+      "Epoch 0:  87%|▊| 1628/1867 [41:06<06:02,  1.52s/it, v_num=cbeq, train/loss=2.690"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 1629/1867 [41:06<06:00,  1.51s/it, v_num=cbeq, train/loss=2.690\r",
+      "Epoch 0:  87%|▊| 1629/1867 [41:06<06:00,  1.51s/it, v_num=cbeq, train/loss=2.170"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 1630/1867 [41:06<05:58,  1.51s/it, v_num=cbeq, train/loss=2.170\r",
+      "Epoch 0:  87%|▊| 1630/1867 [41:06<05:58,  1.51s/it, v_num=cbeq, train/loss=4.120"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 1631/1867 [41:06<05:56,  1.51s/it, v_num=cbeq, train/loss=4.120\r",
+      "Epoch 0:  87%|▊| 1631/1867 [41:06<05:56,  1.51s/it, v_num=cbeq, train/loss=3.280"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 1632/1867 [41:12<05:56,  1.52s/it, v_num=cbeq, train/loss=3.280\r",
+      "Epoch 0:  87%|▊| 1632/1867 [41:12<05:56,  1.52s/it, v_num=cbeq, train/loss=4.780"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  87%|▊| 1633/1867 [41:12<05:54,  1.51s/it, v_num=cbeq, train/loss=4.780\r",
+      "Epoch 0:  87%|▊| 1633/1867 [41:12<05:54,  1.51s/it, v_num=cbeq, train/loss=2.000"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 1634/1867 [41:12<05:52,  1.51s/it, v_num=cbeq, train/loss=2.000\r",
+      "Epoch 0:  88%|▉| 1634/1867 [41:12<05:52,  1.51s/it, v_num=cbeq, train/loss=1.790"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 1635/1867 [41:12<05:50,  1.51s/it, v_num=cbeq, train/loss=1.790\r",
+      "Epoch 0:  88%|▉| 1635/1867 [41:12<05:50,  1.51s/it, v_num=cbeq, train/loss=4.120"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 1636/1867 [41:18<05:49,  1.51s/it, v_num=cbeq, train/loss=4.120\r",
+      "Epoch 0:  88%|▉| 1636/1867 [41:18<05:49,  1.51s/it, v_num=cbeq, train/loss=2.270"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 1637/1867 [41:18<05:48,  1.51s/it, v_num=cbeq, train/loss=2.270\r",
+      "Epoch 0:  88%|▉| 1637/1867 [41:18<05:48,  1.51s/it, v_num=cbeq, train/loss=4.690"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 1638/1867 [41:18<05:46,  1.51s/it, v_num=cbeq, train/loss=4.690\r",
+      "Epoch 0:  88%|▉| 1638/1867 [41:18<05:46,  1.51s/it, v_num=cbeq, train/loss=3.060"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 1639/1867 [41:18<05:44,  1.51s/it, v_num=cbeq, train/loss=3.060\r",
+      "Epoch 0:  88%|▉| 1639/1867 [41:18<05:44,  1.51s/it, v_num=cbeq, train/loss=2.640"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 1640/1867 [41:24<05:43,  1.51s/it, v_num=cbeq, train/loss=2.640\r",
+      "Epoch 0:  88%|▉| 1640/1867 [41:24<05:43,  1.51s/it, v_num=cbeq, train/loss=2.840"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 1641/1867 [41:24<05:42,  1.51s/it, v_num=cbeq, train/loss=2.840\r",
+      "Epoch 0:  88%|▉| 1641/1867 [41:24<05:42,  1.51s/it, v_num=cbeq, train/loss=2.840"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 1642/1867 [41:24<05:40,  1.51s/it, v_num=cbeq, train/loss=2.840\r",
+      "Epoch 0:  88%|▉| 1642/1867 [41:24<05:40,  1.51s/it, v_num=cbeq, train/loss=0.637"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 1643/1867 [41:24<05:38,  1.51s/it, v_num=cbeq, train/loss=0.637\r",
+      "Epoch 0:  88%|▉| 1643/1867 [41:24<05:38,  1.51s/it, v_num=cbeq, train/loss=3.950"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 1644/1867 [41:30<05:37,  1.51s/it, v_num=cbeq, train/loss=3.950\r",
+      "Epoch 0:  88%|▉| 1644/1867 [41:30<05:37,  1.51s/it, v_num=cbeq, train/loss=4.280"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 1645/1867 [41:30<05:36,  1.51s/it, v_num=cbeq, train/loss=4.280\r",
+      "Epoch 0:  88%|▉| 1645/1867 [41:30<05:36,  1.51s/it, v_num=cbeq, train/loss=3.950"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 1646/1867 [41:30<05:34,  1.51s/it, v_num=cbeq, train/loss=3.950\r",
+      "Epoch 0:  88%|▉| 1646/1867 [41:30<05:34,  1.51s/it, v_num=cbeq, train/loss=3.670"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 1647/1867 [41:30<05:32,  1.51s/it, v_num=cbeq, train/loss=3.670\r",
+      "Epoch 0:  88%|▉| 1647/1867 [41:30<05:32,  1.51s/it, v_num=cbeq, train/loss=2.560"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 1648/1867 [41:36<05:31,  1.51s/it, v_num=cbeq, train/loss=2.560\r",
+      "Epoch 0:  88%|▉| 1648/1867 [41:36<05:31,  1.51s/it, v_num=cbeq, train/loss=3.410"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 1649/1867 [41:36<05:30,  1.51s/it, v_num=cbeq, train/loss=3.410\r",
+      "Epoch 0:  88%|▉| 1649/1867 [41:36<05:30,  1.51s/it, v_num=cbeq, train/loss=1.750"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 1650/1867 [41:36<05:28,  1.51s/it, v_num=cbeq, train/loss=1.750\r",
+      "Epoch 0:  88%|▉| 1650/1867 [41:36<05:28,  1.51s/it, v_num=cbeq, train/loss=4.000"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 1651/1867 [41:36<05:26,  1.51s/it, v_num=cbeq, train/loss=4.000\r",
+      "Epoch 0:  88%|▉| 1651/1867 [41:36<05:26,  1.51s/it, v_num=cbeq, train/loss=3.310"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  88%|▉| 1652/1867 [41:42<05:25,  1.51s/it, v_num=cbeq, train/loss=3.310\r",
+      "Epoch 0:  88%|▉| 1652/1867 [41:42<05:25,  1.51s/it, v_num=cbeq, train/loss=3.050"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 1653/1867 [41:42<05:23,  1.51s/it, v_num=cbeq, train/loss=3.050\r",
+      "Epoch 0:  89%|▉| 1653/1867 [41:42<05:23,  1.51s/it, v_num=cbeq, train/loss=4.190"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 1654/1867 [41:42<05:22,  1.51s/it, v_num=cbeq, train/loss=4.190\r",
+      "Epoch 0:  89%|▉| 1654/1867 [41:42<05:22,  1.51s/it, v_num=cbeq, train/loss=4.470"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 1655/1867 [41:42<05:20,  1.51s/it, v_num=cbeq, train/loss=4.470\r",
+      "Epoch 0:  89%|▉| 1655/1867 [41:42<05:20,  1.51s/it, v_num=cbeq, train/loss=1.600"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 1656/1867 [41:48<05:19,  1.51s/it, v_num=cbeq, train/loss=1.600\r",
+      "Epoch 0:  89%|▉| 1656/1867 [41:48<05:19,  1.51s/it, v_num=cbeq, train/loss=1.360"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 1657/1867 [41:48<05:17,  1.51s/it, v_num=cbeq, train/loss=1.360\r",
+      "Epoch 0:  89%|▉| 1657/1867 [41:48<05:17,  1.51s/it, v_num=cbeq, train/loss=2.980"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 1658/1867 [41:48<05:16,  1.51s/it, v_num=cbeq, train/loss=2.980\r",
+      "Epoch 0:  89%|▉| 1658/1867 [41:48<05:16,  1.51s/it, v_num=cbeq, train/loss=2.270"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 1659/1867 [41:48<05:14,  1.51s/it, v_num=cbeq, train/loss=2.270\r",
+      "Epoch 0:  89%|▉| 1659/1867 [41:48<05:14,  1.51s/it, v_num=cbeq, train/loss=3.000"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 1660/1867 [41:54<05:13,  1.51s/it, v_num=cbeq, train/loss=3.000\r",
+      "Epoch 0:  89%|▉| 1660/1867 [41:54<05:13,  1.51s/it, v_num=cbeq, train/loss=4.690"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 1661/1867 [41:54<05:11,  1.51s/it, v_num=cbeq, train/loss=4.690\r",
+      "Epoch 0:  89%|▉| 1661/1867 [41:54<05:11,  1.51s/it, v_num=cbeq, train/loss=2.250"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 1662/1867 [41:54<05:10,  1.51s/it, v_num=cbeq, train/loss=2.250\r",
+      "Epoch 0:  89%|▉| 1662/1867 [41:54<05:10,  1.51s/it, v_num=cbeq, train/loss=2.940"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 1663/1867 [41:54<05:08,  1.51s/it, v_num=cbeq, train/loss=2.940\r",
+      "Epoch 0:  89%|▉| 1663/1867 [41:54<05:08,  1.51s/it, v_num=cbeq, train/loss=2.420"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 1664/1867 [41:59<05:07,  1.51s/it, v_num=cbeq, train/loss=2.420\r",
+      "Epoch 0:  89%|▉| 1664/1867 [41:59<05:07,  1.51s/it, v_num=cbeq, train/loss=2.980"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 1665/1867 [42:00<05:05,  1.51s/it, v_num=cbeq, train/loss=2.980\r",
+      "Epoch 0:  89%|▉| 1665/1867 [42:00<05:05,  1.51s/it, v_num=cbeq, train/loss=3.920"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 1666/1867 [42:00<05:04,  1.51s/it, v_num=cbeq, train/loss=3.920\r",
+      "Epoch 0:  89%|▉| 1666/1867 [42:00<05:04,  1.51s/it, v_num=cbeq, train/loss=1.950"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 1667/1867 [42:00<05:02,  1.51s/it, v_num=cbeq, train/loss=1.950\r",
+      "Epoch 0:  89%|▉| 1667/1867 [42:00<05:02,  1.51s/it, v_num=cbeq, train/loss=2.840"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 1668/1867 [42:05<05:01,  1.51s/it, v_num=cbeq, train/loss=2.840\r",
+      "Epoch 0:  89%|▉| 1668/1867 [42:05<05:01,  1.51s/it, v_num=cbeq, train/loss=2.170"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 1669/1867 [42:05<04:59,  1.51s/it, v_num=cbeq, train/loss=2.170\r",
+      "Epoch 0:  89%|▉| 1669/1867 [42:05<04:59,  1.51s/it, v_num=cbeq, train/loss=1.900"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  89%|▉| 1670/1867 [42:05<04:57,  1.51s/it, v_num=cbeq, train/loss=1.900\r",
+      "Epoch 0:  89%|▉| 1670/1867 [42:05<04:57,  1.51s/it, v_num=cbeq, train/loss=1.460"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 1671/1867 [42:06<04:56,  1.51s/it, v_num=cbeq, train/loss=1.460\r",
+      "Epoch 0:  90%|▉| 1671/1867 [42:06<04:56,  1.51s/it, v_num=cbeq, train/loss=2.950"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 1672/1867 [42:11<04:55,  1.51s/it, v_num=cbeq, train/loss=2.950\r",
+      "Epoch 0:  90%|▉| 1672/1867 [42:11<04:55,  1.51s/it, v_num=cbeq, train/loss=4.220"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 1673/1867 [42:11<04:53,  1.51s/it, v_num=cbeq, train/loss=4.220\r",
+      "Epoch 0:  90%|▉| 1673/1867 [42:11<04:53,  1.51s/it, v_num=cbeq, train/loss=4.030"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 1674/1867 [42:11<04:51,  1.51s/it, v_num=cbeq, train/loss=4.030\r",
+      "Epoch 0:  90%|▉| 1674/1867 [42:11<04:51,  1.51s/it, v_num=cbeq, train/loss=3.080"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 1675/1867 [42:11<04:50,  1.51s/it, v_num=cbeq, train/loss=3.080\r",
+      "Epoch 0:  90%|▉| 1675/1867 [42:11<04:50,  1.51s/it, v_num=cbeq, train/loss=3.220"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 1676/1867 [42:18<04:49,  1.51s/it, v_num=cbeq, train/loss=3.220\r",
+      "Epoch 0:  90%|▉| 1676/1867 [42:18<04:49,  1.51s/it, v_num=cbeq, train/loss=2.620"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 1677/1867 [42:18<04:47,  1.51s/it, v_num=cbeq, train/loss=2.620\r",
+      "Epoch 0:  90%|▉| 1677/1867 [42:18<04:47,  1.51s/it, v_num=cbeq, train/loss=2.340"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 1678/1867 [42:18<04:45,  1.51s/it, v_num=cbeq, train/loss=2.340\r",
+      "Epoch 0:  90%|▉| 1678/1867 [42:18<04:45,  1.51s/it, v_num=cbeq, train/loss=4.280"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 1679/1867 [42:18<04:44,  1.51s/it, v_num=cbeq, train/loss=4.280\r",
+      "Epoch 0:  90%|▉| 1679/1867 [42:18<04:44,  1.51s/it, v_num=cbeq, train/loss=3.060"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 1680/1867 [42:24<04:43,  1.51s/it, v_num=cbeq, train/loss=3.060\r",
+      "Epoch 0:  90%|▉| 1680/1867 [42:24<04:43,  1.51s/it, v_num=cbeq, train/loss=3.050"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 1681/1867 [42:24<04:41,  1.51s/it, v_num=cbeq, train/loss=3.050\r",
+      "Epoch 0:  90%|▉| 1681/1867 [42:24<04:41,  1.51s/it, v_num=cbeq, train/loss=3.620"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 1682/1867 [42:24<04:39,  1.51s/it, v_num=cbeq, train/loss=3.620\r",
+      "Epoch 0:  90%|▉| 1682/1867 [42:24<04:39,  1.51s/it, v_num=cbeq, train/loss=3.220"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 1683/1867 [42:24<04:38,  1.51s/it, v_num=cbeq, train/loss=3.220\r",
+      "Epoch 0:  90%|▉| 1683/1867 [42:24<04:38,  1.51s/it, v_num=cbeq, train/loss=2.500"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 1684/1867 [42:30<04:37,  1.51s/it, v_num=cbeq, train/loss=2.500\r",
+      "Epoch 0:  90%|▉| 1684/1867 [42:30<04:37,  1.51s/it, v_num=cbeq, train/loss=2.090"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 1685/1867 [42:30<04:35,  1.51s/it, v_num=cbeq, train/loss=2.090\r",
+      "Epoch 0:  90%|▉| 1685/1867 [42:30<04:35,  1.51s/it, v_num=cbeq, train/loss=3.440"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 1686/1867 [42:30<04:33,  1.51s/it, v_num=cbeq, train/loss=3.440\r",
+      "Epoch 0:  90%|▉| 1686/1867 [42:30<04:33,  1.51s/it, v_num=cbeq, train/loss=2.970"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 1687/1867 [42:30<04:32,  1.51s/it, v_num=cbeq, train/loss=2.970\r",
+      "Epoch 0:  90%|▉| 1687/1867 [42:30<04:32,  1.51s/it, v_num=cbeq, train/loss=4.000"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 1688/1867 [42:36<04:31,  1.51s/it, v_num=cbeq, train/loss=4.000\r",
+      "Epoch 0:  90%|▉| 1688/1867 [42:36<04:31,  1.51s/it, v_num=cbeq, train/loss=4.380"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  90%|▉| 1689/1867 [42:36<04:29,  1.51s/it, v_num=cbeq, train/loss=4.380\r",
+      "Epoch 0:  90%|▉| 1689/1867 [42:36<04:29,  1.51s/it, v_num=cbeq, train/loss=3.920"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 1690/1867 [42:36<04:27,  1.51s/it, v_num=cbeq, train/loss=3.920\r",
+      "Epoch 0:  91%|▉| 1690/1867 [42:36<04:27,  1.51s/it, v_num=cbeq, train/loss=4.250"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 1691/1867 [42:36<04:26,  1.51s/it, v_num=cbeq, train/loss=4.250\r",
+      "Epoch 0:  91%|▉| 1691/1867 [42:36<04:26,  1.51s/it, v_num=cbeq, train/loss=3.720"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 1692/1867 [42:42<04:25,  1.51s/it, v_num=cbeq, train/loss=3.720\r",
+      "Epoch 0:  91%|▉| 1692/1867 [42:42<04:25,  1.51s/it, v_num=cbeq, train/loss=3.000"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 1693/1867 [42:42<04:23,  1.51s/it, v_num=cbeq, train/loss=3.000\r",
+      "Epoch 0:  91%|▉| 1693/1867 [42:42<04:23,  1.51s/it, v_num=cbeq, train/loss=2.670"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 1694/1867 [42:42<04:21,  1.51s/it, v_num=cbeq, train/loss=2.670\r",
+      "Epoch 0:  91%|▉| 1694/1867 [42:42<04:21,  1.51s/it, v_num=cbeq, train/loss=1.050"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 1695/1867 [42:42<04:20,  1.51s/it, v_num=cbeq, train/loss=1.050\r",
+      "Epoch 0:  91%|▉| 1695/1867 [42:42<04:20,  1.51s/it, v_num=cbeq, train/loss=1.340"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 1696/1867 [42:47<04:18,  1.51s/it, v_num=cbeq, train/loss=1.340\r",
+      "Epoch 0:  91%|▉| 1696/1867 [42:47<04:18,  1.51s/it, v_num=cbeq, train/loss=4.310"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 1697/1867 [42:48<04:17,  1.51s/it, v_num=cbeq, train/loss=4.310\r",
+      "Epoch 0:  91%|▉| 1697/1867 [42:48<04:17,  1.51s/it, v_num=cbeq, train/loss=4.780"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 1698/1867 [42:48<04:15,  1.51s/it, v_num=cbeq, train/loss=4.780\r",
+      "Epoch 0:  91%|▉| 1698/1867 [42:48<04:15,  1.51s/it, v_num=cbeq, train/loss=3.560"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 1699/1867 [42:48<04:13,  1.51s/it, v_num=cbeq, train/loss=3.560\r",
+      "Epoch 0:  91%|▉| 1699/1867 [42:48<04:13,  1.51s/it, v_num=cbeq, train/loss=3.590"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 1700/1867 [42:53<04:12,  1.51s/it, v_num=cbeq, train/loss=3.590\r",
+      "Epoch 0:  91%|▉| 1700/1867 [42:53<04:12,  1.51s/it, v_num=cbeq, train/loss=2.750"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 1701/1867 [42:53<04:11,  1.51s/it, v_num=cbeq, train/loss=2.750\r",
+      "Epoch 0:  91%|▉| 1701/1867 [42:53<04:11,  1.51s/it, v_num=cbeq, train/loss=3.640"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 1702/1867 [42:53<04:09,  1.51s/it, v_num=cbeq, train/loss=3.640\r",
+      "Epoch 0:  91%|▉| 1702/1867 [42:53<04:09,  1.51s/it, v_num=cbeq, train/loss=2.890"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 1703/1867 [42:53<04:07,  1.51s/it, v_num=cbeq, train/loss=2.890\r",
+      "Epoch 0:  91%|▉| 1703/1867 [42:53<04:07,  1.51s/it, v_num=cbeq, train/loss=1.450"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 1704/1867 [42:59<04:06,  1.51s/it, v_num=cbeq, train/loss=1.450\r",
+      "Epoch 0:  91%|▉| 1704/1867 [42:59<04:06,  1.51s/it, v_num=cbeq, train/loss=4.310"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 1705/1867 [42:59<04:05,  1.51s/it, v_num=cbeq, train/loss=4.310\r",
+      "Epoch 0:  91%|▉| 1705/1867 [42:59<04:05,  1.51s/it, v_num=cbeq, train/loss=3.310"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 1706/1867 [42:59<04:03,  1.51s/it, v_num=cbeq, train/loss=3.310\r",
+      "Epoch 0:  91%|▉| 1706/1867 [42:59<04:03,  1.51s/it, v_num=cbeq, train/loss=4.470"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 1707/1867 [42:59<04:01,  1.51s/it, v_num=cbeq, train/loss=4.470\r",
+      "Epoch 0:  91%|▉| 1707/1867 [42:59<04:01,  1.51s/it, v_num=cbeq, train/loss=3.050"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  91%|▉| 1708/1867 [43:05<04:00,  1.51s/it, v_num=cbeq, train/loss=3.050\r",
+      "Epoch 0:  91%|▉| 1708/1867 [43:05<04:00,  1.51s/it, v_num=cbeq, train/loss=5.060"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 1709/1867 [43:05<03:59,  1.51s/it, v_num=cbeq, train/loss=5.060\r",
+      "Epoch 0:  92%|▉| 1709/1867 [43:05<03:59,  1.51s/it, v_num=cbeq, train/loss=2.910"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 1710/1867 [43:05<03:57,  1.51s/it, v_num=cbeq, train/loss=2.910\r",
+      "Epoch 0:  92%|▉| 1710/1867 [43:05<03:57,  1.51s/it, v_num=cbeq, train/loss=3.860"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 1711/1867 [43:05<03:55,  1.51s/it, v_num=cbeq, train/loss=3.860\r",
+      "Epoch 0:  92%|▉| 1711/1867 [43:05<03:55,  1.51s/it, v_num=cbeq, train/loss=3.530"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 1712/1867 [43:11<03:54,  1.51s/it, v_num=cbeq, train/loss=3.530\r",
+      "Epoch 0:  92%|▉| 1712/1867 [43:11<03:54,  1.51s/it, v_num=cbeq, train/loss=3.520"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 1713/1867 [43:11<03:52,  1.51s/it, v_num=cbeq, train/loss=3.520\r",
+      "Epoch 0:  92%|▉| 1713/1867 [43:11<03:52,  1.51s/it, v_num=cbeq, train/loss=3.000"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 1714/1867 [43:11<03:51,  1.51s/it, v_num=cbeq, train/loss=3.000\r",
+      "Epoch 0:  92%|▉| 1714/1867 [43:11<03:51,  1.51s/it, v_num=cbeq, train/loss=3.310"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 1715/1867 [43:11<03:49,  1.51s/it, v_num=cbeq, train/loss=3.310\r",
+      "Epoch 0:  92%|▉| 1715/1867 [43:11<03:49,  1.51s/it, v_num=cbeq, train/loss=3.250"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 1716/1867 [43:17<03:48,  1.51s/it, v_num=cbeq, train/loss=3.250\r",
+      "Epoch 0:  92%|▉| 1716/1867 [43:17<03:48,  1.51s/it, v_num=cbeq, train/loss=3.050"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 1717/1867 [43:17<03:46,  1.51s/it, v_num=cbeq, train/loss=3.050\r",
+      "Epoch 0:  92%|▉| 1717/1867 [43:17<03:46,  1.51s/it, v_num=cbeq, train/loss=2.830"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 1718/1867 [43:17<03:45,  1.51s/it, v_num=cbeq, train/loss=2.830\r",
+      "Epoch 0:  92%|▉| 1718/1867 [43:17<03:45,  1.51s/it, v_num=cbeq, train/loss=4.000"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 1719/1867 [43:17<03:43,  1.51s/it, v_num=cbeq, train/loss=4.000\r",
+      "Epoch 0:  92%|▉| 1719/1867 [43:17<03:43,  1.51s/it, v_num=cbeq, train/loss=3.750"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 1720/1867 [43:23<03:42,  1.51s/it, v_num=cbeq, train/loss=3.750\r",
+      "Epoch 0:  92%|▉| 1720/1867 [43:23<03:42,  1.51s/it, v_num=cbeq, train/loss=3.560"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 1721/1867 [43:23<03:40,  1.51s/it, v_num=cbeq, train/loss=3.560\r",
+      "Epoch 0:  92%|▉| 1721/1867 [43:23<03:40,  1.51s/it, v_num=cbeq, train/loss=1.480"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 1722/1867 [43:23<03:39,  1.51s/it, v_num=cbeq, train/loss=1.480\r",
+      "Epoch 0:  92%|▉| 1722/1867 [43:23<03:39,  1.51s/it, v_num=cbeq, train/loss=2.330"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 1723/1867 [43:23<03:37,  1.51s/it, v_num=cbeq, train/loss=2.330\r",
+      "Epoch 0:  92%|▉| 1723/1867 [43:23<03:37,  1.51s/it, v_num=cbeq, train/loss=3.020"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 1724/1867 [43:29<03:36,  1.51s/it, v_num=cbeq, train/loss=3.020\r",
+      "Epoch 0:  92%|▉| 1724/1867 [43:29<03:36,  1.51s/it, v_num=cbeq, train/loss=3.440"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 1725/1867 [43:29<03:34,  1.51s/it, v_num=cbeq, train/loss=3.440"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 1725/1867 [43:29<03:34,  1.51s/it, v_num=cbeq, train/loss=3.440"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  92%|▉| 1726/1867 [43:29<03:33,  1.51s/it, v_num=cbeq, train/loss=3.440\r",
+      "Epoch 0:  92%|▉| 1726/1867 [43:29<03:33,  1.51s/it, v_num=cbeq, train/loss=3.080"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 1727/1867 [43:29<03:31,  1.51s/it, v_num=cbeq, train/loss=3.080\r",
+      "Epoch 0:  93%|▉| 1727/1867 [43:29<03:31,  1.51s/it, v_num=cbeq, train/loss=2.560"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 1728/1867 [43:34<03:30,  1.51s/it, v_num=cbeq, train/loss=2.560\r",
+      "Epoch 0:  93%|▉| 1728/1867 [43:34<03:30,  1.51s/it, v_num=cbeq, train/loss=3.880"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 1729/1867 [43:35<03:28,  1.51s/it, v_num=cbeq, train/loss=3.880\r",
+      "Epoch 0:  93%|▉| 1729/1867 [43:35<03:28,  1.51s/it, v_num=cbeq, train/loss=2.390"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 1730/1867 [43:35<03:27,  1.51s/it, v_num=cbeq, train/loss=2.390\r",
+      "Epoch 0:  93%|▉| 1730/1867 [43:35<03:27,  1.51s/it, v_num=cbeq, train/loss=3.080"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 1731/1867 [43:35<03:25,  1.51s/it, v_num=cbeq, train/loss=3.080\r",
+      "Epoch 0:  93%|▉| 1731/1867 [43:35<03:25,  1.51s/it, v_num=cbeq, train/loss=3.780"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 1732/1867 [43:40<03:24,  1.51s/it, v_num=cbeq, train/loss=3.780\r",
+      "Epoch 0:  93%|▉| 1732/1867 [43:40<03:24,  1.51s/it, v_num=cbeq, train/loss=3.220"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 1733/1867 [43:40<03:22,  1.51s/it, v_num=cbeq, train/loss=3.220\r",
+      "Epoch 0:  93%|▉| 1733/1867 [43:40<03:22,  1.51s/it, v_num=cbeq, train/loss=2.330"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 1734/1867 [43:40<03:21,  1.51s/it, v_num=cbeq, train/loss=2.330\r",
+      "Epoch 0:  93%|▉| 1734/1867 [43:40<03:21,  1.51s/it, v_num=cbeq, train/loss=2.160"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 1735/1867 [43:40<03:19,  1.51s/it, v_num=cbeq, train/loss=2.160\r",
+      "Epoch 0:  93%|▉| 1735/1867 [43:40<03:19,  1.51s/it, v_num=cbeq, train/loss=4.120"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 1736/1867 [43:46<03:18,  1.51s/it, v_num=cbeq, train/loss=4.120\r",
+      "Epoch 0:  93%|▉| 1736/1867 [43:46<03:18,  1.51s/it, v_num=cbeq, train/loss=5.120"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 1737/1867 [43:47<03:16,  1.51s/it, v_num=cbeq, train/loss=5.120\r",
+      "Epoch 0:  93%|▉| 1737/1867 [43:47<03:16,  1.51s/it, v_num=cbeq, train/loss=4.560"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 1738/1867 [43:47<03:14,  1.51s/it, v_num=cbeq, train/loss=4.560\r",
+      "Epoch 0:  93%|▉| 1738/1867 [43:47<03:14,  1.51s/it, v_num=cbeq, train/loss=4.160"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 1739/1867 [43:47<03:13,  1.51s/it, v_num=cbeq, train/loss=4.160\r",
+      "Epoch 0:  93%|▉| 1739/1867 [43:47<03:13,  1.51s/it, v_num=cbeq, train/loss=3.050"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 1740/1867 [43:53<03:12,  1.51s/it, v_num=cbeq, train/loss=3.050\r",
+      "Epoch 0:  93%|▉| 1740/1867 [43:53<03:12,  1.51s/it, v_num=cbeq, train/loss=3.200"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 1741/1867 [43:53<03:10,  1.51s/it, v_num=cbeq, train/loss=3.200\r",
+      "Epoch 0:  93%|▉| 1741/1867 [43:53<03:10,  1.51s/it, v_num=cbeq, train/loss=2.690"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 1742/1867 [43:53<03:08,  1.51s/it, v_num=cbeq, train/loss=2.690\r",
+      "Epoch 0:  93%|▉| 1742/1867 [43:53<03:08,  1.51s/it, v_num=cbeq, train/loss=3.340"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 1743/1867 [43:53<03:07,  1.51s/it, v_num=cbeq, train/loss=3.340\r",
+      "Epoch 0:  93%|▉| 1743/1867 [43:53<03:07,  1.51s/it, v_num=cbeq, train/loss=3.090"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 1744/1867 [43:58<03:06,  1.51s/it, v_num=cbeq, train/loss=3.090\r",
+      "Epoch 0:  93%|▉| 1744/1867 [43:58<03:06,  1.51s/it, v_num=cbeq, train/loss=3.120"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  93%|▉| 1745/1867 [43:58<03:04,  1.51s/it, v_num=cbeq, train/loss=3.120\r",
+      "Epoch 0:  93%|▉| 1745/1867 [43:58<03:04,  1.51s/it, v_num=cbeq, train/loss=2.950"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 1746/1867 [43:59<03:02,  1.51s/it, v_num=cbeq, train/loss=2.950\r",
+      "Epoch 0:  94%|▉| 1746/1867 [43:59<03:02,  1.51s/it, v_num=cbeq, train/loss=2.360"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 1747/1867 [43:59<03:01,  1.51s/it, v_num=cbeq, train/loss=2.360\r",
+      "Epoch 0:  94%|▉| 1747/1867 [43:59<03:01,  1.51s/it, v_num=cbeq, train/loss=3.480"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 1748/1867 [44:04<03:00,  1.51s/it, v_num=cbeq, train/loss=3.480\r",
+      "Epoch 0:  94%|▉| 1748/1867 [44:04<03:00,  1.51s/it, v_num=cbeq, train/loss=3.420"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 1749/1867 [44:04<02:58,  1.51s/it, v_num=cbeq, train/loss=3.420\r",
+      "Epoch 0:  94%|▉| 1749/1867 [44:04<02:58,  1.51s/it, v_num=cbeq, train/loss=3.610"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 1750/1867 [44:04<02:56,  1.51s/it, v_num=cbeq, train/loss=3.610\r",
+      "Epoch 0:  94%|▉| 1750/1867 [44:04<02:56,  1.51s/it, v_num=cbeq, train/loss=2.480"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 1751/1867 [44:04<02:55,  1.51s/it, v_num=cbeq, train/loss=2.480\r",
+      "Epoch 0:  94%|▉| 1751/1867 [44:04<02:55,  1.51s/it, v_num=cbeq, train/loss=3.470"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 1752/1867 [44:10<02:53,  1.51s/it, v_num=cbeq, train/loss=3.470\r",
+      "Epoch 0:  94%|▉| 1752/1867 [44:10<02:53,  1.51s/it, v_num=cbeq, train/loss=1.300"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 1753/1867 [44:10<02:52,  1.51s/it, v_num=cbeq, train/loss=1.300\r",
+      "Epoch 0:  94%|▉| 1753/1867 [44:10<02:52,  1.51s/it, v_num=cbeq, train/loss=3.060"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 1754/1867 [44:10<02:50,  1.51s/it, v_num=cbeq, train/loss=3.060\r",
+      "Epoch 0:  94%|▉| 1754/1867 [44:10<02:50,  1.51s/it, v_num=cbeq, train/loss=1.340"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 1755/1867 [44:10<02:49,  1.51s/it, v_num=cbeq, train/loss=1.340\r",
+      "Epoch 0:  94%|▉| 1755/1867 [44:10<02:49,  1.51s/it, v_num=cbeq, train/loss=3.530"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 1756/1867 [44:16<02:47,  1.51s/it, v_num=cbeq, train/loss=3.530\r",
+      "Epoch 0:  94%|▉| 1756/1867 [44:16<02:47,  1.51s/it, v_num=cbeq, train/loss=2.200"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 1757/1867 [44:16<02:46,  1.51s/it, v_num=cbeq, train/loss=2.200\r",
+      "Epoch 0:  94%|▉| 1757/1867 [44:16<02:46,  1.51s/it, v_num=cbeq, train/loss=3.440"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 1758/1867 [44:16<02:44,  1.51s/it, v_num=cbeq, train/loss=3.440\r",
+      "Epoch 0:  94%|▉| 1758/1867 [44:16<02:44,  1.51s/it, v_num=cbeq, train/loss=4.310"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 1759/1867 [44:16<02:43,  1.51s/it, v_num=cbeq, train/loss=4.310\r",
+      "Epoch 0:  94%|▉| 1759/1867 [44:16<02:43,  1.51s/it, v_num=cbeq, train/loss=3.880"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 1760/1867 [44:22<02:41,  1.51s/it, v_num=cbeq, train/loss=3.880\r",
+      "Epoch 0:  94%|▉| 1760/1867 [44:22<02:41,  1.51s/it, v_num=cbeq, train/loss=1.880"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 1761/1867 [44:22<02:40,  1.51s/it, v_num=cbeq, train/loss=1.880\r",
+      "Epoch 0:  94%|▉| 1761/1867 [44:22<02:40,  1.51s/it, v_num=cbeq, train/loss=2.120"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 1762/1867 [44:22<02:38,  1.51s/it, v_num=cbeq, train/loss=2.120\r",
+      "Epoch 0:  94%|▉| 1762/1867 [44:22<02:38,  1.51s/it, v_num=cbeq, train/loss=1.840"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 1763/1867 [44:22<02:37,  1.51s/it, v_num=cbeq, train/loss=1.840\r",
+      "Epoch 0:  94%|▉| 1763/1867 [44:22<02:37,  1.51s/it, v_num=cbeq, train/loss=3.080"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  94%|▉| 1764/1867 [44:28<02:35,  1.51s/it, v_num=cbeq, train/loss=3.080\r",
+      "Epoch 0:  94%|▉| 1764/1867 [44:28<02:35,  1.51s/it, v_num=cbeq, train/loss=3.420"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 1765/1867 [44:28<02:34,  1.51s/it, v_num=cbeq, train/loss=3.420\r",
+      "Epoch 0:  95%|▉| 1765/1867 [44:28<02:34,  1.51s/it, v_num=cbeq, train/loss=2.980"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 1766/1867 [44:28<02:32,  1.51s/it, v_num=cbeq, train/loss=2.980\r",
+      "Epoch 0:  95%|▉| 1766/1867 [44:28<02:32,  1.51s/it, v_num=cbeq, train/loss=2.750"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 1767/1867 [44:28<02:31,  1.51s/it, v_num=cbeq, train/loss=2.750\r",
+      "Epoch 0:  95%|▉| 1767/1867 [44:28<02:31,  1.51s/it, v_num=cbeq, train/loss=3.160"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 1768/1867 [44:34<02:29,  1.51s/it, v_num=cbeq, train/loss=3.160\r",
+      "Epoch 0:  95%|▉| 1768/1867 [44:34<02:29,  1.51s/it, v_num=cbeq, train/loss=2.840"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 1769/1867 [44:34<02:28,  1.51s/it, v_num=cbeq, train/loss=2.840\r",
+      "Epoch 0:  95%|▉| 1769/1867 [44:34<02:28,  1.51s/it, v_num=cbeq, train/loss=2.770"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 1770/1867 [44:34<02:26,  1.51s/it, v_num=cbeq, train/loss=2.770\r",
+      "Epoch 0:  95%|▉| 1770/1867 [44:34<02:26,  1.51s/it, v_num=cbeq, train/loss=3.530"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 1771/1867 [44:34<02:24,  1.51s/it, v_num=cbeq, train/loss=3.530\r",
+      "Epoch 0:  95%|▉| 1771/1867 [44:34<02:24,  1.51s/it, v_num=cbeq, train/loss=1.610"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 1772/1867 [44:40<02:23,  1.51s/it, v_num=cbeq, train/loss=1.610\r",
+      "Epoch 0:  95%|▉| 1772/1867 [44:40<02:23,  1.51s/it, v_num=cbeq, train/loss=2.730"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 1773/1867 [44:40<02:22,  1.51s/it, v_num=cbeq, train/loss=2.730\r",
+      "Epoch 0:  95%|▉| 1773/1867 [44:40<02:22,  1.51s/it, v_num=cbeq, train/loss=3.660"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 1774/1867 [44:40<02:20,  1.51s/it, v_num=cbeq, train/loss=3.660\r",
+      "Epoch 0:  95%|▉| 1774/1867 [44:40<02:20,  1.51s/it, v_num=cbeq, train/loss=2.690"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 1775/1867 [44:40<02:18,  1.51s/it, v_num=cbeq, train/loss=2.690\r",
+      "Epoch 0:  95%|▉| 1775/1867 [44:40<02:18,  1.51s/it, v_num=cbeq, train/loss=3.840"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 1776/1867 [44:46<02:17,  1.51s/it, v_num=cbeq, train/loss=3.840\r",
+      "Epoch 0:  95%|▉| 1776/1867 [44:46<02:17,  1.51s/it, v_num=cbeq, train/loss=3.140"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 1777/1867 [44:46<02:16,  1.51s/it, v_num=cbeq, train/loss=3.140\r",
+      "Epoch 0:  95%|▉| 1777/1867 [44:46<02:16,  1.51s/it, v_num=cbeq, train/loss=2.090"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 1778/1867 [44:46<02:14,  1.51s/it, v_num=cbeq, train/loss=2.090\r",
+      "Epoch 0:  95%|▉| 1778/1867 [44:46<02:14,  1.51s/it, v_num=cbeq, train/loss=2.890"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 1779/1867 [44:46<02:12,  1.51s/it, v_num=cbeq, train/loss=2.890\r",
+      "Epoch 0:  95%|▉| 1779/1867 [44:46<02:12,  1.51s/it, v_num=cbeq, train/loss=2.060"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 1780/1867 [44:52<02:11,  1.51s/it, v_num=cbeq, train/loss=2.060\r",
+      "Epoch 0:  95%|▉| 1780/1867 [44:52<02:11,  1.51s/it, v_num=cbeq, train/loss=3.300"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 1781/1867 [44:52<02:10,  1.51s/it, v_num=cbeq, train/loss=3.300\r",
+      "Epoch 0:  95%|▉| 1781/1867 [44:52<02:10,  1.51s/it, v_num=cbeq, train/loss=3.830"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  95%|▉| 1782/1867 [44:52<02:08,  1.51s/it, v_num=cbeq, train/loss=3.830\r",
+      "Epoch 0:  95%|▉| 1782/1867 [44:52<02:08,  1.51s/it, v_num=cbeq, train/loss=4.470"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 1783/1867 [44:52<02:06,  1.51s/it, v_num=cbeq, train/loss=4.470\r",
+      "Epoch 0:  96%|▉| 1783/1867 [44:52<02:06,  1.51s/it, v_num=cbeq, train/loss=2.750"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 1784/1867 [44:58<02:05,  1.51s/it, v_num=cbeq, train/loss=2.750\r",
+      "Epoch 0:  96%|▉| 1784/1867 [44:58<02:05,  1.51s/it, v_num=cbeq, train/loss=3.020"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 1785/1867 [44:58<02:03,  1.51s/it, v_num=cbeq, train/loss=3.020\r",
+      "Epoch 0:  96%|▉| 1785/1867 [44:58<02:03,  1.51s/it, v_num=cbeq, train/loss=2.550"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 1786/1867 [44:58<02:02,  1.51s/it, v_num=cbeq, train/loss=2.550\r",
+      "Epoch 0:  96%|▉| 1786/1867 [44:58<02:02,  1.51s/it, v_num=cbeq, train/loss=3.800"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 1787/1867 [44:58<02:00,  1.51s/it, v_num=cbeq, train/loss=3.800\r",
+      "Epoch 0:  96%|▉| 1787/1867 [44:58<02:00,  1.51s/it, v_num=cbeq, train/loss=4.620"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 1788/1867 [45:03<01:59,  1.51s/it, v_num=cbeq, train/loss=4.620\r",
+      "Epoch 0:  96%|▉| 1788/1867 [45:03<01:59,  1.51s/it, v_num=cbeq, train/loss=3.660"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|��| 1789/1867 [45:03<01:57,  1.51s/it, v_num=cbeq, train/loss=3.660\r",
+      "Epoch 0:  96%|▉| 1789/1867 [45:03<01:57,  1.51s/it, v_num=cbeq, train/loss=3.120"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 1790/1867 [45:03<01:56,  1.51s/it, v_num=cbeq, train/loss=3.120\r",
+      "Epoch 0:  96%|▉| 1790/1867 [45:03<01:56,  1.51s/it, v_num=cbeq, train/loss=4.530"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 1791/1867 [45:03<01:54,  1.51s/it, v_num=cbeq, train/loss=4.530\r",
+      "Epoch 0:  96%|▉| 1791/1867 [45:03<01:54,  1.51s/it, v_num=cbeq, train/loss=3.420"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 1792/1867 [45:09<01:53,  1.51s/it, v_num=cbeq, train/loss=3.420\r",
+      "Epoch 0:  96%|▉| 1792/1867 [45:09<01:53,  1.51s/it, v_num=cbeq, train/loss=3.050"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 1793/1867 [45:09<01:51,  1.51s/it, v_num=cbeq, train/loss=3.050\r",
+      "Epoch 0:  96%|▉| 1793/1867 [45:09<01:51,  1.51s/it, v_num=cbeq, train/loss=1.400"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 1794/1867 [45:09<01:50,  1.51s/it, v_num=cbeq, train/loss=1.400\r",
+      "Epoch 0:  96%|▉| 1794/1867 [45:09<01:50,  1.51s/it, v_num=cbeq, train/loss=4.470"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 1795/1867 [45:09<01:48,  1.51s/it, v_num=cbeq, train/loss=4.470\r",
+      "Epoch 0:  96%|▉| 1795/1867 [45:09<01:48,  1.51s/it, v_num=cbeq, train/loss=1.580"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 1796/1867 [45:15<01:47,  1.51s/it, v_num=cbeq, train/loss=1.580\r",
+      "Epoch 0:  96%|▉| 1796/1867 [45:15<01:47,  1.51s/it, v_num=cbeq, train/loss=3.940"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 1797/1867 [45:15<01:45,  1.51s/it, v_num=cbeq, train/loss=3.940\r",
+      "Epoch 0:  96%|▉| 1797/1867 [45:15<01:45,  1.51s/it, v_num=cbeq, train/loss=4.000"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 1798/1867 [45:15<01:44,  1.51s/it, v_num=cbeq, train/loss=4.000\r",
+      "Epoch 0:  96%|▉| 1798/1867 [45:15<01:44,  1.51s/it, v_num=cbeq, train/loss=3.610"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 1799/1867 [45:15<01:42,  1.51s/it, v_num=cbeq, train/loss=3.610\r",
+      "Epoch 0:  96%|▉| 1799/1867 [45:15<01:42,  1.51s/it, v_num=cbeq, train/loss=4.690"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 1800/1867 [45:21<01:41,  1.51s/it, v_num=cbeq, train/loss=4.690\r",
+      "Epoch 0:  96%|▉| 1800/1867 [45:21<01:41,  1.51s/it, v_num=cbeq, train/loss=2.980"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  96%|▉| 1801/1867 [45:21<01:39,  1.51s/it, v_num=cbeq, train/loss=2.980\r",
+      "Epoch 0:  96%|▉| 1801/1867 [45:21<01:39,  1.51s/it, v_num=cbeq, train/loss=3.190"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 1802/1867 [45:21<01:38,  1.51s/it, v_num=cbeq, train/loss=3.190\r",
+      "Epoch 0:  97%|▉| 1802/1867 [45:21<01:38,  1.51s/it, v_num=cbeq, train/loss=3.170"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 1803/1867 [45:21<01:36,  1.51s/it, v_num=cbeq, train/loss=3.170\r",
+      "Epoch 0:  97%|▉| 1803/1867 [45:21<01:36,  1.51s/it, v_num=cbeq, train/loss=2.970"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 1804/1867 [45:27<01:35,  1.51s/it, v_num=cbeq, train/loss=2.970\r",
+      "Epoch 0:  97%|▉| 1804/1867 [45:27<01:35,  1.51s/it, v_num=cbeq, train/loss=1.150"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 1805/1867 [45:27<01:33,  1.51s/it, v_num=cbeq, train/loss=1.150\r",
+      "Epoch 0:  97%|▉| 1805/1867 [45:27<01:33,  1.51s/it, v_num=cbeq, train/loss=2.980"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 1806/1867 [45:27<01:32,  1.51s/it, v_num=cbeq, train/loss=2.980\r",
+      "Epoch 0:  97%|▉| 1806/1867 [45:27<01:32,  1.51s/it, v_num=cbeq, train/loss=3.250"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 1807/1867 [45:27<01:30,  1.51s/it, v_num=cbeq, train/loss=3.250\r",
+      "Epoch 0:  97%|▉| 1807/1867 [45:27<01:30,  1.51s/it, v_num=cbeq, train/loss=3.270"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 1808/1867 [45:33<01:29,  1.51s/it, v_num=cbeq, train/loss=3.270\r",
+      "Epoch 0:  97%|▉| 1808/1867 [45:33<01:29,  1.51s/it, v_num=cbeq, train/loss=3.080"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 1809/1867 [45:33<01:27,  1.51s/it, v_num=cbeq, train/loss=3.080\r",
+      "Epoch 0:  97%|▉| 1809/1867 [45:33<01:27,  1.51s/it, v_num=cbeq, train/loss=2.750"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 1810/1867 [45:33<01:26,  1.51s/it, v_num=cbeq, train/loss=2.750\r",
+      "Epoch 0:  97%|▉| 1810/1867 [45:33<01:26,  1.51s/it, v_num=cbeq, train/loss=4.440"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 1811/1867 [45:33<01:24,  1.51s/it, v_num=cbeq, train/loss=4.440\r",
+      "Epoch 0:  97%|▉| 1811/1867 [45:33<01:24,  1.51s/it, v_num=cbeq, train/loss=4.440"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 1812/1867 [45:39<01:23,  1.51s/it, v_num=cbeq, train/loss=4.440\r",
+      "Epoch 0:  97%|▉| 1812/1867 [45:39<01:23,  1.51s/it, v_num=cbeq, train/loss=3.110"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 1813/1867 [45:39<01:21,  1.51s/it, v_num=cbeq, train/loss=3.110\r",
+      "Epoch 0:  97%|▉| 1813/1867 [45:39<01:21,  1.51s/it, v_num=cbeq, train/loss=3.920"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 1814/1867 [45:39<01:20,  1.51s/it, v_num=cbeq, train/loss=3.920\r",
+      "Epoch 0:  97%|▉| 1814/1867 [45:39<01:20,  1.51s/it, v_num=cbeq, train/loss=2.520"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 1815/1867 [45:39<01:18,  1.51s/it, v_num=cbeq, train/loss=2.520\r",
+      "Epoch 0:  97%|▉| 1815/1867 [45:39<01:18,  1.51s/it, v_num=cbeq, train/loss=3.560"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 1816/1867 [45:44<01:17,  1.51s/it, v_num=cbeq, train/loss=3.560\r",
+      "Epoch 0:  97%|▉| 1816/1867 [45:44<01:17,  1.51s/it, v_num=cbeq, train/loss=2.840"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 1817/1867 [45:45<01:15,  1.51s/it, v_num=cbeq, train/loss=2.840\r",
+      "Epoch 0:  97%|▉| 1817/1867 [45:45<01:15,  1.51s/it, v_num=cbeq, train/loss=1.520"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 1818/1867 [45:45<01:13,  1.51s/it, v_num=cbeq, train/loss=1.520\r",
+      "Epoch 0:  97%|▉| 1818/1867 [45:45<01:13,  1.51s/it, v_num=cbeq, train/loss=4.560"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 1819/1867 [45:45<01:12,  1.51s/it, v_num=cbeq, train/loss=4.560\r",
+      "Epoch 0:  97%|▉| 1819/1867 [45:45<01:12,  1.51s/it, v_num=cbeq, train/loss=3.860"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  97%|▉| 1820/1867 [45:50<01:11,  1.51s/it, v_num=cbeq, train/loss=3.860\r",
+      "Epoch 0:  97%|▉| 1820/1867 [45:50<01:11,  1.51s/it, v_num=cbeq, train/loss=4.090"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 1821/1867 [45:51<01:09,  1.51s/it, v_num=cbeq, train/loss=4.090\r",
+      "Epoch 0:  98%|▉| 1821/1867 [45:51<01:09,  1.51s/it, v_num=cbeq, train/loss=2.060"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 1822/1867 [45:51<01:07,  1.51s/it, v_num=cbeq, train/loss=2.060\r",
+      "Epoch 0:  98%|▉| 1822/1867 [45:51<01:07,  1.51s/it, v_num=cbeq, train/loss=2.030"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 1823/1867 [45:51<01:06,  1.51s/it, v_num=cbeq, train/loss=2.030\r",
+      "Epoch 0:  98%|▉| 1823/1867 [45:51<01:06,  1.51s/it, v_num=cbeq, train/loss=4.590"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 1824/1867 [45:56<01:04,  1.51s/it, v_num=cbeq, train/loss=4.590\r",
+      "Epoch 0:  98%|▉| 1824/1867 [45:56<01:04,  1.51s/it, v_num=cbeq, train/loss=1.890"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 1825/1867 [45:56<01:03,  1.51s/it, v_num=cbeq, train/loss=1.890\r",
+      "Epoch 0:  98%|▉| 1825/1867 [45:56<01:03,  1.51s/it, v_num=cbeq, train/loss=3.830"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 1826/1867 [45:56<01:01,  1.51s/it, v_num=cbeq, train/loss=3.830\r",
+      "Epoch 0:  98%|▉| 1826/1867 [45:56<01:01,  1.51s/it, v_num=cbeq, train/loss=4.060"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 1827/1867 [45:57<01:00,  1.51s/it, v_num=cbeq, train/loss=4.060\r",
+      "Epoch 0:  98%|▉| 1827/1867 [45:57<01:00,  1.51s/it, v_num=cbeq, train/loss=3.360"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 1828/1867 [46:02<00:58,  1.51s/it, v_num=cbeq, train/loss=3.360\r",
+      "Epoch 0:  98%|▉| 1828/1867 [46:02<00:58,  1.51s/it, v_num=cbeq, train/loss=3.940"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 1829/1867 [46:02<00:57,  1.51s/it, v_num=cbeq, train/loss=3.940\r",
+      "Epoch 0:  98%|▉| 1829/1867 [46:02<00:57,  1.51s/it, v_num=cbeq, train/loss=2.700"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 1830/1867 [46:02<00:55,  1.51s/it, v_num=cbeq, train/loss=2.700\r",
+      "Epoch 0:  98%|▉| 1830/1867 [46:02<00:55,  1.51s/it, v_num=cbeq, train/loss=3.940"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 1831/1867 [46:03<00:54,  1.51s/it, v_num=cbeq, train/loss=3.940\r",
+      "Epoch 0:  98%|▉| 1831/1867 [46:03<00:54,  1.51s/it, v_num=cbeq, train/loss=3.920"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 1832/1867 [46:08<00:52,  1.51s/it, v_num=cbeq, train/loss=3.920\r",
+      "Epoch 0:  98%|▉| 1832/1867 [46:08<00:52,  1.51s/it, v_num=cbeq, train/loss=4.880"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 1833/1867 [46:08<00:51,  1.51s/it, v_num=cbeq, train/loss=4.880\r",
+      "Epoch 0:  98%|▉| 1833/1867 [46:08<00:51,  1.51s/it, v_num=cbeq, train/loss=2.840"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 1834/1867 [46:08<00:49,  1.51s/it, v_num=cbeq, train/loss=2.840\r",
+      "Epoch 0:  98%|▉| 1834/1867 [46:08<00:49,  1.51s/it, v_num=cbeq, train/loss=2.860"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 1835/1867 [46:08<00:48,  1.51s/it, v_num=cbeq, train/loss=2.860\r",
+      "Epoch 0:  98%|▉| 1835/1867 [46:08<00:48,  1.51s/it, v_num=cbeq, train/loss=2.390"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 1836/1867 [46:14<00:46,  1.51s/it, v_num=cbeq, train/loss=2.390\r",
+      "Epoch 0:  98%|▉| 1836/1867 [46:14<00:46,  1.51s/it, v_num=cbeq, train/loss=3.580"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 1837/1867 [46:14<00:45,  1.51s/it, v_num=cbeq, train/loss=3.580\r",
+      "Epoch 0:  98%|▉| 1837/1867 [46:14<00:45,  1.51s/it, v_num=cbeq, train/loss=1.560"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  98%|▉| 1838/1867 [46:14<00:43,  1.51s/it, v_num=cbeq, train/loss=1.560\r",
+      "Epoch 0:  98%|▉| 1838/1867 [46:14<00:43,  1.51s/it, v_num=cbeq, train/loss=2.140"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 1839/1867 [46:14<00:42,  1.51s/it, v_num=cbeq, train/loss=2.140\r",
+      "Epoch 0:  99%|▉| 1839/1867 [46:14<00:42,  1.51s/it, v_num=cbeq, train/loss=1.250"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 1840/1867 [46:20<00:40,  1.51s/it, v_num=cbeq, train/loss=1.250\r",
+      "Epoch 0:  99%|▉| 1840/1867 [46:20<00:40,  1.51s/it, v_num=cbeq, train/loss=3.620"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 1841/1867 [46:20<00:39,  1.51s/it, v_num=cbeq, train/loss=3.620\r",
+      "Epoch 0:  99%|▉| 1841/1867 [46:20<00:39,  1.51s/it, v_num=cbeq, train/loss=2.480"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 1842/1867 [46:20<00:37,  1.51s/it, v_num=cbeq, train/loss=2.480\r",
+      "Epoch 0:  99%|▉| 1842/1867 [46:20<00:37,  1.51s/it, v_num=cbeq, train/loss=3.980"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 1843/1867 [46:20<00:36,  1.51s/it, v_num=cbeq, train/loss=3.980\r",
+      "Epoch 0:  99%|▉| 1843/1867 [46:20<00:36,  1.51s/it, v_num=cbeq, train/loss=2.940"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 1844/1867 [46:26<00:34,  1.51s/it, v_num=cbeq, train/loss=2.940\r",
+      "Epoch 0:  99%|▉| 1844/1867 [46:26<00:34,  1.51s/it, v_num=cbeq, train/loss=3.250"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 1845/1867 [46:26<00:33,  1.51s/it, v_num=cbeq, train/loss=3.250\r",
+      "Epoch 0:  99%|▉| 1845/1867 [46:26<00:33,  1.51s/it, v_num=cbeq, train/loss=3.860"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 1846/1867 [46:26<00:31,  1.51s/it, v_num=cbeq, train/loss=3.860\r",
+      "Epoch 0:  99%|▉| 1846/1867 [46:26<00:31,  1.51s/it, v_num=cbeq, train/loss=4.280"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 1847/1867 [46:26<00:30,  1.51s/it, v_num=cbeq, train/loss=4.280\r",
+      "Epoch 0:  99%|▉| 1847/1867 [46:26<00:30,  1.51s/it, v_num=cbeq, train/loss=1.970"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 1848/1867 [46:32<00:28,  1.51s/it, v_num=cbeq, train/loss=1.970\r",
+      "Epoch 0:  99%|▉| 1848/1867 [46:32<00:28,  1.51s/it, v_num=cbeq, train/loss=2.720"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 1849/1867 [46:32<00:27,  1.51s/it, v_num=cbeq, train/loss=2.720\r",
+      "Epoch 0:  99%|▉| 1849/1867 [46:32<00:27,  1.51s/it, v_num=cbeq, train/loss=3.480"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 1850/1867 [46:32<00:25,  1.51s/it, v_num=cbeq, train/loss=3.480\r",
+      "Epoch 0:  99%|▉| 1850/1867 [46:32<00:25,  1.51s/it, v_num=cbeq, train/loss=1.800"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 1851/1867 [46:32<00:24,  1.51s/it, v_num=cbeq, train/loss=1.800\r",
+      "Epoch 0:  99%|▉| 1851/1867 [46:32<00:24,  1.51s/it, v_num=cbeq, train/loss=3.170"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 1852/1867 [46:38<00:22,  1.51s/it, v_num=cbeq, train/loss=3.170\r",
+      "Epoch 0:  99%|▉| 1852/1867 [46:38<00:22,  1.51s/it, v_num=cbeq, train/loss=1.510"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 1853/1867 [46:38<00:21,  1.51s/it, v_num=cbeq, train/loss=1.510\r",
+      "Epoch 0:  99%|▉| 1853/1867 [46:38<00:21,  1.51s/it, v_num=cbeq, train/loss=3.920"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 1854/1867 [46:38<00:19,  1.51s/it, v_num=cbeq, train/loss=3.920\r",
+      "Epoch 0:  99%|▉| 1854/1867 [46:38<00:19,  1.51s/it, v_num=cbeq, train/loss=4.190"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 1855/1867 [46:38<00:18,  1.51s/it, v_num=cbeq, train/loss=4.190\r",
+      "Epoch 0:  99%|▉| 1855/1867 [46:38<00:18,  1.51s/it, v_num=cbeq, train/loss=3.530"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 1856/1867 [46:43<00:16,  1.51s/it, v_num=cbeq, train/loss=3.530\r",
+      "Epoch 0:  99%|▉| 1856/1867 [46:43<00:16,  1.51s/it, v_num=cbeq, train/loss=2.310"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0:  99%|▉| 1857/1867 [46:44<00:15,  1.51s/it, v_num=cbeq, train/loss=2.310\r",
+      "Epoch 0:  99%|▉| 1857/1867 [46:44<00:15,  1.51s/it, v_num=cbeq, train/loss=2.270"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0: 100%|▉| 1858/1867 [46:44<00:13,  1.51s/it, v_num=cbeq, train/loss=2.270\r",
+      "Epoch 0: 100%|▉| 1858/1867 [46:44<00:13,  1.51s/it, v_num=cbeq, train/loss=3.940"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0: 100%|▉| 1859/1867 [46:44<00:12,  1.51s/it, v_num=cbeq, train/loss=3.940\r",
+      "Epoch 0: 100%|▉| 1859/1867 [46:44<00:12,  1.51s/it, v_num=cbeq, train/loss=4.750"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0: 100%|▉| 1860/1867 [46:49<00:10,  1.51s/it, v_num=cbeq, train/loss=4.750\r",
+      "Epoch 0: 100%|▉| 1860/1867 [46:49<00:10,  1.51s/it, v_num=cbeq, train/loss=3.270"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0: 100%|▉| 1861/1867 [46:49<00:09,  1.51s/it, v_num=cbeq, train/loss=3.270\r",
+      "Epoch 0: 100%|▉| 1861/1867 [46:49<00:09,  1.51s/it, v_num=cbeq, train/loss=1.120"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0: 100%|▉| 1862/1867 [46:49<00:07,  1.51s/it, v_num=cbeq, train/loss=1.120\r",
+      "Epoch 0: 100%|▉| 1862/1867 [46:49<00:07,  1.51s/it, v_num=cbeq, train/loss=4.000"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0: 100%|▉| 1863/1867 [46:49<00:06,  1.51s/it, v_num=cbeq, train/loss=4.000\r",
+      "Epoch 0: 100%|▉| 1863/1867 [46:49<00:06,  1.51s/it, v_num=cbeq, train/loss=1.250"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0: 100%|▉| 1864/1867 [46:55<00:04,  1.51s/it, v_num=cbeq, train/loss=1.250\r",
+      "Epoch 0: 100%|▉| 1864/1867 [46:55<00:04,  1.51s/it, v_num=cbeq, train/loss=3.980"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0: 100%|▉| 1865/1867 [46:55<00:03,  1.51s/it, v_num=cbeq, train/loss=3.980\r",
+      "Epoch 0: 100%|▉| 1865/1867 [46:55<00:03,  1.51s/it, v_num=cbeq, train/loss=3.440"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0: 100%|▉| 1866/1867 [46:55<00:01,  1.51s/it, v_num=cbeq, train/loss=3.440\r",
+      "Epoch 0: 100%|▉| 1866/1867 [46:55<00:01,  1.51s/it, v_num=cbeq, train/loss=2.860"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0: 100%|█| 1867/1867 [46:55<00:00,  1.51s/it, v_num=cbeq, train/loss=2.860\r",
+      "Epoch 0: 100%|█| 1867/1867 [46:55<00:00,  1.51s/it, v_num=cbeq, train/loss=3.860"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r\n",
+      "\r",
+      "Validation: 0it [00:00, ?it/s]\u001b[A\r\n",
+      "\r",
+      "Validation:   0%|                                        | 0/10 [00:00<?, ?it/s]\u001b[A\r\n",
+      "\r",
+      "Validation DataLoader 0:   0%|                           | 0/10 [00:00<?, ?it/s]\u001b[A"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r\n",
+      "\r",
+      "Validation DataLoader 0:  10%|█▉                 | 1/10 [00:00<00:03,  2.40it/s]\u001b[A"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r\n",
+      "\r",
+      "Validation DataLoader 0:  20%|███▊               | 2/10 [00:00<00:02,  2.77it/s]\u001b[A"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r\n",
+      "\r",
+      "Validation DataLoader 0:  30%|█████▋             | 3/10 [00:00<00:02,  3.00it/s]\u001b[A"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r\n",
+      "\r",
+      "Validation DataLoader 0:  40%|███████▌           | 4/10 [00:01<00:01,  3.25it/s]\u001b[A"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r\n",
+      "\r",
+      "Validation DataLoader 0:  50%|█████████▌         | 5/10 [00:01<00:01,  3.44it/s]\u001b[A"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r\n",
+      "\r",
+      "Validation DataLoader 0:  60%|███████████▍       | 6/10 [00:01<00:01,  3.59it/s]\u001b[A"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r\n",
+      "\r",
+      "Validation DataLoader 0:  70%|█████████████▎     | 7/10 [00:01<00:00,  3.70it/s]\u001b[A"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r\n",
+      "\r",
+      "Validation DataLoader 0:  80%|███████████████▏   | 8/10 [00:02<00:00,  3.81it/s]\u001b[A"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r\n",
+      "\r",
+      "Validation DataLoader 0:  90%|█████████████████  | 9/10 [00:02<00:00,  3.89it/s]\u001b[A"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r\n",
+      "\r",
+      "Validation DataLoader 0: 100%|██████████████████| 10/10 [00:02<00:00,  3.96it/s]\u001b[A"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "Epoch 0: 100%|█| 1867/1867 [47:08<00:00,  1.51s/it, v_num=cbeq, train/loss=3.860\r\n",
+      "\r",
+      "                                                                                \u001b[A\r",
+      "Epoch 0: 100%|█| 1867/1867 [47:08<00:00,  1.51s/it, v_num=cbeq, train/loss=3.860"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "`Trainer.fit` stopped: `max_epochs=1` reached.\r\n",
+      "\r",
+      "Epoch 0: 100%|█| 1867/1867 [47:26<00:00,  1.52s/it, v_num=cbeq, train/loss=3.860\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\u001b[34m\u001b[1mwandb\u001b[0m: Waiting for W&B process to finish... \u001b[32m(success).\u001b[0m\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\u001b[34m\u001b[1mwandb\u001b[0m: \r\n",
+      "\u001b[34m\u001b[1mwandb\u001b[0m: Run history:\r\n",
+      "\u001b[34m\u001b[1mwandb\u001b[0m:              batchidx ▁▁▁▂▂▂▂▂▂▃▃▃▃▃▄▄▄▄▄▄▅▅▅▅▅▆▆▆▆▆▇▇▇▇▇▇███▁\r\n",
+      "\u001b[34m\u001b[1mwandb\u001b[0m:                 epoch ▁▁▁▁▁▁▁▁▁▁\r\n",
+      "\u001b[34m\u001b[1mwandb\u001b[0m:           global_rank ▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁\r\n",
+      "\u001b[34m\u001b[1mwandb\u001b[0m:          real_ctx_len ▁▅▄▂▄▂▁▁▅▁▄▁▂█▃▁▂▁▁▁▂▄▁▂▁▁▆▂▁▅▂▁▁▁▃▂▂▁▁▁\r\n",
+      "\u001b[34m\u001b[1mwandb\u001b[0m:               substep ▁▁▁▂▂▂▂▂▂▃▃▃▃▃▄▄▄▄▄▄▅▅▅▅▅▆▆▆▆▆▇▇▇▇▇▇███▁\r\n",
+      "\u001b[34m\u001b[1mwandb\u001b[0m:            train/loss ▇█▆▇▅▆▆▅▄▅▆▆▅▆▆█▆▄▄▄▆▅▆▅▃▅▇▆▆▆▄▄▄▅▄▇▆▄▆▁\r\n",
+      "\u001b[34m\u001b[1mwandb\u001b[0m:   trainer/global_step ▁▁▁▁▂▂▂▂▂▃▃▃▃▃▃▄▄▄▄▄▅▅▅▅▅▅▆▆▆▆▆▇▇▇▇▇▇███\r\n",
+      "\u001b[34m\u001b[1mwandb\u001b[0m: trainer/learning_rate ████▇▇▇▇▇▆▆▆▆▆▆▅▅▅▅▅▄▄▄▄▄▄▃▃▃▃▃▂▂▂▂▂▂▁▁▁\r\n",
+      "\u001b[34m\u001b[1mwandb\u001b[0m:       validation/loss ▁\r\n",
+      "\u001b[34m\u001b[1mwandb\u001b[0m: \r\n",
+      "\u001b[34m\u001b[1mwandb\u001b[0m: Run summary:\r\n",
+      "\u001b[34m\u001b[1mwandb\u001b[0m:              batchidx 9\r\n",
+      "\u001b[34m\u001b[1mwandb\u001b[0m:                 epoch 0\r\n",
+      "\u001b[34m\u001b[1mwandb\u001b[0m:           global_rank 0\r\n",
+      "\u001b[34m\u001b[1mwandb\u001b[0m:          real_ctx_len 85\r\n",
+      "\u001b[34m\u001b[1mwandb\u001b[0m:               substep 72\r\n",
+      "\u001b[34m\u001b[1mwandb\u001b[0m:            train/loss 3.9375\r\n",
+      "\u001b[34m\u001b[1mwandb\u001b[0m:   trainer/global_step 466\r\n",
+      "\u001b[34m\u001b[1mwandb\u001b[0m: trainer/learning_rate 0.0003\r\n",
+      "\u001b[34m\u001b[1mwandb\u001b[0m:       validation/loss 3.1417\r\n",
+      "\u001b[34m\u001b[1mwandb\u001b[0m: \r\n",
+      "\u001b[34m\u001b[1mwandb\u001b[0m: 🚀 View run \u001b[33mv5-hs2x-L6-D4096-E0.1 - Enwiki-Instruct (train-ctx=4k, deepspeed_stage_1)\u001b[0m at: \u001b[34m\u001b[4mhttps://wandb.ai/rwkv-x-dev/RWKV-X-Experiments/runs/scmucbeq\u001b[0m\r\n",
+      "\u001b[34m\u001b[1mwandb\u001b[0m: ️⚡ View job at \u001b[34m\u001b[4mhttps://wandb.ai/rwkv-x-dev/RWKV-X-Experiments/jobs/QXJ0aWZhY3RDb2xsZWN0aW9uOjkyNDI2MjYz/version_details/v17\u001b[0m\r\n",
+      "\u001b[34m\u001b[1mwandb\u001b[0m: Synced 5 W&B file(s), 0 media file(s), 2 artifact file(s) and 0 other file(s)\r\n",
+      "\u001b[34m\u001b[1mwandb\u001b[0m: Find logs at: \u001b[35m\u001b[1m./wandb/run-20230829_014329-scmucbeq/logs\u001b[0m\r\n"
+     ]
+    }
+   ],
+   "source": [
+    "# Start the instruct finetuning\n",
+    "!cd \"{TRAINER_DIR}\" && \\\n",
+    "    export WANDB_MODE=\"{WANDB_MODE}\" && \\\n",
+    "    export RWKV_WAVENET_LAYERS=\"{RWKV_WAVENET_LAYERS}\" && \\\n",
+    "    python lightning_trainer.py fit \\\n",
+    "        -c \"{NOTEBOOK_DIR}/v5base-enwiki-instruct.yaml\" \\\n",
+    "        --trainer.logger.init_args.name=\"{WANDB_PREFIX} - Enwiki-Instruct (train-ctx=4k, {DEEPSPEED_STRAT})\" \\\n",
+    "        --trainer.strategy=\"{DEEPSPEED_STRAT}\" \\\n",
+    "        --trainer.devices=\"{GPU_DEVICES}\" \\\n",
+    "        --trainer.callbacks.init_args.dirpath=\"../checkpoint/{FILENAME_PREFIX}-enwiki-instruct/\" \\\n",
+    "        --model.load_model=\"../model/{FILENAME_PREFIX}-enwiki-4k.pth\" \\\n",
+    "        --model.ctx_len=4096 \\\n",
+    "        --model.bptt_learning_range=1"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 12,
+   "id": "61fed353",
+   "metadata": {
+    "execution": {
+     "iopub.execute_input": "2023-08-29T02:32:57.680235Z",
+     "iopub.status.busy": "2023-08-29T02:32:57.679157Z",
+     "iopub.status.idle": "2023-08-29T02:33:15.713388Z",
+     "shell.execute_reply": "2023-08-29T02:33:15.712471Z"
+    },
+    "papermill": {
+     "duration": 18.720691,
+     "end_time": "2023-08-29T02:33:15.715232",
+     "exception": false,
+     "start_time": "2023-08-29T02:32:56.994541",
+     "status": "completed"
+    },
+    "tags": []
+   },
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Setting ds_accelerator to cuda (auto detect)\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Processing zero checkpoint '../checkpoint/v5-hs2x-L6-D4096-E0_1-enwiki-instruct/last.ckpt/checkpoint'\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Detected checkpoint of type zero stage ZeroStageEnum.optimizer_states, world_size: 8\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Parsing checkpoint created by deepspeed==0.9.3\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Reconstructed fp32 state dict with 126 params 1720779136 elements\r\n",
+      "Saving bf16 state dict to ../model/v5-hs2x-L6-D4096-E0_1-enwiki-instruct.pth\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "-rw-r--r-- 1 root root 3.3G Aug 29 02:33 ../model/v5-hs2x-L6-D4096-E0_1-enwiki-instruct.pth\r\n"
+     ]
+    }
+   ],
+   "source": [
+    "# Lets export the model from the checkpoint\n",
+    "!cd \"{TRAINER_DIR}\" && \\\n",
+    "    python export_checkpoint.py \"../checkpoint/{FILENAME_PREFIX}-enwiki-instruct/last.ckpt\" \"../model/{FILENAME_PREFIX}-enwiki-instruct.pth\" \"bf16\"\n",
+    "!cd \"{TRAINER_DIR}\" && ls -alh \"../model/{FILENAME_PREFIX}-enwiki-instruct.pth\""
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 13,
+   "id": "6377a484",
+   "metadata": {
+    "execution": {
+     "iopub.execute_input": "2023-08-29T02:33:17.195158Z",
+     "iopub.status.busy": "2023-08-29T02:33:17.194925Z",
+     "iopub.status.idle": "2023-08-29T02:34:42.988861Z",
+     "shell.execute_reply": "2023-08-29T02:34:42.987885Z"
+    },
+    "papermill": {
+     "duration": 86.465057,
+     "end_time": "2023-08-29T02:34:42.991295",
+     "exception": false,
+     "start_time": "2023-08-29T02:33:16.526238",
+     "status": "completed"
+    },
+    "tags": []
+   },
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Setting ds_accelerator to cuda (auto detect)\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "[RWKV.model] Running RWKV model using 'torch-jit' with torch '2.0.1+cu118'\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "--- DRAGON PROMPT ---\r\n",
+      "In a shocking finding, scientist discovered a herd of dragons living in a remote, previously unexplored valley, in Tibet. Even more surprising to the researchers was the fact that the dragons spoke perfect Chinese."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "  "
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "The"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " team"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " of"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " scientists"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " described"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " the"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " following"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " phenomenon"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " as"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " \""
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "species"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " of"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " the"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " metals"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\""
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " of"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " the"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " foss"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "ils"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " in"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " the"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " following"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " passage"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      ":"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "  "
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Using"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " the"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " word"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " \""
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\""
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " ("
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "not"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      ","
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " \""
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "fire"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "-"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "pine"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\"),"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " the"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " most"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " important"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " group"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " of"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " human"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " beings"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " was"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " alive"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "  "
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "They"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " are"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " \""
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "my"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "r"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " for"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " the"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " blood"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\""
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " of"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " a"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " loaf"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " of"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " bread"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "  "
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "The"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " types"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " of"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " the"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " bullets"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " mentioned"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " in"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " the"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " paragraph"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " are"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      ","
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " \""
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Not"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      ","
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " the"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " less"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " impressive"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\""
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " of"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " animal"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "  "
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "These"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " only"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " indicate"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " the"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " types"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " of"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " animals"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " that"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " were"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " more"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " likely"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " to"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " be"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " alive"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "  "
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "vals"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " may"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " also"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " include"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " multiple"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " animals"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      ","
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " such"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " as"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " food"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " or"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " weapons"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      ","
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " to"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " provide"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " many"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " benefits"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      ","
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " such"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " as"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " the"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " use"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " of"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " one"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " of"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " the"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " animal"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "'s"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " territory"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "  "
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Typ"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "ically"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      ","
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " they"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " also"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " would"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " not"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " carry"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " food"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      ","
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " or"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " neither"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "."
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "  "
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "While"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " many"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " people"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " are"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " domest"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "icated"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      ","
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "  "
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "while"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " a"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " buff"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      ","
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " a"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " large"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " number"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " of"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " people"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " may"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " not"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " have"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " an"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " animal"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " with"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " the"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " ability"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " to"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " consume"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " food"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      ","
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " or"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " a"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " flight"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "less"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " animal"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      ","
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " a"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " horse"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " would"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " likely"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " be"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " able"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " to"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " own"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " land"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      ","
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " as"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " they"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " could\r\n"
+     ]
+    }
+   ],
+   "source": [
+    "# # Lets do a quick dragon prompt validation\n",
+    "!cd \"{INFERENCE_DIR}\" && \\\n",
+    "    export RWKV_WAVENET_LAYERS=\"{RWKV_WAVENET_LAYERS}\" && \\\n",
+    "    python3 dragon_test.py \"../model/{FILENAME_PREFIX}-enwiki-instruct.pth\" \"cuda fp32\""
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 14,
+   "id": "56e93bd7",
+   "metadata": {
+    "execution": {
+     "iopub.execute_input": "2023-08-29T02:34:44.381475Z",
+     "iopub.status.busy": "2023-08-29T02:34:44.381199Z",
+     "iopub.status.idle": "2023-08-29T02:35:08.117716Z",
+     "shell.execute_reply": "2023-08-29T02:35:08.116774Z"
+    },
+    "papermill": {
+     "duration": 24.436246,
+     "end_time": "2023-08-29T02:35:08.119839",
+     "exception": false,
+     "start_time": "2023-08-29T02:34:43.683593",
+     "status": "completed"
+    },
+    "tags": []
+   },
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Setting ds_accelerator to cuda (auto detect)\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "[RWKV.model] Running RWKV model using 'torch-jit' with torch '2.0.1+cu118'\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Traceback (most recent call last):\r\n",
+      "  File \"/actions-runner/_work/RWKV-infctx-trainer/RWKV-infctx-trainer/notebook/experiment/rwkv-x-exp/v5-headsize2x/../memory_script/eval_v5_memory_guided.py\", line 366, in <module>\r\n",
+      "    asyncio.run(main_function())\r\n",
+      "  File \"/usr/lib/python3.11/asyncio/runners.py\", line 190, in run\r\n",
+      "    return runner.run(main)\r\n",
+      "           ^^^^^^^^^^^^^^^^\r\n",
+      "  File \"/usr/lib/python3.11/asyncio/runners.py\", line 118, in run\r\n",
+      "    return self._loop.run_until_complete(task)\r\n",
+      "           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^\r\n",
+      "  File \"/usr/lib/python3.11/asyncio/base_events.py\", line 653, in run_until_complete\r\n",
+      "    return future.result()\r\n",
+      "           ^^^^^^^^^^^^^^^\r\n",
+      "  File \"/actions-runner/_work/RWKV-infctx-trainer/RWKV-infctx-trainer/notebook/experiment/rwkv-x-exp/v5-headsize2x/../memory_script/eval_v5_memory_guided.py\", line 58, in main_function\r\n",
+      "    model = SimpleRWKV(model_path, device=\"cuda\")\r\n",
+      "            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^\r\n",
+      "  File \"/actions-runner/_work/RWKV-infctx-trainer/RWKV-infctx-trainer/RWKV-v5/src/model.py\", line 1378, in __init__\r\n",
+      "    self.model = RWKV(**model_config)\r\n",
+      "                 ^^^^^^^^^^^^^^^^^^^^\r\n",
+      "  File \"/actions-runner/_work/RWKV-infctx-trainer/RWKV-infctx-trainer/RWKV-v5/src/model.py\", line 650, in __init__\r\n",
+      "    self.load_state_dict(model_weights)\r\n",
+      "  File \"/usr/local/lib/python3.11/dist-packages/torch/nn/modules/module.py\", line 2041, in load_state_dict\r\n",
+      "    raise RuntimeError('Error(s) in loading state_dict for {}:\\n\\t{}'.format(\r\n",
+      "RuntimeError: Error(s) in loading state_dict for RWKV:\r\n",
+      "\tsize mismatch for blocks.0.att.time_decay: copying a param with shape torch.Size([32]) from checkpoint, the shape in current model is torch.Size([64]).\r\n",
+      "\tsize mismatch for blocks.0.att.time_faaaa: copying a param with shape torch.Size([32]) from checkpoint, the shape in current model is torch.Size([64]).\r\n",
+      "\tsize mismatch for blocks.1.att.time_decay: copying a param with shape torch.Size([32]) from checkpoint, the shape in current model is torch.Size([64]).\r\n",
+      "\tsize mismatch for blocks.1.att.time_faaaa: copying a param with shape torch.Size([32]) from checkpoint, the shape in current model is torch.Size([64]).\r\n",
+      "\tsize mismatch for blocks.2.att.time_decay: copying a param with shape torch.Size([32]) from checkpoint, the shape in current model is torch.Size([64]).\r\n",
+      "\tsize mismatch for blocks.2.att.time_faaaa: copying a param with shape torch.Size([32]) from checkpoint, the shape in current model is torch.Size([64]).\r\n",
+      "\tsize mismatch for blocks.3.att.time_decay: copying a param with shape torch.Size([32]) from checkpoint, the shape in current model is torch.Size([64]).\r\n",
+      "\tsize mismatch for blocks.3.att.time_faaaa: copying a param with shape torch.Size([32]) from checkpoint, the shape in current model is torch.Size([64]).\r\n",
+      "\tsize mismatch for blocks.4.att.time_decay: copying a param with shape torch.Size([32]) from checkpoint, the shape in current model is torch.Size([64]).\r\n",
+      "\tsize mismatch for blocks.4.att.time_faaaa: copying a param with shape torch.Size([32]) from checkpoint, the shape in current model is torch.Size([64]).\r\n",
+      "\tsize mismatch for blocks.5.att.time_decay: copying a param with shape torch.Size([32]) from checkpoint, the shape in current model is torch.Size([64]).\r\n",
+      "\tsize mismatch for blocks.5.att.time_faaaa: copying a param with shape torch.Size([32]) from checkpoint, the shape in current model is torch.Size([64]).\r\n"
+     ]
+    }
+   ],
+   "source": [
+    "# Lets do a quick memory test\n",
+    "!export RWKV_WAVENET_LAYERS=\"{RWKV_WAVENET_LAYERS}\" && \\\n",
+    "        python3 ../memory_script/eval_v5_memory_guided.py \"{PROJECT_DIR}/model/{FILENAME_PREFIX}-enwiki-instruct.pth\""
+   ]
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "Python 3 (ipykernel)",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.11.4"
+  },
+  "papermill": {
+   "default_parameters": {},
+   "duration": 28184.999752,
+   "end_time": "2023-08-29T02:35:09.072726",
+   "environment_variables": {},
+   "exception": null,
+   "input_path": "/actions-runner/_work/RWKV-infctx-trainer/RWKV-infctx-trainer/notebook/experiment/rwkv-x-exp/v5-headsize2x/v5-L6-D4096-E1e-1-ctx4k-part1.ipynb",
+   "output_path": "/actions-runner/_work/RWKV-infctx-trainer/RWKV-infctx-trainer/output/experiment/rwkv-x-exp/v5-headsize2x/v5-L6-D4096-E1e-1-ctx4k-part1.ipynb",
+   "parameters": {},
+   "start_time": "2023-08-28T18:45:24.072974",
+   "version": "2.4.0"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 5
+}
\ No newline at end of file