diff --git "a/tiktoken_test.ipynb" "b/tiktoken_test.ipynb" new file mode 100644--- /dev/null +++ "b/tiktoken_test.ipynb" @@ -0,0 +1,6719 @@ +{ + "cells": [ + { + "cell_type": "code", + "execution_count": 2, + "id": "606d87d4-66be-43e7-9942-77e076e968ef", + "metadata": {}, + "outputs": [], + "source": [ + "from tiktoken._educational import *" + ] + }, + { + "cell_type": "code", + "execution_count": 3, + "id": "f10d9a4e-59b0-40b4-8f28-2d2113bc2249", + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "The current most common pair is b' ' + b' '\n", + "So we made b' ' our 257th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\u001b[48;5;179m\"\u001b[48;5;185m\"\u001b[48;5;77mT\u001b[48;5;80mh\u001b[48;5;68mi\u001b[48;5;134ms\u001b[48;5;167m \u001b[48;5;179mi\u001b[48;5;185ms\u001b[48;5;77m \u001b[48;5;80ma\u001b[48;5;68mn\u001b[48;5;134m \u001b[48;5;167me\u001b[48;5;179md\u001b[48;5;185mu\u001b[48;5;77mc\u001b[48;5;80ma\u001b[48;5;68mt\u001b[48;5;134mi\u001b[48;5;167mo\u001b[48;5;179mn\u001b[48;5;185ma\u001b[48;5;77ml\u001b[48;5;80m \u001b[48;5;68mi\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179ml\u001b[48;5;185me\u001b[48;5;77mm\u001b[48;5;80me\u001b[48;5;68mn\u001b[48;5;134mt\u001b[48;5;167ma\u001b[48;5;179mt\u001b[48;5;185mi\u001b[48;5;77mo\u001b[48;5;80mn\u001b[48;5;68m \u001b[48;5;134mo\u001b[48;5;167mf\u001b[48;5;179m \u001b[48;5;185mt\u001b[48;5;77mh\u001b[48;5;80me\u001b[48;5;68m \u001b[48;5;134mb\u001b[48;5;167my\u001b[48;5;179mt\u001b[48;5;185me\u001b[48;5;77m \u001b[48;5;80mp\u001b[48;5;68ma\u001b[48;5;134mi\u001b[48;5;167mr\u001b[48;5;179m \u001b[48;5;185me\u001b[48;5;77mn\u001b[48;5;80mc\u001b[48;5;68mo\u001b[48;5;134md\u001b[48;5;167mi\u001b[48;5;179mn\u001b[48;5;185mg\u001b[48;5;77m \u001b[48;5;80ma\u001b[48;5;68ml\u001b[48;5;134mg\u001b[48;5;167mo\u001b[48;5;179mr\u001b[48;5;185mi\u001b[48;5;77mt\u001b[48;5;80mh\u001b[48;5;68mm\u001b[48;5;134m.\u001b[48;5;167m\"\u001b[48;5;179m\"\u001b[48;5;185m\"\u001b[48;5;77m\n", + "\u001b[48;5;80mf\u001b[48;5;68mr\u001b[48;5;134mo\u001b[48;5;167mm\u001b[48;5;179m \u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80mf\u001b[48;5;68mu\u001b[48;5;134mt\u001b[48;5;167mu\u001b[48;5;179mr\u001b[48;5;185me\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m \u001b[48;5;134mi\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mo\u001b[48;5;77mr\u001b[48;5;80mt\u001b[48;5;68m \u001b[48;5;134ma\u001b[48;5;167mn\u001b[48;5;179mn\u001b[48;5;185mo\u001b[48;5;77mt\u001b[48;5;80ma\u001b[48;5;68mt\u001b[48;5;134mi\u001b[48;5;167mo\u001b[48;5;179mn\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mi\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179mo\u001b[48;5;185mr\u001b[48;5;77mt\u001b[48;5;80m \u001b[48;5;68mc\u001b[48;5;134mo\u001b[48;5;167ml\u001b[48;5;179ml\u001b[48;5;185me\u001b[48;5;77mc\u001b[48;5;80mt\u001b[48;5;68mi\u001b[48;5;134mo\u001b[48;5;167mn\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mo\u001b[48;5;167mr\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mi\u001b[48;5;80mt\u001b[48;5;68me\u001b[48;5;134mr\u001b[48;5;167mt\u001b[48;5;179mo\u001b[48;5;185mo\u001b[48;5;77ml\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mr\u001b[48;5;179mo\u001b[48;5;185mm\u001b[48;5;77m \u001b[48;5;80mt\u001b[48;5;68my\u001b[48;5;134mp\u001b[48;5;167mi\u001b[48;5;179mn\u001b[48;5;185mg\u001b[48;5;77m \u001b[48;5;80mi\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mo\u001b[48;5;179mr\u001b[48;5;185mt\u001b[48;5;77m \u001b[48;5;80mO\u001b[48;5;68mp\u001b[48;5;134mt\u001b[48;5;167mi\u001b[48;5;179mo\u001b[48;5;185mn\u001b[48;5;77ma\u001b[48;5;80ml\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mi\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mo\u001b[48;5;80mr\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mr\u001b[48;5;179me\u001b[48;5;185mg\u001b[48;5;77me\u001b[48;5;80mx\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mi\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mo\u001b[48;5;80mr\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mt\u001b[48;5;179mi\u001b[48;5;185mk\u001b[48;5;77mt\u001b[48;5;80mo\u001b[48;5;68mk\u001b[48;5;134me\u001b[48;5;167mn\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mc\u001b[48;5;68ml\u001b[48;5;134ma\u001b[48;5;167ms\u001b[48;5;179ms\u001b[48;5;185m \u001b[48;5;77mS\u001b[48;5;80mi\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167ml\u001b[48;5;179me\u001b[48;5;185mB\u001b[48;5;77my\u001b[48;5;80mt\u001b[48;5;68me\u001b[48;5;134mP\u001b[48;5;167ma\u001b[48;5;179mi\u001b[48;5;185mr\u001b[48;5;77mE\u001b[48;5;80mn\u001b[48;5;68mc\u001b[48;5;134mo\u001b[48;5;167md\u001b[48;5;179mi\u001b[48;5;185mn\u001b[48;5;77mg\u001b[48;5;80m:\u001b[48;5;68m\n", + "\u001b[48;5;134m \u001b[48;5;167m \u001b[48;5;179m \u001b[48;5;185md\u001b[48;5;77me\u001b[48;5;80mf\u001b[48;5;68m \u001b[48;5;134m_\u001b[48;5;167m_\u001b[48;5;179mi\u001b[48;5;185mn\u001b[48;5;77mi\u001b[48;5;80mt\u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' ' + b' '\n", + "So we made b' ' our 258th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\u001b[48;5;179m\"\u001b[48;5;185m\"\u001b[48;5;77mT\u001b[48;5;80mh\u001b[48;5;68mi\u001b[48;5;134ms\u001b[48;5;167m \u001b[48;5;179mi\u001b[48;5;185ms\u001b[48;5;77m \u001b[48;5;80ma\u001b[48;5;68mn\u001b[48;5;134m \u001b[48;5;167me\u001b[48;5;179md\u001b[48;5;185mu\u001b[48;5;77mc\u001b[48;5;80ma\u001b[48;5;68mt\u001b[48;5;134mi\u001b[48;5;167mo\u001b[48;5;179mn\u001b[48;5;185ma\u001b[48;5;77ml\u001b[48;5;80m \u001b[48;5;68mi\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179ml\u001b[48;5;185me\u001b[48;5;77mm\u001b[48;5;80me\u001b[48;5;68mn\u001b[48;5;134mt\u001b[48;5;167ma\u001b[48;5;179mt\u001b[48;5;185mi\u001b[48;5;77mo\u001b[48;5;80mn\u001b[48;5;68m \u001b[48;5;134mo\u001b[48;5;167mf\u001b[48;5;179m \u001b[48;5;185mt\u001b[48;5;77mh\u001b[48;5;80me\u001b[48;5;68m \u001b[48;5;134mb\u001b[48;5;167my\u001b[48;5;179mt\u001b[48;5;185me\u001b[48;5;77m \u001b[48;5;80mp\u001b[48;5;68ma\u001b[48;5;134mi\u001b[48;5;167mr\u001b[48;5;179m \u001b[48;5;185me\u001b[48;5;77mn\u001b[48;5;80mc\u001b[48;5;68mo\u001b[48;5;134md\u001b[48;5;167mi\u001b[48;5;179mn\u001b[48;5;185mg\u001b[48;5;77m \u001b[48;5;80ma\u001b[48;5;68ml\u001b[48;5;134mg\u001b[48;5;167mo\u001b[48;5;179mr\u001b[48;5;185mi\u001b[48;5;77mt\u001b[48;5;80mh\u001b[48;5;68mm\u001b[48;5;134m.\u001b[48;5;167m\"\u001b[48;5;179m\"\u001b[48;5;185m\"\u001b[48;5;77m\n", + "\u001b[48;5;80mf\u001b[48;5;68mr\u001b[48;5;134mo\u001b[48;5;167mm\u001b[48;5;179m \u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80mf\u001b[48;5;68mu\u001b[48;5;134mt\u001b[48;5;167mu\u001b[48;5;179mr\u001b[48;5;185me\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m \u001b[48;5;134mi\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mo\u001b[48;5;77mr\u001b[48;5;80mt\u001b[48;5;68m \u001b[48;5;134ma\u001b[48;5;167mn\u001b[48;5;179mn\u001b[48;5;185mo\u001b[48;5;77mt\u001b[48;5;80ma\u001b[48;5;68mt\u001b[48;5;134mi\u001b[48;5;167mo\u001b[48;5;179mn\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mi\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179mo\u001b[48;5;185mr\u001b[48;5;77mt\u001b[48;5;80m \u001b[48;5;68mc\u001b[48;5;134mo\u001b[48;5;167ml\u001b[48;5;179ml\u001b[48;5;185me\u001b[48;5;77mc\u001b[48;5;80mt\u001b[48;5;68mi\u001b[48;5;134mo\u001b[48;5;167mn\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mo\u001b[48;5;167mr\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mi\u001b[48;5;80mt\u001b[48;5;68me\u001b[48;5;134mr\u001b[48;5;167mt\u001b[48;5;179mo\u001b[48;5;185mo\u001b[48;5;77ml\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mr\u001b[48;5;179mo\u001b[48;5;185mm\u001b[48;5;77m \u001b[48;5;80mt\u001b[48;5;68my\u001b[48;5;134mp\u001b[48;5;167mi\u001b[48;5;179mn\u001b[48;5;185mg\u001b[48;5;77m \u001b[48;5;80mi\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mo\u001b[48;5;179mr\u001b[48;5;185mt\u001b[48;5;77m \u001b[48;5;80mO\u001b[48;5;68mp\u001b[48;5;134mt\u001b[48;5;167mi\u001b[48;5;179mo\u001b[48;5;185mn\u001b[48;5;77ma\u001b[48;5;80ml\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mi\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mo\u001b[48;5;80mr\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mr\u001b[48;5;179me\u001b[48;5;185mg\u001b[48;5;77me\u001b[48;5;80mx\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mi\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mo\u001b[48;5;80mr\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mt\u001b[48;5;179mi\u001b[48;5;185mk\u001b[48;5;77mt\u001b[48;5;80mo\u001b[48;5;68mk\u001b[48;5;134me\u001b[48;5;167mn\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mc\u001b[48;5;68ml\u001b[48;5;134ma\u001b[48;5;167ms\u001b[48;5;179ms\u001b[48;5;185m \u001b[48;5;77mS\u001b[48;5;80mi\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167ml\u001b[48;5;179me\u001b[48;5;185mB\u001b[48;5;77my\u001b[48;5;80mt\u001b[48;5;68me\u001b[48;5;134mP\u001b[48;5;167ma\u001b[48;5;179mi\u001b[48;5;185mr\u001b[48;5;77mE\u001b[48;5;80mn\u001b[48;5;68mc\u001b[48;5;134mo\u001b[48;5;167md\u001b[48;5;179mi\u001b[48;5;185mn\u001b[48;5;77mg\u001b[48;5;80m:\u001b[48;5;68m\n", + "\u001b[48;5;134m \u001b[48;5;167m \u001b[48;5;179m \u001b[48;5;185md\u001b[48;5;77me\u001b[48;5;80mf\u001b[48;5;68m \u001b[48;5;134m_\u001b[48;5;167m_\u001b[48;5;179mi\u001b[48;5;185mn\u001b[48;5;77mi\u001b[48;5;80mt\u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' ' + b' '\n", + "So we made b' ' our 259th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\u001b[48;5;179m\"\u001b[48;5;185m\"\u001b[48;5;77mT\u001b[48;5;80mh\u001b[48;5;68mi\u001b[48;5;134ms\u001b[48;5;167m \u001b[48;5;179mi\u001b[48;5;185ms\u001b[48;5;77m \u001b[48;5;80ma\u001b[48;5;68mn\u001b[48;5;134m \u001b[48;5;167me\u001b[48;5;179md\u001b[48;5;185mu\u001b[48;5;77mc\u001b[48;5;80ma\u001b[48;5;68mt\u001b[48;5;134mi\u001b[48;5;167mo\u001b[48;5;179mn\u001b[48;5;185ma\u001b[48;5;77ml\u001b[48;5;80m \u001b[48;5;68mi\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179ml\u001b[48;5;185me\u001b[48;5;77mm\u001b[48;5;80me\u001b[48;5;68mn\u001b[48;5;134mt\u001b[48;5;167ma\u001b[48;5;179mt\u001b[48;5;185mi\u001b[48;5;77mo\u001b[48;5;80mn\u001b[48;5;68m \u001b[48;5;134mo\u001b[48;5;167mf\u001b[48;5;179m \u001b[48;5;185mt\u001b[48;5;77mh\u001b[48;5;80me\u001b[48;5;68m \u001b[48;5;134mb\u001b[48;5;167my\u001b[48;5;179mt\u001b[48;5;185me\u001b[48;5;77m \u001b[48;5;80mp\u001b[48;5;68ma\u001b[48;5;134mi\u001b[48;5;167mr\u001b[48;5;179m \u001b[48;5;185me\u001b[48;5;77mn\u001b[48;5;80mc\u001b[48;5;68mo\u001b[48;5;134md\u001b[48;5;167mi\u001b[48;5;179mn\u001b[48;5;185mg\u001b[48;5;77m \u001b[48;5;80ma\u001b[48;5;68ml\u001b[48;5;134mg\u001b[48;5;167mo\u001b[48;5;179mr\u001b[48;5;185mi\u001b[48;5;77mt\u001b[48;5;80mh\u001b[48;5;68mm\u001b[48;5;134m.\u001b[48;5;167m\"\u001b[48;5;179m\"\u001b[48;5;185m\"\u001b[48;5;77m\n", + "\u001b[48;5;80mf\u001b[48;5;68mr\u001b[48;5;134mo\u001b[48;5;167mm\u001b[48;5;179m \u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80mf\u001b[48;5;68mu\u001b[48;5;134mt\u001b[48;5;167mu\u001b[48;5;179mr\u001b[48;5;185me\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m \u001b[48;5;134mi\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mo\u001b[48;5;77mr\u001b[48;5;80mt\u001b[48;5;68m \u001b[48;5;134ma\u001b[48;5;167mn\u001b[48;5;179mn\u001b[48;5;185mo\u001b[48;5;77mt\u001b[48;5;80ma\u001b[48;5;68mt\u001b[48;5;134mi\u001b[48;5;167mo\u001b[48;5;179mn\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mi\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179mo\u001b[48;5;185mr\u001b[48;5;77mt\u001b[48;5;80m \u001b[48;5;68mc\u001b[48;5;134mo\u001b[48;5;167ml\u001b[48;5;179ml\u001b[48;5;185me\u001b[48;5;77mc\u001b[48;5;80mt\u001b[48;5;68mi\u001b[48;5;134mo\u001b[48;5;167mn\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mo\u001b[48;5;167mr\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mi\u001b[48;5;80mt\u001b[48;5;68me\u001b[48;5;134mr\u001b[48;5;167mt\u001b[48;5;179mo\u001b[48;5;185mo\u001b[48;5;77ml\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mr\u001b[48;5;179mo\u001b[48;5;185mm\u001b[48;5;77m \u001b[48;5;80mt\u001b[48;5;68my\u001b[48;5;134mp\u001b[48;5;167mi\u001b[48;5;179mn\u001b[48;5;185mg\u001b[48;5;77m \u001b[48;5;80mi\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mo\u001b[48;5;179mr\u001b[48;5;185mt\u001b[48;5;77m \u001b[48;5;80mO\u001b[48;5;68mp\u001b[48;5;134mt\u001b[48;5;167mi\u001b[48;5;179mo\u001b[48;5;185mn\u001b[48;5;77ma\u001b[48;5;80ml\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mi\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mo\u001b[48;5;80mr\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mr\u001b[48;5;179me\u001b[48;5;185mg\u001b[48;5;77me\u001b[48;5;80mx\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mi\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mo\u001b[48;5;80mr\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mt\u001b[48;5;179mi\u001b[48;5;185mk\u001b[48;5;77mt\u001b[48;5;80mo\u001b[48;5;68mk\u001b[48;5;134me\u001b[48;5;167mn\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mc\u001b[48;5;68ml\u001b[48;5;134ma\u001b[48;5;167ms\u001b[48;5;179ms\u001b[48;5;185m \u001b[48;5;77mS\u001b[48;5;80mi\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167ml\u001b[48;5;179me\u001b[48;5;185mB\u001b[48;5;77my\u001b[48;5;80mt\u001b[48;5;68me\u001b[48;5;134mP\u001b[48;5;167ma\u001b[48;5;179mi\u001b[48;5;185mr\u001b[48;5;77mE\u001b[48;5;80mn\u001b[48;5;68mc\u001b[48;5;134mo\u001b[48;5;167md\u001b[48;5;179mi\u001b[48;5;185mn\u001b[48;5;77mg\u001b[48;5;80m:\u001b[48;5;68m\n", + "\u001b[48;5;134m \u001b[48;5;167m \u001b[48;5;179md\u001b[48;5;185me\u001b[48;5;77mf\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167mi\u001b[48;5;179mn\u001b[48;5;185mi\u001b[48;5;77mt\u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'i' + b'n'\n", + "So we made b'in' our 260th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\u001b[48;5;179m\"\u001b[48;5;185m\"\u001b[48;5;77mT\u001b[48;5;80mh\u001b[48;5;68mi\u001b[48;5;134ms\u001b[48;5;167m \u001b[48;5;179mi\u001b[48;5;185ms\u001b[48;5;77m \u001b[48;5;80ma\u001b[48;5;68mn\u001b[48;5;134m \u001b[48;5;167me\u001b[48;5;179md\u001b[48;5;185mu\u001b[48;5;77mc\u001b[48;5;80ma\u001b[48;5;68mt\u001b[48;5;134mi\u001b[48;5;167mo\u001b[48;5;179mn\u001b[48;5;185ma\u001b[48;5;77ml\u001b[48;5;80m \u001b[48;5;68mi\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179ml\u001b[48;5;185me\u001b[48;5;77mm\u001b[48;5;80me\u001b[48;5;68mn\u001b[48;5;134mt\u001b[48;5;167ma\u001b[48;5;179mt\u001b[48;5;185mi\u001b[48;5;77mo\u001b[48;5;80mn\u001b[48;5;68m \u001b[48;5;134mo\u001b[48;5;167mf\u001b[48;5;179m \u001b[48;5;185mt\u001b[48;5;77mh\u001b[48;5;80me\u001b[48;5;68m \u001b[48;5;134mb\u001b[48;5;167my\u001b[48;5;179mt\u001b[48;5;185me\u001b[48;5;77m \u001b[48;5;80mp\u001b[48;5;68ma\u001b[48;5;134mi\u001b[48;5;167mr\u001b[48;5;179m \u001b[48;5;185me\u001b[48;5;77mn\u001b[48;5;80mc\u001b[48;5;68mo\u001b[48;5;134md\u001b[48;5;167min\u001b[48;5;179mg\u001b[48;5;185m \u001b[48;5;77ma\u001b[48;5;80ml\u001b[48;5;68mg\u001b[48;5;134mo\u001b[48;5;167mr\u001b[48;5;179mi\u001b[48;5;185mt\u001b[48;5;77mh\u001b[48;5;80mm\u001b[48;5;68m.\u001b[48;5;134m\"\u001b[48;5;167m\"\u001b[48;5;179m\"\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mr\u001b[48;5;68mo\u001b[48;5;134mm\u001b[48;5;167m \u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77mf\u001b[48;5;80mu\u001b[48;5;68mt\u001b[48;5;134mu\u001b[48;5;167mr\u001b[48;5;179me\u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80m \u001b[48;5;68mi\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179mo\u001b[48;5;185mr\u001b[48;5;77mt\u001b[48;5;80m \u001b[48;5;68ma\u001b[48;5;134mn\u001b[48;5;167mn\u001b[48;5;179mo\u001b[48;5;185mt\u001b[48;5;77ma\u001b[48;5;80mt\u001b[48;5;68mi\u001b[48;5;134mo\u001b[48;5;167mn\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mo\u001b[48;5;179mr\u001b[48;5;185mt\u001b[48;5;77m \u001b[48;5;80mc\u001b[48;5;68mo\u001b[48;5;134ml\u001b[48;5;167ml\u001b[48;5;179me\u001b[48;5;185mc\u001b[48;5;77mt\u001b[48;5;80mi\u001b[48;5;68mo\u001b[48;5;134mn\u001b[48;5;167ms\u001b[48;5;179m\n", + "\u001b[48;5;185mi\u001b[48;5;77mm\u001b[48;5;80mp\u001b[48;5;68mo\u001b[48;5;134mr\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mi\u001b[48;5;77mt\u001b[48;5;80me\u001b[48;5;68mr\u001b[48;5;134mt\u001b[48;5;167mo\u001b[48;5;179mo\u001b[48;5;185ml\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68mf\u001b[48;5;134mr\u001b[48;5;167mo\u001b[48;5;179mm\u001b[48;5;185m \u001b[48;5;77mt\u001b[48;5;80my\u001b[48;5;68mp\u001b[48;5;134min\u001b[48;5;167mg\u001b[48;5;179m \u001b[48;5;185mi\u001b[48;5;77mm\u001b[48;5;80mp\u001b[48;5;68mo\u001b[48;5;134mr\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mO\u001b[48;5;77mp\u001b[48;5;80mt\u001b[48;5;68mi\u001b[48;5;134mo\u001b[48;5;167mn\u001b[48;5;179ma\u001b[48;5;185ml\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mi\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179mo\u001b[48;5;185mr\u001b[48;5;77mt\u001b[48;5;80m \u001b[48;5;68mr\u001b[48;5;134me\u001b[48;5;167mg\u001b[48;5;179me\u001b[48;5;185mx\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mi\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179mo\u001b[48;5;185mr\u001b[48;5;77mt\u001b[48;5;80m \u001b[48;5;68mt\u001b[48;5;134mi\u001b[48;5;167mk\u001b[48;5;179mt\u001b[48;5;185mo\u001b[48;5;77mk\u001b[48;5;80me\u001b[48;5;68mn\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mc\u001b[48;5;77ml\u001b[48;5;80ma\u001b[48;5;68ms\u001b[48;5;134ms\u001b[48;5;167m \u001b[48;5;179mS\u001b[48;5;185mi\u001b[48;5;77mm\u001b[48;5;80mp\u001b[48;5;68ml\u001b[48;5;134me\u001b[48;5;167mB\u001b[48;5;179my\u001b[48;5;185mt\u001b[48;5;77me\u001b[48;5;80mP\u001b[48;5;68ma\u001b[48;5;134mi\u001b[48;5;167mr\u001b[48;5;179mE\u001b[48;5;185mn\u001b[48;5;77mc\u001b[48;5;80mo\u001b[48;5;68md\u001b[48;5;134min\u001b[48;5;167mg\u001b[48;5;179m:\u001b[48;5;185m\n", + "\u001b[48;5;77m \u001b[48;5;80m \u001b[48;5;68md\u001b[48;5;134me\u001b[48;5;167mf\u001b[48;5;179m \u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80min\u001b[48;5;68mi\u001b[48;5;134mt\u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'\\n' + b' '\n", + "So we made b'\\n ' our 261th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\u001b[48;5;179m\"\u001b[48;5;185m\"\u001b[48;5;77mT\u001b[48;5;80mh\u001b[48;5;68mi\u001b[48;5;134ms\u001b[48;5;167m \u001b[48;5;179mi\u001b[48;5;185ms\u001b[48;5;77m \u001b[48;5;80ma\u001b[48;5;68mn\u001b[48;5;134m \u001b[48;5;167me\u001b[48;5;179md\u001b[48;5;185mu\u001b[48;5;77mc\u001b[48;5;80ma\u001b[48;5;68mt\u001b[48;5;134mi\u001b[48;5;167mo\u001b[48;5;179mn\u001b[48;5;185ma\u001b[48;5;77ml\u001b[48;5;80m \u001b[48;5;68mi\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179ml\u001b[48;5;185me\u001b[48;5;77mm\u001b[48;5;80me\u001b[48;5;68mn\u001b[48;5;134mt\u001b[48;5;167ma\u001b[48;5;179mt\u001b[48;5;185mi\u001b[48;5;77mo\u001b[48;5;80mn\u001b[48;5;68m \u001b[48;5;134mo\u001b[48;5;167mf\u001b[48;5;179m \u001b[48;5;185mt\u001b[48;5;77mh\u001b[48;5;80me\u001b[48;5;68m \u001b[48;5;134mb\u001b[48;5;167my\u001b[48;5;179mt\u001b[48;5;185me\u001b[48;5;77m \u001b[48;5;80mp\u001b[48;5;68ma\u001b[48;5;134mi\u001b[48;5;167mr\u001b[48;5;179m \u001b[48;5;185me\u001b[48;5;77mn\u001b[48;5;80mc\u001b[48;5;68mo\u001b[48;5;134md\u001b[48;5;167min\u001b[48;5;179mg\u001b[48;5;185m \u001b[48;5;77ma\u001b[48;5;80ml\u001b[48;5;68mg\u001b[48;5;134mo\u001b[48;5;167mr\u001b[48;5;179mi\u001b[48;5;185mt\u001b[48;5;77mh\u001b[48;5;80mm\u001b[48;5;68m.\u001b[48;5;134m\"\u001b[48;5;167m\"\u001b[48;5;179m\"\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mr\u001b[48;5;68mo\u001b[48;5;134mm\u001b[48;5;167m \u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77mf\u001b[48;5;80mu\u001b[48;5;68mt\u001b[48;5;134mu\u001b[48;5;167mr\u001b[48;5;179me\u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80m \u001b[48;5;68mi\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179mo\u001b[48;5;185mr\u001b[48;5;77mt\u001b[48;5;80m \u001b[48;5;68ma\u001b[48;5;134mn\u001b[48;5;167mn\u001b[48;5;179mo\u001b[48;5;185mt\u001b[48;5;77ma\u001b[48;5;80mt\u001b[48;5;68mi\u001b[48;5;134mo\u001b[48;5;167mn\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mo\u001b[48;5;179mr\u001b[48;5;185mt\u001b[48;5;77m \u001b[48;5;80mc\u001b[48;5;68mo\u001b[48;5;134ml\u001b[48;5;167ml\u001b[48;5;179me\u001b[48;5;185mc\u001b[48;5;77mt\u001b[48;5;80mi\u001b[48;5;68mo\u001b[48;5;134mn\u001b[48;5;167ms\u001b[48;5;179m\n", + "\u001b[48;5;185mi\u001b[48;5;77mm\u001b[48;5;80mp\u001b[48;5;68mo\u001b[48;5;134mr\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mi\u001b[48;5;77mt\u001b[48;5;80me\u001b[48;5;68mr\u001b[48;5;134mt\u001b[48;5;167mo\u001b[48;5;179mo\u001b[48;5;185ml\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68mf\u001b[48;5;134mr\u001b[48;5;167mo\u001b[48;5;179mm\u001b[48;5;185m \u001b[48;5;77mt\u001b[48;5;80my\u001b[48;5;68mp\u001b[48;5;134min\u001b[48;5;167mg\u001b[48;5;179m \u001b[48;5;185mi\u001b[48;5;77mm\u001b[48;5;80mp\u001b[48;5;68mo\u001b[48;5;134mr\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mO\u001b[48;5;77mp\u001b[48;5;80mt\u001b[48;5;68mi\u001b[48;5;134mo\u001b[48;5;167mn\u001b[48;5;179ma\u001b[48;5;185ml\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mi\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179mo\u001b[48;5;185mr\u001b[48;5;77mt\u001b[48;5;80m \u001b[48;5;68mr\u001b[48;5;134me\u001b[48;5;167mg\u001b[48;5;179me\u001b[48;5;185mx\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mi\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179mo\u001b[48;5;185mr\u001b[48;5;77mt\u001b[48;5;80m \u001b[48;5;68mt\u001b[48;5;134mi\u001b[48;5;167mk\u001b[48;5;179mt\u001b[48;5;185mo\u001b[48;5;77mk\u001b[48;5;80me\u001b[48;5;68mn\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mc\u001b[48;5;77ml\u001b[48;5;80ma\u001b[48;5;68ms\u001b[48;5;134ms\u001b[48;5;167m \u001b[48;5;179mS\u001b[48;5;185mi\u001b[48;5;77mm\u001b[48;5;80mp\u001b[48;5;68ml\u001b[48;5;134me\u001b[48;5;167mB\u001b[48;5;179my\u001b[48;5;185mt\u001b[48;5;77me\u001b[48;5;80mP\u001b[48;5;68ma\u001b[48;5;134mi\u001b[48;5;167mr\u001b[48;5;179mE\u001b[48;5;185mn\u001b[48;5;77mc\u001b[48;5;80mo\u001b[48;5;68md\u001b[48;5;134min\u001b[48;5;167mg\u001b[48;5;179m:\u001b[48;5;185m\n", + "\u001b[48;5;77m \u001b[48;5;80m \u001b[48;5;68md\u001b[48;5;134me\u001b[48;5;167mf\u001b[48;5;179m \u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80min\u001b[48;5;68mi\u001b[48;5;134mt\u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'e' + b'n'\n", + "So we made b'en' our 262th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\u001b[48;5;179m\"\u001b[48;5;185m\"\u001b[48;5;77mT\u001b[48;5;80mh\u001b[48;5;68mi\u001b[48;5;134ms\u001b[48;5;167m \u001b[48;5;179mi\u001b[48;5;185ms\u001b[48;5;77m \u001b[48;5;80ma\u001b[48;5;68mn\u001b[48;5;134m \u001b[48;5;167me\u001b[48;5;179md\u001b[48;5;185mu\u001b[48;5;77mc\u001b[48;5;80ma\u001b[48;5;68mt\u001b[48;5;134mi\u001b[48;5;167mo\u001b[48;5;179mn\u001b[48;5;185ma\u001b[48;5;77ml\u001b[48;5;80m \u001b[48;5;68mi\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179ml\u001b[48;5;185me\u001b[48;5;77mm\u001b[48;5;80men\u001b[48;5;68mt\u001b[48;5;134ma\u001b[48;5;167mt\u001b[48;5;179mi\u001b[48;5;185mo\u001b[48;5;77mn\u001b[48;5;80m \u001b[48;5;68mo\u001b[48;5;134mf\u001b[48;5;167m \u001b[48;5;179mt\u001b[48;5;185mh\u001b[48;5;77me\u001b[48;5;80m \u001b[48;5;68mb\u001b[48;5;134my\u001b[48;5;167mt\u001b[48;5;179me\u001b[48;5;185m \u001b[48;5;77mp\u001b[48;5;80ma\u001b[48;5;68mi\u001b[48;5;134mr\u001b[48;5;167m \u001b[48;5;179men\u001b[48;5;185mc\u001b[48;5;77mo\u001b[48;5;80md\u001b[48;5;68min\u001b[48;5;134mg\u001b[48;5;167m \u001b[48;5;179ma\u001b[48;5;185ml\u001b[48;5;77mg\u001b[48;5;80mo\u001b[48;5;68mr\u001b[48;5;134mi\u001b[48;5;167mt\u001b[48;5;179mh\u001b[48;5;185mm\u001b[48;5;77m.\u001b[48;5;80m\"\u001b[48;5;68m\"\u001b[48;5;134m\"\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mr\u001b[48;5;77mo\u001b[48;5;80mm\u001b[48;5;68m \u001b[48;5;134m_\u001b[48;5;167m_\u001b[48;5;179mf\u001b[48;5;185mu\u001b[48;5;77mt\u001b[48;5;80mu\u001b[48;5;68mr\u001b[48;5;134me\u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185m \u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mo\u001b[48;5;167mr\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77ma\u001b[48;5;80mn\u001b[48;5;68mn\u001b[48;5;134mo\u001b[48;5;167mt\u001b[48;5;179ma\u001b[48;5;185mt\u001b[48;5;77mi\u001b[48;5;80mo\u001b[48;5;68mn\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mi\u001b[48;5;77mm\u001b[48;5;80mp\u001b[48;5;68mo\u001b[48;5;134mr\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mc\u001b[48;5;77mo\u001b[48;5;80ml\u001b[48;5;68ml\u001b[48;5;134me\u001b[48;5;167mc\u001b[48;5;179mt\u001b[48;5;185mi\u001b[48;5;77mo\u001b[48;5;80mn\u001b[48;5;68ms\u001b[48;5;134m\n", + "\u001b[48;5;167mi\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mo\u001b[48;5;80mr\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mi\u001b[48;5;179mt\u001b[48;5;185me\u001b[48;5;77mr\u001b[48;5;80mt\u001b[48;5;68mo\u001b[48;5;134mo\u001b[48;5;167ml\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mr\u001b[48;5;68mo\u001b[48;5;134mm\u001b[48;5;167m \u001b[48;5;179mt\u001b[48;5;185my\u001b[48;5;77mp\u001b[48;5;80min\u001b[48;5;68mg\u001b[48;5;134m \u001b[48;5;167mi\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mo\u001b[48;5;80mr\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mO\u001b[48;5;179mp\u001b[48;5;185mt\u001b[48;5;77mi\u001b[48;5;80mo\u001b[48;5;68mn\u001b[48;5;134ma\u001b[48;5;167ml\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mo\u001b[48;5;167mr\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mr\u001b[48;5;80me\u001b[48;5;68mg\u001b[48;5;134me\u001b[48;5;167mx\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mo\u001b[48;5;167mr\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mt\u001b[48;5;80mi\u001b[48;5;68mk\u001b[48;5;134mt\u001b[48;5;167mo\u001b[48;5;179mk\u001b[48;5;185men\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mc\u001b[48;5;167ml\u001b[48;5;179ma\u001b[48;5;185ms\u001b[48;5;77ms\u001b[48;5;80m \u001b[48;5;68mS\u001b[48;5;134mi\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185ml\u001b[48;5;77me\u001b[48;5;80mB\u001b[48;5;68my\u001b[48;5;134mt\u001b[48;5;167me\u001b[48;5;179mP\u001b[48;5;185ma\u001b[48;5;77mi\u001b[48;5;80mr\u001b[48;5;68mE\u001b[48;5;134mn\u001b[48;5;167mc\u001b[48;5;179mo\u001b[48;5;185md\u001b[48;5;77min\u001b[48;5;80mg\u001b[48;5;68m:\u001b[48;5;134m\n", + "\u001b[48;5;167m \u001b[48;5;179m \u001b[48;5;185md\u001b[48;5;77me\u001b[48;5;80mf\u001b[48;5;68m \u001b[48;5;134m_\u001b[48;5;167m_\u001b[48;5;179min\u001b[48;5;185mi\u001b[48;5;77mt\u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'o' + b'r'\n", + "So we made b'or' our 263th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\u001b[48;5;179m\"\u001b[48;5;185m\"\u001b[48;5;77mT\u001b[48;5;80mh\u001b[48;5;68mi\u001b[48;5;134ms\u001b[48;5;167m \u001b[48;5;179mi\u001b[48;5;185ms\u001b[48;5;77m \u001b[48;5;80ma\u001b[48;5;68mn\u001b[48;5;134m \u001b[48;5;167me\u001b[48;5;179md\u001b[48;5;185mu\u001b[48;5;77mc\u001b[48;5;80ma\u001b[48;5;68mt\u001b[48;5;134mi\u001b[48;5;167mo\u001b[48;5;179mn\u001b[48;5;185ma\u001b[48;5;77ml\u001b[48;5;80m \u001b[48;5;68mi\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179ml\u001b[48;5;185me\u001b[48;5;77mm\u001b[48;5;80men\u001b[48;5;68mt\u001b[48;5;134ma\u001b[48;5;167mt\u001b[48;5;179mi\u001b[48;5;185mo\u001b[48;5;77mn\u001b[48;5;80m \u001b[48;5;68mo\u001b[48;5;134mf\u001b[48;5;167m \u001b[48;5;179mt\u001b[48;5;185mh\u001b[48;5;77me\u001b[48;5;80m \u001b[48;5;68mb\u001b[48;5;134my\u001b[48;5;167mt\u001b[48;5;179me\u001b[48;5;185m \u001b[48;5;77mp\u001b[48;5;80ma\u001b[48;5;68mi\u001b[48;5;134mr\u001b[48;5;167m \u001b[48;5;179men\u001b[48;5;185mc\u001b[48;5;77mo\u001b[48;5;80md\u001b[48;5;68min\u001b[48;5;134mg\u001b[48;5;167m \u001b[48;5;179ma\u001b[48;5;185ml\u001b[48;5;77mg\u001b[48;5;80mor\u001b[48;5;68mi\u001b[48;5;134mt\u001b[48;5;167mh\u001b[48;5;179mm\u001b[48;5;185m.\u001b[48;5;77m\"\u001b[48;5;80m\"\u001b[48;5;68m\"\u001b[48;5;134m\n", + "\u001b[48;5;167mf\u001b[48;5;179mr\u001b[48;5;185mo\u001b[48;5;77mm\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167mf\u001b[48;5;179mu\u001b[48;5;185mt\u001b[48;5;77mu\u001b[48;5;80mr\u001b[48;5;68me\u001b[48;5;134m_\u001b[48;5;167m_\u001b[48;5;179m \u001b[48;5;185mi\u001b[48;5;77mm\u001b[48;5;80mp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m \u001b[48;5;179ma\u001b[48;5;185mn\u001b[48;5;77mn\u001b[48;5;80mo\u001b[48;5;68mt\u001b[48;5;134ma\u001b[48;5;167mt\u001b[48;5;179mi\u001b[48;5;185mo\u001b[48;5;77mn\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mi\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m \u001b[48;5;134mc\u001b[48;5;167mo\u001b[48;5;179ml\u001b[48;5;185ml\u001b[48;5;77me\u001b[48;5;80mc\u001b[48;5;68mt\u001b[48;5;134mi\u001b[48;5;167mo\u001b[48;5;179mn\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mi\u001b[48;5;80mt\u001b[48;5;68me\u001b[48;5;134mr\u001b[48;5;167mt\u001b[48;5;179mo\u001b[48;5;185mo\u001b[48;5;77ml\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mr\u001b[48;5;179mo\u001b[48;5;185mm\u001b[48;5;77m \u001b[48;5;80mt\u001b[48;5;68my\u001b[48;5;134mp\u001b[48;5;167min\u001b[48;5;179mg\u001b[48;5;185m \u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mO\u001b[48;5;77mp\u001b[48;5;80mt\u001b[48;5;68mi\u001b[48;5;134mo\u001b[48;5;167mn\u001b[48;5;179ma\u001b[48;5;185ml\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mi\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m \u001b[48;5;80mr\u001b[48;5;68me\u001b[48;5;134mg\u001b[48;5;167me\u001b[48;5;179mx\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mt\u001b[48;5;80mi\u001b[48;5;68mk\u001b[48;5;134mt\u001b[48;5;167mo\u001b[48;5;179mk\u001b[48;5;185men\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mc\u001b[48;5;167ml\u001b[48;5;179ma\u001b[48;5;185ms\u001b[48;5;77ms\u001b[48;5;80m \u001b[48;5;68mS\u001b[48;5;134mi\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185ml\u001b[48;5;77me\u001b[48;5;80mB\u001b[48;5;68my\u001b[48;5;134mt\u001b[48;5;167me\u001b[48;5;179mP\u001b[48;5;185ma\u001b[48;5;77mi\u001b[48;5;80mr\u001b[48;5;68mE\u001b[48;5;134mn\u001b[48;5;167mc\u001b[48;5;179mo\u001b[48;5;185md\u001b[48;5;77min\u001b[48;5;80mg\u001b[48;5;68m:\u001b[48;5;134m\n", + "\u001b[48;5;167m \u001b[48;5;179m \u001b[48;5;185md\u001b[48;5;77me\u001b[48;5;80mf\u001b[48;5;68m \u001b[48;5;134m_\u001b[48;5;167m_\u001b[48;5;179min\u001b[48;5;185mi\u001b[48;5;77mt\u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' ' + b't'\n", + "So we made b' t' our 264th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\u001b[48;5;179m\"\u001b[48;5;185m\"\u001b[48;5;77mT\u001b[48;5;80mh\u001b[48;5;68mi\u001b[48;5;134ms\u001b[48;5;167m \u001b[48;5;179mi\u001b[48;5;185ms\u001b[48;5;77m \u001b[48;5;80ma\u001b[48;5;68mn\u001b[48;5;134m \u001b[48;5;167me\u001b[48;5;179md\u001b[48;5;185mu\u001b[48;5;77mc\u001b[48;5;80ma\u001b[48;5;68mt\u001b[48;5;134mi\u001b[48;5;167mo\u001b[48;5;179mn\u001b[48;5;185ma\u001b[48;5;77ml\u001b[48;5;80m \u001b[48;5;68mi\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179ml\u001b[48;5;185me\u001b[48;5;77mm\u001b[48;5;80men\u001b[48;5;68mt\u001b[48;5;134ma\u001b[48;5;167mt\u001b[48;5;179mi\u001b[48;5;185mo\u001b[48;5;77mn\u001b[48;5;80m \u001b[48;5;68mo\u001b[48;5;134mf\u001b[48;5;167m t\u001b[48;5;179mh\u001b[48;5;185me\u001b[48;5;77m \u001b[48;5;80mb\u001b[48;5;68my\u001b[48;5;134mt\u001b[48;5;167me\u001b[48;5;179m \u001b[48;5;185mp\u001b[48;5;77ma\u001b[48;5;80mi\u001b[48;5;68mr\u001b[48;5;134m \u001b[48;5;167men\u001b[48;5;179mc\u001b[48;5;185mo\u001b[48;5;77md\u001b[48;5;80min\u001b[48;5;68mg\u001b[48;5;134m \u001b[48;5;167ma\u001b[48;5;179ml\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mi\u001b[48;5;68mt\u001b[48;5;134mh\u001b[48;5;167mm\u001b[48;5;179m.\u001b[48;5;185m\"\u001b[48;5;77m\"\u001b[48;5;80m\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mr\u001b[48;5;179mo\u001b[48;5;185mm\u001b[48;5;77m \u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134mf\u001b[48;5;167mu\u001b[48;5;179mt\u001b[48;5;185mu\u001b[48;5;77mr\u001b[48;5;80me\u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167m \u001b[48;5;179mi\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167ma\u001b[48;5;179mn\u001b[48;5;185mn\u001b[48;5;77mo\u001b[48;5;80mt\u001b[48;5;68ma\u001b[48;5;134mt\u001b[48;5;167mi\u001b[48;5;179mo\u001b[48;5;185mn\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mi\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m \u001b[48;5;68mc\u001b[48;5;134mo\u001b[48;5;167ml\u001b[48;5;179ml\u001b[48;5;185me\u001b[48;5;77mc\u001b[48;5;80mt\u001b[48;5;68mi\u001b[48;5;134mo\u001b[48;5;167mn\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mi\u001b[48;5;77mt\u001b[48;5;80me\u001b[48;5;68mr\u001b[48;5;134mt\u001b[48;5;167mo\u001b[48;5;179mo\u001b[48;5;185ml\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68mf\u001b[48;5;134mr\u001b[48;5;167mo\u001b[48;5;179mm\u001b[48;5;185m t\u001b[48;5;77my\u001b[48;5;80mp\u001b[48;5;68min\u001b[48;5;134mg\u001b[48;5;167m \u001b[48;5;179mi\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mO\u001b[48;5;179mp\u001b[48;5;185mt\u001b[48;5;77mi\u001b[48;5;80mo\u001b[48;5;68mn\u001b[48;5;134ma\u001b[48;5;167ml\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mr\u001b[48;5;77me\u001b[48;5;80mg\u001b[48;5;68me\u001b[48;5;134mx\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mi\u001b[48;5;77mm\u001b[48;5;80mp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m t\u001b[48;5;179mi\u001b[48;5;185mk\u001b[48;5;77mt\u001b[48;5;80mo\u001b[48;5;68mk\u001b[48;5;134men\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mc\u001b[48;5;80ml\u001b[48;5;68ma\u001b[48;5;134ms\u001b[48;5;167ms\u001b[48;5;179m \u001b[48;5;185mS\u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134ml\u001b[48;5;167me\u001b[48;5;179mB\u001b[48;5;185my\u001b[48;5;77mt\u001b[48;5;80me\u001b[48;5;68mP\u001b[48;5;134ma\u001b[48;5;167mi\u001b[48;5;179mr\u001b[48;5;185mE\u001b[48;5;77mn\u001b[48;5;80mc\u001b[48;5;68mo\u001b[48;5;134md\u001b[48;5;167min\u001b[48;5;179mg\u001b[48;5;185m:\u001b[48;5;77m\n", + "\u001b[48;5;80m \u001b[48;5;68m \u001b[48;5;134md\u001b[48;5;167me\u001b[48;5;179mf\u001b[48;5;185m \u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68min\u001b[48;5;134mi\u001b[48;5;167mt\u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'\\n ' + b' '\n", + "So we made b'\\n ' our 265th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\u001b[48;5;179m\"\u001b[48;5;185m\"\u001b[48;5;77mT\u001b[48;5;80mh\u001b[48;5;68mi\u001b[48;5;134ms\u001b[48;5;167m \u001b[48;5;179mi\u001b[48;5;185ms\u001b[48;5;77m \u001b[48;5;80ma\u001b[48;5;68mn\u001b[48;5;134m \u001b[48;5;167me\u001b[48;5;179md\u001b[48;5;185mu\u001b[48;5;77mc\u001b[48;5;80ma\u001b[48;5;68mt\u001b[48;5;134mi\u001b[48;5;167mo\u001b[48;5;179mn\u001b[48;5;185ma\u001b[48;5;77ml\u001b[48;5;80m \u001b[48;5;68mi\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179ml\u001b[48;5;185me\u001b[48;5;77mm\u001b[48;5;80men\u001b[48;5;68mt\u001b[48;5;134ma\u001b[48;5;167mt\u001b[48;5;179mi\u001b[48;5;185mo\u001b[48;5;77mn\u001b[48;5;80m \u001b[48;5;68mo\u001b[48;5;134mf\u001b[48;5;167m t\u001b[48;5;179mh\u001b[48;5;185me\u001b[48;5;77m \u001b[48;5;80mb\u001b[48;5;68my\u001b[48;5;134mt\u001b[48;5;167me\u001b[48;5;179m \u001b[48;5;185mp\u001b[48;5;77ma\u001b[48;5;80mi\u001b[48;5;68mr\u001b[48;5;134m \u001b[48;5;167men\u001b[48;5;179mc\u001b[48;5;185mo\u001b[48;5;77md\u001b[48;5;80min\u001b[48;5;68mg\u001b[48;5;134m \u001b[48;5;167ma\u001b[48;5;179ml\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mi\u001b[48;5;68mt\u001b[48;5;134mh\u001b[48;5;167mm\u001b[48;5;179m.\u001b[48;5;185m\"\u001b[48;5;77m\"\u001b[48;5;80m\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mr\u001b[48;5;179mo\u001b[48;5;185mm\u001b[48;5;77m \u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134mf\u001b[48;5;167mu\u001b[48;5;179mt\u001b[48;5;185mu\u001b[48;5;77mr\u001b[48;5;80me\u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167m \u001b[48;5;179mi\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167ma\u001b[48;5;179mn\u001b[48;5;185mn\u001b[48;5;77mo\u001b[48;5;80mt\u001b[48;5;68ma\u001b[48;5;134mt\u001b[48;5;167mi\u001b[48;5;179mo\u001b[48;5;185mn\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mi\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m \u001b[48;5;68mc\u001b[48;5;134mo\u001b[48;5;167ml\u001b[48;5;179ml\u001b[48;5;185me\u001b[48;5;77mc\u001b[48;5;80mt\u001b[48;5;68mi\u001b[48;5;134mo\u001b[48;5;167mn\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mi\u001b[48;5;77mt\u001b[48;5;80me\u001b[48;5;68mr\u001b[48;5;134mt\u001b[48;5;167mo\u001b[48;5;179mo\u001b[48;5;185ml\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68mf\u001b[48;5;134mr\u001b[48;5;167mo\u001b[48;5;179mm\u001b[48;5;185m t\u001b[48;5;77my\u001b[48;5;80mp\u001b[48;5;68min\u001b[48;5;134mg\u001b[48;5;167m \u001b[48;5;179mi\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mO\u001b[48;5;179mp\u001b[48;5;185mt\u001b[48;5;77mi\u001b[48;5;80mo\u001b[48;5;68mn\u001b[48;5;134ma\u001b[48;5;167ml\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mr\u001b[48;5;77me\u001b[48;5;80mg\u001b[48;5;68me\u001b[48;5;134mx\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mi\u001b[48;5;77mm\u001b[48;5;80mp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m t\u001b[48;5;179mi\u001b[48;5;185mk\u001b[48;5;77mt\u001b[48;5;80mo\u001b[48;5;68mk\u001b[48;5;134men\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mc\u001b[48;5;80ml\u001b[48;5;68ma\u001b[48;5;134ms\u001b[48;5;167ms\u001b[48;5;179m \u001b[48;5;185mS\u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134ml\u001b[48;5;167me\u001b[48;5;179mB\u001b[48;5;185my\u001b[48;5;77mt\u001b[48;5;80me\u001b[48;5;68mP\u001b[48;5;134ma\u001b[48;5;167mi\u001b[48;5;179mr\u001b[48;5;185mE\u001b[48;5;77mn\u001b[48;5;80mc\u001b[48;5;68mo\u001b[48;5;134md\u001b[48;5;167min\u001b[48;5;179mg\u001b[48;5;185m:\u001b[48;5;77m\n", + "\u001b[48;5;80m \u001b[48;5;68m \u001b[48;5;134md\u001b[48;5;167me\u001b[48;5;179mf\u001b[48;5;185m \u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68min\u001b[48;5;134mi\u001b[48;5;167mt\u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'c' + b'o'\n", + "So we made b'co' our 266th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\u001b[48;5;179m\"\u001b[48;5;185m\"\u001b[48;5;77mT\u001b[48;5;80mh\u001b[48;5;68mi\u001b[48;5;134ms\u001b[48;5;167m \u001b[48;5;179mi\u001b[48;5;185ms\u001b[48;5;77m \u001b[48;5;80ma\u001b[48;5;68mn\u001b[48;5;134m \u001b[48;5;167me\u001b[48;5;179md\u001b[48;5;185mu\u001b[48;5;77mc\u001b[48;5;80ma\u001b[48;5;68mt\u001b[48;5;134mi\u001b[48;5;167mo\u001b[48;5;179mn\u001b[48;5;185ma\u001b[48;5;77ml\u001b[48;5;80m \u001b[48;5;68mi\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179ml\u001b[48;5;185me\u001b[48;5;77mm\u001b[48;5;80men\u001b[48;5;68mt\u001b[48;5;134ma\u001b[48;5;167mt\u001b[48;5;179mi\u001b[48;5;185mo\u001b[48;5;77mn\u001b[48;5;80m \u001b[48;5;68mo\u001b[48;5;134mf\u001b[48;5;167m t\u001b[48;5;179mh\u001b[48;5;185me\u001b[48;5;77m \u001b[48;5;80mb\u001b[48;5;68my\u001b[48;5;134mt\u001b[48;5;167me\u001b[48;5;179m \u001b[48;5;185mp\u001b[48;5;77ma\u001b[48;5;80mi\u001b[48;5;68mr\u001b[48;5;134m \u001b[48;5;167men\u001b[48;5;179mco\u001b[48;5;185md\u001b[48;5;77min\u001b[48;5;80mg\u001b[48;5;68m \u001b[48;5;134ma\u001b[48;5;167ml\u001b[48;5;179mg\u001b[48;5;185mor\u001b[48;5;77mi\u001b[48;5;80mt\u001b[48;5;68mh\u001b[48;5;134mm\u001b[48;5;167m.\u001b[48;5;179m\"\u001b[48;5;185m\"\u001b[48;5;77m\"\u001b[48;5;80m\n", + "\u001b[48;5;68mf\u001b[48;5;134mr\u001b[48;5;167mo\u001b[48;5;179mm\u001b[48;5;185m \u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68mf\u001b[48;5;134mu\u001b[48;5;167mt\u001b[48;5;179mu\u001b[48;5;185mr\u001b[48;5;77me\u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134m \u001b[48;5;167mi\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m \u001b[48;5;134ma\u001b[48;5;167mn\u001b[48;5;179mn\u001b[48;5;185mo\u001b[48;5;77mt\u001b[48;5;80ma\u001b[48;5;68mt\u001b[48;5;134mi\u001b[48;5;167mo\u001b[48;5;179mn\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mi\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m \u001b[48;5;80mco\u001b[48;5;68ml\u001b[48;5;134ml\u001b[48;5;167me\u001b[48;5;179mc\u001b[48;5;185mt\u001b[48;5;77mi\u001b[48;5;80mo\u001b[48;5;68mn\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mi\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mi\u001b[48;5;179mt\u001b[48;5;185me\u001b[48;5;77mr\u001b[48;5;80mt\u001b[48;5;68mo\u001b[48;5;134mo\u001b[48;5;167ml\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mr\u001b[48;5;68mo\u001b[48;5;134mm\u001b[48;5;167m t\u001b[48;5;179my\u001b[48;5;185mp\u001b[48;5;77min\u001b[48;5;80mg\u001b[48;5;68m \u001b[48;5;134mi\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m \u001b[48;5;68mO\u001b[48;5;134mp\u001b[48;5;167mt\u001b[48;5;179mi\u001b[48;5;185mo\u001b[48;5;77mn\u001b[48;5;80ma\u001b[48;5;68ml\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mi\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mr\u001b[48;5;179me\u001b[48;5;185mg\u001b[48;5;77me\u001b[48;5;80mx\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mi\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m t\u001b[48;5;134mi\u001b[48;5;167mk\u001b[48;5;179mt\u001b[48;5;185mo\u001b[48;5;77mk\u001b[48;5;80men\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mc\u001b[48;5;185ml\u001b[48;5;77ma\u001b[48;5;80ms\u001b[48;5;68ms\u001b[48;5;134m \u001b[48;5;167mS\u001b[48;5;179mi\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80ml\u001b[48;5;68me\u001b[48;5;134mB\u001b[48;5;167my\u001b[48;5;179mt\u001b[48;5;185me\u001b[48;5;77mP\u001b[48;5;80ma\u001b[48;5;68mi\u001b[48;5;134mr\u001b[48;5;167mE\u001b[48;5;179mn\u001b[48;5;185mco\u001b[48;5;77md\u001b[48;5;80min\u001b[48;5;68mg\u001b[48;5;134m:\u001b[48;5;167m\n", + "\u001b[48;5;179m \u001b[48;5;185m \u001b[48;5;77md\u001b[48;5;80me\u001b[48;5;68mf\u001b[48;5;134m \u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185min\u001b[48;5;77mi\u001b[48;5;80mt\u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b's' + b't'\n", + "So we made b'st' our 267th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\u001b[48;5;179m\"\u001b[48;5;185m\"\u001b[48;5;77mT\u001b[48;5;80mh\u001b[48;5;68mi\u001b[48;5;134ms\u001b[48;5;167m \u001b[48;5;179mi\u001b[48;5;185ms\u001b[48;5;77m \u001b[48;5;80ma\u001b[48;5;68mn\u001b[48;5;134m \u001b[48;5;167me\u001b[48;5;179md\u001b[48;5;185mu\u001b[48;5;77mc\u001b[48;5;80ma\u001b[48;5;68mt\u001b[48;5;134mi\u001b[48;5;167mo\u001b[48;5;179mn\u001b[48;5;185ma\u001b[48;5;77ml\u001b[48;5;80m \u001b[48;5;68mi\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179ml\u001b[48;5;185me\u001b[48;5;77mm\u001b[48;5;80men\u001b[48;5;68mt\u001b[48;5;134ma\u001b[48;5;167mt\u001b[48;5;179mi\u001b[48;5;185mo\u001b[48;5;77mn\u001b[48;5;80m \u001b[48;5;68mo\u001b[48;5;134mf\u001b[48;5;167m t\u001b[48;5;179mh\u001b[48;5;185me\u001b[48;5;77m \u001b[48;5;80mb\u001b[48;5;68my\u001b[48;5;134mt\u001b[48;5;167me\u001b[48;5;179m \u001b[48;5;185mp\u001b[48;5;77ma\u001b[48;5;80mi\u001b[48;5;68mr\u001b[48;5;134m \u001b[48;5;167men\u001b[48;5;179mco\u001b[48;5;185md\u001b[48;5;77min\u001b[48;5;80mg\u001b[48;5;68m \u001b[48;5;134ma\u001b[48;5;167ml\u001b[48;5;179mg\u001b[48;5;185mor\u001b[48;5;77mi\u001b[48;5;80mt\u001b[48;5;68mh\u001b[48;5;134mm\u001b[48;5;167m.\u001b[48;5;179m\"\u001b[48;5;185m\"\u001b[48;5;77m\"\u001b[48;5;80m\n", + "\u001b[48;5;68mf\u001b[48;5;134mr\u001b[48;5;167mo\u001b[48;5;179mm\u001b[48;5;185m \u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68mf\u001b[48;5;134mu\u001b[48;5;167mt\u001b[48;5;179mu\u001b[48;5;185mr\u001b[48;5;77me\u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134m \u001b[48;5;167mi\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m \u001b[48;5;134ma\u001b[48;5;167mn\u001b[48;5;179mn\u001b[48;5;185mo\u001b[48;5;77mt\u001b[48;5;80ma\u001b[48;5;68mt\u001b[48;5;134mi\u001b[48;5;167mo\u001b[48;5;179mn\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mi\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m \u001b[48;5;80mco\u001b[48;5;68ml\u001b[48;5;134ml\u001b[48;5;167me\u001b[48;5;179mc\u001b[48;5;185mt\u001b[48;5;77mi\u001b[48;5;80mo\u001b[48;5;68mn\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mi\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mi\u001b[48;5;179mt\u001b[48;5;185me\u001b[48;5;77mr\u001b[48;5;80mt\u001b[48;5;68mo\u001b[48;5;134mo\u001b[48;5;167ml\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mr\u001b[48;5;68mo\u001b[48;5;134mm\u001b[48;5;167m t\u001b[48;5;179my\u001b[48;5;185mp\u001b[48;5;77min\u001b[48;5;80mg\u001b[48;5;68m \u001b[48;5;134mi\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m \u001b[48;5;68mO\u001b[48;5;134mp\u001b[48;5;167mt\u001b[48;5;179mi\u001b[48;5;185mo\u001b[48;5;77mn\u001b[48;5;80ma\u001b[48;5;68ml\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mi\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mr\u001b[48;5;179me\u001b[48;5;185mg\u001b[48;5;77me\u001b[48;5;80mx\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mi\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m t\u001b[48;5;134mi\u001b[48;5;167mk\u001b[48;5;179mt\u001b[48;5;185mo\u001b[48;5;77mk\u001b[48;5;80men\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mc\u001b[48;5;185ml\u001b[48;5;77ma\u001b[48;5;80ms\u001b[48;5;68ms\u001b[48;5;134m \u001b[48;5;167mS\u001b[48;5;179mi\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80ml\u001b[48;5;68me\u001b[48;5;134mB\u001b[48;5;167my\u001b[48;5;179mt\u001b[48;5;185me\u001b[48;5;77mP\u001b[48;5;80ma\u001b[48;5;68mi\u001b[48;5;134mr\u001b[48;5;167mE\u001b[48;5;179mn\u001b[48;5;185mco\u001b[48;5;77md\u001b[48;5;80min\u001b[48;5;68mg\u001b[48;5;134m:\u001b[48;5;167m\n", + "\u001b[48;5;179m \u001b[48;5;185m \u001b[48;5;77md\u001b[48;5;80me\u001b[48;5;68mf\u001b[48;5;134m \u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185min\u001b[48;5;77mi\u001b[48;5;80mt\u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b't' + b'e'\n", + "So we made b'te' our 268th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\u001b[48;5;179m\"\u001b[48;5;185m\"\u001b[48;5;77mT\u001b[48;5;80mh\u001b[48;5;68mi\u001b[48;5;134ms\u001b[48;5;167m \u001b[48;5;179mi\u001b[48;5;185ms\u001b[48;5;77m \u001b[48;5;80ma\u001b[48;5;68mn\u001b[48;5;134m \u001b[48;5;167me\u001b[48;5;179md\u001b[48;5;185mu\u001b[48;5;77mc\u001b[48;5;80ma\u001b[48;5;68mt\u001b[48;5;134mi\u001b[48;5;167mo\u001b[48;5;179mn\u001b[48;5;185ma\u001b[48;5;77ml\u001b[48;5;80m \u001b[48;5;68mi\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179ml\u001b[48;5;185me\u001b[48;5;77mm\u001b[48;5;80men\u001b[48;5;68mt\u001b[48;5;134ma\u001b[48;5;167mt\u001b[48;5;179mi\u001b[48;5;185mo\u001b[48;5;77mn\u001b[48;5;80m \u001b[48;5;68mo\u001b[48;5;134mf\u001b[48;5;167m t\u001b[48;5;179mh\u001b[48;5;185me\u001b[48;5;77m \u001b[48;5;80mb\u001b[48;5;68my\u001b[48;5;134mte\u001b[48;5;167m \u001b[48;5;179mp\u001b[48;5;185ma\u001b[48;5;77mi\u001b[48;5;80mr\u001b[48;5;68m \u001b[48;5;134men\u001b[48;5;167mco\u001b[48;5;179md\u001b[48;5;185min\u001b[48;5;77mg\u001b[48;5;80m \u001b[48;5;68ma\u001b[48;5;134ml\u001b[48;5;167mg\u001b[48;5;179mor\u001b[48;5;185mi\u001b[48;5;77mt\u001b[48;5;80mh\u001b[48;5;68mm\u001b[48;5;134m.\u001b[48;5;167m\"\u001b[48;5;179m\"\u001b[48;5;185m\"\u001b[48;5;77m\n", + "\u001b[48;5;80mf\u001b[48;5;68mr\u001b[48;5;134mo\u001b[48;5;167mm\u001b[48;5;179m \u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80mf\u001b[48;5;68mu\u001b[48;5;134mt\u001b[48;5;167mu\u001b[48;5;179mr\u001b[48;5;185me\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m \u001b[48;5;134mi\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m \u001b[48;5;68ma\u001b[48;5;134mn\u001b[48;5;167mn\u001b[48;5;179mo\u001b[48;5;185mt\u001b[48;5;77ma\u001b[48;5;80mt\u001b[48;5;68mi\u001b[48;5;134mo\u001b[48;5;167mn\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mco\u001b[48;5;80ml\u001b[48;5;68ml\u001b[48;5;134me\u001b[48;5;167mc\u001b[48;5;179mt\u001b[48;5;185mi\u001b[48;5;77mo\u001b[48;5;80mn\u001b[48;5;68ms\u001b[48;5;134m\n", + "\u001b[48;5;167mi\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m \u001b[48;5;134mi\u001b[48;5;167mte\u001b[48;5;179mr\u001b[48;5;185mt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mr\u001b[48;5;77mo\u001b[48;5;80mm\u001b[48;5;68m t\u001b[48;5;134my\u001b[48;5;167mp\u001b[48;5;179min\u001b[48;5;185mg\u001b[48;5;77m \u001b[48;5;80mi\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mO\u001b[48;5;80mp\u001b[48;5;68mt\u001b[48;5;134mi\u001b[48;5;167mo\u001b[48;5;179mn\u001b[48;5;185ma\u001b[48;5;77ml\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mi\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m \u001b[48;5;68mr\u001b[48;5;134me\u001b[48;5;167mg\u001b[48;5;179me\u001b[48;5;185mx\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mi\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m t\u001b[48;5;80mi\u001b[48;5;68mk\u001b[48;5;134mt\u001b[48;5;167mo\u001b[48;5;179mk\u001b[48;5;185men\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mc\u001b[48;5;167ml\u001b[48;5;179ma\u001b[48;5;185ms\u001b[48;5;77ms\u001b[48;5;80m \u001b[48;5;68mS\u001b[48;5;134mi\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185ml\u001b[48;5;77me\u001b[48;5;80mB\u001b[48;5;68my\u001b[48;5;134mte\u001b[48;5;167mP\u001b[48;5;179ma\u001b[48;5;185mi\u001b[48;5;77mr\u001b[48;5;80mE\u001b[48;5;68mn\u001b[48;5;134mco\u001b[48;5;167md\u001b[48;5;179min\u001b[48;5;185mg\u001b[48;5;77m:\u001b[48;5;80m\n", + "\u001b[48;5;68m \u001b[48;5;134m \u001b[48;5;167md\u001b[48;5;179me\u001b[48;5;185mf\u001b[48;5;77m \u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134min\u001b[48;5;167mi\u001b[48;5;179mt\u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'd' + b'e'\n", + "So we made b'de' our 269th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\u001b[48;5;179m\"\u001b[48;5;185m\"\u001b[48;5;77mT\u001b[48;5;80mh\u001b[48;5;68mi\u001b[48;5;134ms\u001b[48;5;167m \u001b[48;5;179mi\u001b[48;5;185ms\u001b[48;5;77m \u001b[48;5;80ma\u001b[48;5;68mn\u001b[48;5;134m \u001b[48;5;167me\u001b[48;5;179md\u001b[48;5;185mu\u001b[48;5;77mc\u001b[48;5;80ma\u001b[48;5;68mt\u001b[48;5;134mi\u001b[48;5;167mo\u001b[48;5;179mn\u001b[48;5;185ma\u001b[48;5;77ml\u001b[48;5;80m \u001b[48;5;68mi\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179ml\u001b[48;5;185me\u001b[48;5;77mm\u001b[48;5;80men\u001b[48;5;68mt\u001b[48;5;134ma\u001b[48;5;167mt\u001b[48;5;179mi\u001b[48;5;185mo\u001b[48;5;77mn\u001b[48;5;80m \u001b[48;5;68mo\u001b[48;5;134mf\u001b[48;5;167m t\u001b[48;5;179mh\u001b[48;5;185me\u001b[48;5;77m \u001b[48;5;80mb\u001b[48;5;68my\u001b[48;5;134mte\u001b[48;5;167m \u001b[48;5;179mp\u001b[48;5;185ma\u001b[48;5;77mi\u001b[48;5;80mr\u001b[48;5;68m \u001b[48;5;134men\u001b[48;5;167mco\u001b[48;5;179md\u001b[48;5;185min\u001b[48;5;77mg\u001b[48;5;80m \u001b[48;5;68ma\u001b[48;5;134ml\u001b[48;5;167mg\u001b[48;5;179mor\u001b[48;5;185mi\u001b[48;5;77mt\u001b[48;5;80mh\u001b[48;5;68mm\u001b[48;5;134m.\u001b[48;5;167m\"\u001b[48;5;179m\"\u001b[48;5;185m\"\u001b[48;5;77m\n", + "\u001b[48;5;80mf\u001b[48;5;68mr\u001b[48;5;134mo\u001b[48;5;167mm\u001b[48;5;179m \u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80mf\u001b[48;5;68mu\u001b[48;5;134mt\u001b[48;5;167mu\u001b[48;5;179mr\u001b[48;5;185me\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m \u001b[48;5;134mi\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m \u001b[48;5;68ma\u001b[48;5;134mn\u001b[48;5;167mn\u001b[48;5;179mo\u001b[48;5;185mt\u001b[48;5;77ma\u001b[48;5;80mt\u001b[48;5;68mi\u001b[48;5;134mo\u001b[48;5;167mn\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mco\u001b[48;5;80ml\u001b[48;5;68ml\u001b[48;5;134me\u001b[48;5;167mc\u001b[48;5;179mt\u001b[48;5;185mi\u001b[48;5;77mo\u001b[48;5;80mn\u001b[48;5;68ms\u001b[48;5;134m\n", + "\u001b[48;5;167mi\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m \u001b[48;5;134mi\u001b[48;5;167mte\u001b[48;5;179mr\u001b[48;5;185mt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mr\u001b[48;5;77mo\u001b[48;5;80mm\u001b[48;5;68m t\u001b[48;5;134my\u001b[48;5;167mp\u001b[48;5;179min\u001b[48;5;185mg\u001b[48;5;77m \u001b[48;5;80mi\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mO\u001b[48;5;80mp\u001b[48;5;68mt\u001b[48;5;134mi\u001b[48;5;167mo\u001b[48;5;179mn\u001b[48;5;185ma\u001b[48;5;77ml\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mi\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m \u001b[48;5;68mr\u001b[48;5;134me\u001b[48;5;167mg\u001b[48;5;179me\u001b[48;5;185mx\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mi\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m t\u001b[48;5;80mi\u001b[48;5;68mk\u001b[48;5;134mt\u001b[48;5;167mo\u001b[48;5;179mk\u001b[48;5;185men\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mc\u001b[48;5;167ml\u001b[48;5;179ma\u001b[48;5;185ms\u001b[48;5;77ms\u001b[48;5;80m \u001b[48;5;68mS\u001b[48;5;134mi\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185ml\u001b[48;5;77me\u001b[48;5;80mB\u001b[48;5;68my\u001b[48;5;134mte\u001b[48;5;167mP\u001b[48;5;179ma\u001b[48;5;185mi\u001b[48;5;77mr\u001b[48;5;80mE\u001b[48;5;68mn\u001b[48;5;134mco\u001b[48;5;167md\u001b[48;5;179min\u001b[48;5;185mg\u001b[48;5;77m:\u001b[48;5;80m\n", + "\u001b[48;5;68m \u001b[48;5;134m \u001b[48;5;167mde\u001b[48;5;179mf\u001b[48;5;185m \u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68min\u001b[48;5;134mi\u001b[48;5;167mt\u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'o' + b'k'\n", + "So we made b'ok' our 270th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\u001b[48;5;179m\"\u001b[48;5;185m\"\u001b[48;5;77mT\u001b[48;5;80mh\u001b[48;5;68mi\u001b[48;5;134ms\u001b[48;5;167m \u001b[48;5;179mi\u001b[48;5;185ms\u001b[48;5;77m \u001b[48;5;80ma\u001b[48;5;68mn\u001b[48;5;134m \u001b[48;5;167me\u001b[48;5;179md\u001b[48;5;185mu\u001b[48;5;77mc\u001b[48;5;80ma\u001b[48;5;68mt\u001b[48;5;134mi\u001b[48;5;167mo\u001b[48;5;179mn\u001b[48;5;185ma\u001b[48;5;77ml\u001b[48;5;80m \u001b[48;5;68mi\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179ml\u001b[48;5;185me\u001b[48;5;77mm\u001b[48;5;80men\u001b[48;5;68mt\u001b[48;5;134ma\u001b[48;5;167mt\u001b[48;5;179mi\u001b[48;5;185mo\u001b[48;5;77mn\u001b[48;5;80m \u001b[48;5;68mo\u001b[48;5;134mf\u001b[48;5;167m t\u001b[48;5;179mh\u001b[48;5;185me\u001b[48;5;77m \u001b[48;5;80mb\u001b[48;5;68my\u001b[48;5;134mte\u001b[48;5;167m \u001b[48;5;179mp\u001b[48;5;185ma\u001b[48;5;77mi\u001b[48;5;80mr\u001b[48;5;68m \u001b[48;5;134men\u001b[48;5;167mco\u001b[48;5;179md\u001b[48;5;185min\u001b[48;5;77mg\u001b[48;5;80m \u001b[48;5;68ma\u001b[48;5;134ml\u001b[48;5;167mg\u001b[48;5;179mor\u001b[48;5;185mi\u001b[48;5;77mt\u001b[48;5;80mh\u001b[48;5;68mm\u001b[48;5;134m.\u001b[48;5;167m\"\u001b[48;5;179m\"\u001b[48;5;185m\"\u001b[48;5;77m\n", + "\u001b[48;5;80mf\u001b[48;5;68mr\u001b[48;5;134mo\u001b[48;5;167mm\u001b[48;5;179m \u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80mf\u001b[48;5;68mu\u001b[48;5;134mt\u001b[48;5;167mu\u001b[48;5;179mr\u001b[48;5;185me\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m \u001b[48;5;134mi\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m \u001b[48;5;68ma\u001b[48;5;134mn\u001b[48;5;167mn\u001b[48;5;179mo\u001b[48;5;185mt\u001b[48;5;77ma\u001b[48;5;80mt\u001b[48;5;68mi\u001b[48;5;134mo\u001b[48;5;167mn\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mco\u001b[48;5;80ml\u001b[48;5;68ml\u001b[48;5;134me\u001b[48;5;167mc\u001b[48;5;179mt\u001b[48;5;185mi\u001b[48;5;77mo\u001b[48;5;80mn\u001b[48;5;68ms\u001b[48;5;134m\n", + "\u001b[48;5;167mi\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m \u001b[48;5;134mi\u001b[48;5;167mte\u001b[48;5;179mr\u001b[48;5;185mt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mr\u001b[48;5;77mo\u001b[48;5;80mm\u001b[48;5;68m t\u001b[48;5;134my\u001b[48;5;167mp\u001b[48;5;179min\u001b[48;5;185mg\u001b[48;5;77m \u001b[48;5;80mi\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mO\u001b[48;5;80mp\u001b[48;5;68mt\u001b[48;5;134mi\u001b[48;5;167mo\u001b[48;5;179mn\u001b[48;5;185ma\u001b[48;5;77ml\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mi\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m \u001b[48;5;68mr\u001b[48;5;134me\u001b[48;5;167mg\u001b[48;5;179me\u001b[48;5;185mx\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mi\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m t\u001b[48;5;80mi\u001b[48;5;68mk\u001b[48;5;134mt\u001b[48;5;167mok\u001b[48;5;179men\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mc\u001b[48;5;134ml\u001b[48;5;167ma\u001b[48;5;179ms\u001b[48;5;185ms\u001b[48;5;77m \u001b[48;5;80mS\u001b[48;5;68mi\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179ml\u001b[48;5;185me\u001b[48;5;77mB\u001b[48;5;80my\u001b[48;5;68mte\u001b[48;5;134mP\u001b[48;5;167ma\u001b[48;5;179mi\u001b[48;5;185mr\u001b[48;5;77mE\u001b[48;5;80mn\u001b[48;5;68mco\u001b[48;5;134md\u001b[48;5;167min\u001b[48;5;179mg\u001b[48;5;185m:\u001b[48;5;77m\n", + "\u001b[48;5;80m \u001b[48;5;68m \u001b[48;5;134mde\u001b[48;5;167mf\u001b[48;5;179m \u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80min\u001b[48;5;68mi\u001b[48;5;134mt\u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'ok' + b'en'\n", + "So we made b'oken' our 271th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\u001b[48;5;179m\"\u001b[48;5;185m\"\u001b[48;5;77mT\u001b[48;5;80mh\u001b[48;5;68mi\u001b[48;5;134ms\u001b[48;5;167m \u001b[48;5;179mi\u001b[48;5;185ms\u001b[48;5;77m \u001b[48;5;80ma\u001b[48;5;68mn\u001b[48;5;134m \u001b[48;5;167me\u001b[48;5;179md\u001b[48;5;185mu\u001b[48;5;77mc\u001b[48;5;80ma\u001b[48;5;68mt\u001b[48;5;134mi\u001b[48;5;167mo\u001b[48;5;179mn\u001b[48;5;185ma\u001b[48;5;77ml\u001b[48;5;80m \u001b[48;5;68mi\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179ml\u001b[48;5;185me\u001b[48;5;77mm\u001b[48;5;80men\u001b[48;5;68mt\u001b[48;5;134ma\u001b[48;5;167mt\u001b[48;5;179mi\u001b[48;5;185mo\u001b[48;5;77mn\u001b[48;5;80m \u001b[48;5;68mo\u001b[48;5;134mf\u001b[48;5;167m t\u001b[48;5;179mh\u001b[48;5;185me\u001b[48;5;77m \u001b[48;5;80mb\u001b[48;5;68my\u001b[48;5;134mte\u001b[48;5;167m \u001b[48;5;179mp\u001b[48;5;185ma\u001b[48;5;77mi\u001b[48;5;80mr\u001b[48;5;68m \u001b[48;5;134men\u001b[48;5;167mco\u001b[48;5;179md\u001b[48;5;185min\u001b[48;5;77mg\u001b[48;5;80m \u001b[48;5;68ma\u001b[48;5;134ml\u001b[48;5;167mg\u001b[48;5;179mor\u001b[48;5;185mi\u001b[48;5;77mt\u001b[48;5;80mh\u001b[48;5;68mm\u001b[48;5;134m.\u001b[48;5;167m\"\u001b[48;5;179m\"\u001b[48;5;185m\"\u001b[48;5;77m\n", + "\u001b[48;5;80mf\u001b[48;5;68mr\u001b[48;5;134mo\u001b[48;5;167mm\u001b[48;5;179m \u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80mf\u001b[48;5;68mu\u001b[48;5;134mt\u001b[48;5;167mu\u001b[48;5;179mr\u001b[48;5;185me\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m \u001b[48;5;134mi\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m \u001b[48;5;68ma\u001b[48;5;134mn\u001b[48;5;167mn\u001b[48;5;179mo\u001b[48;5;185mt\u001b[48;5;77ma\u001b[48;5;80mt\u001b[48;5;68mi\u001b[48;5;134mo\u001b[48;5;167mn\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mco\u001b[48;5;80ml\u001b[48;5;68ml\u001b[48;5;134me\u001b[48;5;167mc\u001b[48;5;179mt\u001b[48;5;185mi\u001b[48;5;77mo\u001b[48;5;80mn\u001b[48;5;68ms\u001b[48;5;134m\n", + "\u001b[48;5;167mi\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m \u001b[48;5;134mi\u001b[48;5;167mte\u001b[48;5;179mr\u001b[48;5;185mt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mr\u001b[48;5;77mo\u001b[48;5;80mm\u001b[48;5;68m t\u001b[48;5;134my\u001b[48;5;167mp\u001b[48;5;179min\u001b[48;5;185mg\u001b[48;5;77m \u001b[48;5;80mi\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mO\u001b[48;5;80mp\u001b[48;5;68mt\u001b[48;5;134mi\u001b[48;5;167mo\u001b[48;5;179mn\u001b[48;5;185ma\u001b[48;5;77ml\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mi\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m \u001b[48;5;68mr\u001b[48;5;134me\u001b[48;5;167mg\u001b[48;5;179me\u001b[48;5;185mx\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mi\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m t\u001b[48;5;80mi\u001b[48;5;68mk\u001b[48;5;134mt\u001b[48;5;167moken\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mc\u001b[48;5;68ml\u001b[48;5;134ma\u001b[48;5;167ms\u001b[48;5;179ms\u001b[48;5;185m \u001b[48;5;77mS\u001b[48;5;80mi\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167ml\u001b[48;5;179me\u001b[48;5;185mB\u001b[48;5;77my\u001b[48;5;80mte\u001b[48;5;68mP\u001b[48;5;134ma\u001b[48;5;167mi\u001b[48;5;179mr\u001b[48;5;185mE\u001b[48;5;77mn\u001b[48;5;80mco\u001b[48;5;68md\u001b[48;5;134min\u001b[48;5;167mg\u001b[48;5;179m:\u001b[48;5;185m\n", + "\u001b[48;5;77m \u001b[48;5;80m \u001b[48;5;68mde\u001b[48;5;134mf\u001b[48;5;167m \u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77min\u001b[48;5;80mi\u001b[48;5;68mt\u001b[48;5;134m_\u001b[48;5;167m_\u001b[48;5;179m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'p' + b'a'\n", + "So we made b'pa' our 272th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\u001b[48;5;179m\"\u001b[48;5;185m\"\u001b[48;5;77mT\u001b[48;5;80mh\u001b[48;5;68mi\u001b[48;5;134ms\u001b[48;5;167m \u001b[48;5;179mi\u001b[48;5;185ms\u001b[48;5;77m \u001b[48;5;80ma\u001b[48;5;68mn\u001b[48;5;134m \u001b[48;5;167me\u001b[48;5;179md\u001b[48;5;185mu\u001b[48;5;77mc\u001b[48;5;80ma\u001b[48;5;68mt\u001b[48;5;134mi\u001b[48;5;167mo\u001b[48;5;179mn\u001b[48;5;185ma\u001b[48;5;77ml\u001b[48;5;80m \u001b[48;5;68mi\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179ml\u001b[48;5;185me\u001b[48;5;77mm\u001b[48;5;80men\u001b[48;5;68mt\u001b[48;5;134ma\u001b[48;5;167mt\u001b[48;5;179mi\u001b[48;5;185mo\u001b[48;5;77mn\u001b[48;5;80m \u001b[48;5;68mo\u001b[48;5;134mf\u001b[48;5;167m t\u001b[48;5;179mh\u001b[48;5;185me\u001b[48;5;77m \u001b[48;5;80mb\u001b[48;5;68my\u001b[48;5;134mte\u001b[48;5;167m \u001b[48;5;179mpa\u001b[48;5;185mi\u001b[48;5;77mr\u001b[48;5;80m \u001b[48;5;68men\u001b[48;5;134mco\u001b[48;5;167md\u001b[48;5;179min\u001b[48;5;185mg\u001b[48;5;77m \u001b[48;5;80ma\u001b[48;5;68ml\u001b[48;5;134mg\u001b[48;5;167mor\u001b[48;5;179mi\u001b[48;5;185mt\u001b[48;5;77mh\u001b[48;5;80mm\u001b[48;5;68m.\u001b[48;5;134m\"\u001b[48;5;167m\"\u001b[48;5;179m\"\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mr\u001b[48;5;68mo\u001b[48;5;134mm\u001b[48;5;167m \u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77mf\u001b[48;5;80mu\u001b[48;5;68mt\u001b[48;5;134mu\u001b[48;5;167mr\u001b[48;5;179me\u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80m \u001b[48;5;68mi\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m \u001b[48;5;80ma\u001b[48;5;68mn\u001b[48;5;134mn\u001b[48;5;167mo\u001b[48;5;179mt\u001b[48;5;185ma\u001b[48;5;77mt\u001b[48;5;80mi\u001b[48;5;68mo\u001b[48;5;134mn\u001b[48;5;167ms\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mco\u001b[48;5;77ml\u001b[48;5;80ml\u001b[48;5;68me\u001b[48;5;134mc\u001b[48;5;167mt\u001b[48;5;179mi\u001b[48;5;185mo\u001b[48;5;77mn\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mi\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m \u001b[48;5;68mi\u001b[48;5;134mte\u001b[48;5;167mr\u001b[48;5;179mt\u001b[48;5;185mo\u001b[48;5;77mo\u001b[48;5;80ml\u001b[48;5;68ms\u001b[48;5;134m\n", + "\u001b[48;5;167mf\u001b[48;5;179mr\u001b[48;5;185mo\u001b[48;5;77mm\u001b[48;5;80m t\u001b[48;5;68my\u001b[48;5;134mp\u001b[48;5;167min\u001b[48;5;179mg\u001b[48;5;185m \u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mO\u001b[48;5;77mp\u001b[48;5;80mt\u001b[48;5;68mi\u001b[48;5;134mo\u001b[48;5;167mn\u001b[48;5;179ma\u001b[48;5;185ml\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mi\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m \u001b[48;5;80mr\u001b[48;5;68me\u001b[48;5;134mg\u001b[48;5;167me\u001b[48;5;179mx\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m t\u001b[48;5;77mi\u001b[48;5;80mk\u001b[48;5;68mt\u001b[48;5;134moken\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mc\u001b[48;5;80ml\u001b[48;5;68ma\u001b[48;5;134ms\u001b[48;5;167ms\u001b[48;5;179m \u001b[48;5;185mS\u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134ml\u001b[48;5;167me\u001b[48;5;179mB\u001b[48;5;185my\u001b[48;5;77mte\u001b[48;5;80mP\u001b[48;5;68ma\u001b[48;5;134mi\u001b[48;5;167mr\u001b[48;5;179mE\u001b[48;5;185mn\u001b[48;5;77mco\u001b[48;5;80md\u001b[48;5;68min\u001b[48;5;134mg\u001b[48;5;167m:\u001b[48;5;179m\n", + "\u001b[48;5;185m \u001b[48;5;77m \u001b[48;5;80mde\u001b[48;5;68mf\u001b[48;5;134m \u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185min\u001b[48;5;77mi\u001b[48;5;80mt\u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' ' + b'w'\n", + "So we made b' w' our 273th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\u001b[48;5;179m\"\u001b[48;5;185m\"\u001b[48;5;77mT\u001b[48;5;80mh\u001b[48;5;68mi\u001b[48;5;134ms\u001b[48;5;167m \u001b[48;5;179mi\u001b[48;5;185ms\u001b[48;5;77m \u001b[48;5;80ma\u001b[48;5;68mn\u001b[48;5;134m \u001b[48;5;167me\u001b[48;5;179md\u001b[48;5;185mu\u001b[48;5;77mc\u001b[48;5;80ma\u001b[48;5;68mt\u001b[48;5;134mi\u001b[48;5;167mo\u001b[48;5;179mn\u001b[48;5;185ma\u001b[48;5;77ml\u001b[48;5;80m \u001b[48;5;68mi\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179ml\u001b[48;5;185me\u001b[48;5;77mm\u001b[48;5;80men\u001b[48;5;68mt\u001b[48;5;134ma\u001b[48;5;167mt\u001b[48;5;179mi\u001b[48;5;185mo\u001b[48;5;77mn\u001b[48;5;80m \u001b[48;5;68mo\u001b[48;5;134mf\u001b[48;5;167m t\u001b[48;5;179mh\u001b[48;5;185me\u001b[48;5;77m \u001b[48;5;80mb\u001b[48;5;68my\u001b[48;5;134mte\u001b[48;5;167m \u001b[48;5;179mpa\u001b[48;5;185mi\u001b[48;5;77mr\u001b[48;5;80m \u001b[48;5;68men\u001b[48;5;134mco\u001b[48;5;167md\u001b[48;5;179min\u001b[48;5;185mg\u001b[48;5;77m \u001b[48;5;80ma\u001b[48;5;68ml\u001b[48;5;134mg\u001b[48;5;167mor\u001b[48;5;179mi\u001b[48;5;185mt\u001b[48;5;77mh\u001b[48;5;80mm\u001b[48;5;68m.\u001b[48;5;134m\"\u001b[48;5;167m\"\u001b[48;5;179m\"\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mr\u001b[48;5;68mo\u001b[48;5;134mm\u001b[48;5;167m \u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77mf\u001b[48;5;80mu\u001b[48;5;68mt\u001b[48;5;134mu\u001b[48;5;167mr\u001b[48;5;179me\u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80m \u001b[48;5;68mi\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m \u001b[48;5;80ma\u001b[48;5;68mn\u001b[48;5;134mn\u001b[48;5;167mo\u001b[48;5;179mt\u001b[48;5;185ma\u001b[48;5;77mt\u001b[48;5;80mi\u001b[48;5;68mo\u001b[48;5;134mn\u001b[48;5;167ms\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mco\u001b[48;5;77ml\u001b[48;5;80ml\u001b[48;5;68me\u001b[48;5;134mc\u001b[48;5;167mt\u001b[48;5;179mi\u001b[48;5;185mo\u001b[48;5;77mn\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mi\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m \u001b[48;5;68mi\u001b[48;5;134mte\u001b[48;5;167mr\u001b[48;5;179mt\u001b[48;5;185mo\u001b[48;5;77mo\u001b[48;5;80ml\u001b[48;5;68ms\u001b[48;5;134m\n", + "\u001b[48;5;167mf\u001b[48;5;179mr\u001b[48;5;185mo\u001b[48;5;77mm\u001b[48;5;80m t\u001b[48;5;68my\u001b[48;5;134mp\u001b[48;5;167min\u001b[48;5;179mg\u001b[48;5;185m \u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mO\u001b[48;5;77mp\u001b[48;5;80mt\u001b[48;5;68mi\u001b[48;5;134mo\u001b[48;5;167mn\u001b[48;5;179ma\u001b[48;5;185ml\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mi\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m \u001b[48;5;80mr\u001b[48;5;68me\u001b[48;5;134mg\u001b[48;5;167me\u001b[48;5;179mx\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m t\u001b[48;5;77mi\u001b[48;5;80mk\u001b[48;5;68mt\u001b[48;5;134moken\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mc\u001b[48;5;80ml\u001b[48;5;68ma\u001b[48;5;134ms\u001b[48;5;167ms\u001b[48;5;179m \u001b[48;5;185mS\u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134ml\u001b[48;5;167me\u001b[48;5;179mB\u001b[48;5;185my\u001b[48;5;77mte\u001b[48;5;80mP\u001b[48;5;68ma\u001b[48;5;134mi\u001b[48;5;167mr\u001b[48;5;179mE\u001b[48;5;185mn\u001b[48;5;77mco\u001b[48;5;80md\u001b[48;5;68min\u001b[48;5;134mg\u001b[48;5;167m:\u001b[48;5;179m\n", + "\u001b[48;5;185m \u001b[48;5;77m \u001b[48;5;80mde\u001b[48;5;68mf\u001b[48;5;134m \u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185min\u001b[48;5;77mi\u001b[48;5;80mt\u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'i' + b's'\n", + "So we made b'is' our 274th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\u001b[48;5;179m\"\u001b[48;5;185m\"\u001b[48;5;77mT\u001b[48;5;80mh\u001b[48;5;68mis\u001b[48;5;134m \u001b[48;5;167mis\u001b[48;5;179m \u001b[48;5;185ma\u001b[48;5;77mn\u001b[48;5;80m \u001b[48;5;68me\u001b[48;5;134md\u001b[48;5;167mu\u001b[48;5;179mc\u001b[48;5;185ma\u001b[48;5;77mt\u001b[48;5;80mi\u001b[48;5;68mo\u001b[48;5;134mn\u001b[48;5;167ma\u001b[48;5;179ml\u001b[48;5;185m \u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134ml\u001b[48;5;167me\u001b[48;5;179mm\u001b[48;5;185men\u001b[48;5;77mt\u001b[48;5;80ma\u001b[48;5;68mt\u001b[48;5;134mi\u001b[48;5;167mo\u001b[48;5;179mn\u001b[48;5;185m \u001b[48;5;77mo\u001b[48;5;80mf\u001b[48;5;68m t\u001b[48;5;134mh\u001b[48;5;167me\u001b[48;5;179m \u001b[48;5;185mb\u001b[48;5;77my\u001b[48;5;80mte\u001b[48;5;68m \u001b[48;5;134mpa\u001b[48;5;167mi\u001b[48;5;179mr\u001b[48;5;185m \u001b[48;5;77men\u001b[48;5;80mco\u001b[48;5;68md\u001b[48;5;134min\u001b[48;5;167mg\u001b[48;5;179m \u001b[48;5;185ma\u001b[48;5;77ml\u001b[48;5;80mg\u001b[48;5;68mor\u001b[48;5;134mi\u001b[48;5;167mt\u001b[48;5;179mh\u001b[48;5;185mm\u001b[48;5;77m.\u001b[48;5;80m\"\u001b[48;5;68m\"\u001b[48;5;134m\"\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mr\u001b[48;5;77mo\u001b[48;5;80mm\u001b[48;5;68m \u001b[48;5;134m_\u001b[48;5;167m_\u001b[48;5;179mf\u001b[48;5;185mu\u001b[48;5;77mt\u001b[48;5;80mu\u001b[48;5;68mr\u001b[48;5;134me\u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185m \u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185ma\u001b[48;5;77mn\u001b[48;5;80mn\u001b[48;5;68mo\u001b[48;5;134mt\u001b[48;5;167ma\u001b[48;5;179mt\u001b[48;5;185mi\u001b[48;5;77mo\u001b[48;5;80mn\u001b[48;5;68ms\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mi\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mco\u001b[48;5;179ml\u001b[48;5;185ml\u001b[48;5;77me\u001b[48;5;80mc\u001b[48;5;68mt\u001b[48;5;134mi\u001b[48;5;167mo\u001b[48;5;179mn\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mi\u001b[48;5;80mte\u001b[48;5;68mr\u001b[48;5;134mt\u001b[48;5;167mo\u001b[48;5;179mo\u001b[48;5;185ml\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68mf\u001b[48;5;134mr\u001b[48;5;167mo\u001b[48;5;179mm\u001b[48;5;185m t\u001b[48;5;77my\u001b[48;5;80mp\u001b[48;5;68min\u001b[48;5;134mg\u001b[48;5;167m \u001b[48;5;179mi\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mO\u001b[48;5;179mp\u001b[48;5;185mt\u001b[48;5;77mi\u001b[48;5;80mo\u001b[48;5;68mn\u001b[48;5;134ma\u001b[48;5;167ml\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mr\u001b[48;5;77me\u001b[48;5;80mg\u001b[48;5;68me\u001b[48;5;134mx\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mi\u001b[48;5;77mm\u001b[48;5;80mp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m t\u001b[48;5;179mi\u001b[48;5;185mk\u001b[48;5;77mt\u001b[48;5;80moken\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mc\u001b[48;5;185ml\u001b[48;5;77ma\u001b[48;5;80ms\u001b[48;5;68ms\u001b[48;5;134m \u001b[48;5;167mS\u001b[48;5;179mi\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80ml\u001b[48;5;68me\u001b[48;5;134mB\u001b[48;5;167my\u001b[48;5;179mte\u001b[48;5;185mP\u001b[48;5;77ma\u001b[48;5;80mi\u001b[48;5;68mr\u001b[48;5;134mE\u001b[48;5;167mn\u001b[48;5;179mco\u001b[48;5;185md\u001b[48;5;77min\u001b[48;5;80mg\u001b[48;5;68m:\u001b[48;5;134m\n", + "\u001b[48;5;167m \u001b[48;5;179m \u001b[48;5;185mde\u001b[48;5;77mf\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167min\u001b[48;5;179mi\u001b[48;5;185mt\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'r' + b'a'\n", + "So we made b'ra' our 275th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\u001b[48;5;179m\"\u001b[48;5;185m\"\u001b[48;5;77mT\u001b[48;5;80mh\u001b[48;5;68mis\u001b[48;5;134m \u001b[48;5;167mis\u001b[48;5;179m \u001b[48;5;185ma\u001b[48;5;77mn\u001b[48;5;80m \u001b[48;5;68me\u001b[48;5;134md\u001b[48;5;167mu\u001b[48;5;179mc\u001b[48;5;185ma\u001b[48;5;77mt\u001b[48;5;80mi\u001b[48;5;68mo\u001b[48;5;134mn\u001b[48;5;167ma\u001b[48;5;179ml\u001b[48;5;185m \u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134ml\u001b[48;5;167me\u001b[48;5;179mm\u001b[48;5;185men\u001b[48;5;77mt\u001b[48;5;80ma\u001b[48;5;68mt\u001b[48;5;134mi\u001b[48;5;167mo\u001b[48;5;179mn\u001b[48;5;185m \u001b[48;5;77mo\u001b[48;5;80mf\u001b[48;5;68m t\u001b[48;5;134mh\u001b[48;5;167me\u001b[48;5;179m \u001b[48;5;185mb\u001b[48;5;77my\u001b[48;5;80mte\u001b[48;5;68m \u001b[48;5;134mpa\u001b[48;5;167mi\u001b[48;5;179mr\u001b[48;5;185m \u001b[48;5;77men\u001b[48;5;80mco\u001b[48;5;68md\u001b[48;5;134min\u001b[48;5;167mg\u001b[48;5;179m \u001b[48;5;185ma\u001b[48;5;77ml\u001b[48;5;80mg\u001b[48;5;68mor\u001b[48;5;134mi\u001b[48;5;167mt\u001b[48;5;179mh\u001b[48;5;185mm\u001b[48;5;77m.\u001b[48;5;80m\"\u001b[48;5;68m\"\u001b[48;5;134m\"\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mr\u001b[48;5;77mo\u001b[48;5;80mm\u001b[48;5;68m \u001b[48;5;134m_\u001b[48;5;167m_\u001b[48;5;179mf\u001b[48;5;185mu\u001b[48;5;77mt\u001b[48;5;80mu\u001b[48;5;68mr\u001b[48;5;134me\u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185m \u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185ma\u001b[48;5;77mn\u001b[48;5;80mn\u001b[48;5;68mo\u001b[48;5;134mt\u001b[48;5;167ma\u001b[48;5;179mt\u001b[48;5;185mi\u001b[48;5;77mo\u001b[48;5;80mn\u001b[48;5;68ms\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mi\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mco\u001b[48;5;179ml\u001b[48;5;185ml\u001b[48;5;77me\u001b[48;5;80mc\u001b[48;5;68mt\u001b[48;5;134mi\u001b[48;5;167mo\u001b[48;5;179mn\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mi\u001b[48;5;80mte\u001b[48;5;68mr\u001b[48;5;134mt\u001b[48;5;167mo\u001b[48;5;179mo\u001b[48;5;185ml\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68mf\u001b[48;5;134mr\u001b[48;5;167mo\u001b[48;5;179mm\u001b[48;5;185m t\u001b[48;5;77my\u001b[48;5;80mp\u001b[48;5;68min\u001b[48;5;134mg\u001b[48;5;167m \u001b[48;5;179mi\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mO\u001b[48;5;179mp\u001b[48;5;185mt\u001b[48;5;77mi\u001b[48;5;80mo\u001b[48;5;68mn\u001b[48;5;134ma\u001b[48;5;167ml\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mr\u001b[48;5;77me\u001b[48;5;80mg\u001b[48;5;68me\u001b[48;5;134mx\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mi\u001b[48;5;77mm\u001b[48;5;80mp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m t\u001b[48;5;179mi\u001b[48;5;185mk\u001b[48;5;77mt\u001b[48;5;80moken\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mc\u001b[48;5;185ml\u001b[48;5;77ma\u001b[48;5;80ms\u001b[48;5;68ms\u001b[48;5;134m \u001b[48;5;167mS\u001b[48;5;179mi\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80ml\u001b[48;5;68me\u001b[48;5;134mB\u001b[48;5;167my\u001b[48;5;179mte\u001b[48;5;185mP\u001b[48;5;77ma\u001b[48;5;80mi\u001b[48;5;68mr\u001b[48;5;134mE\u001b[48;5;167mn\u001b[48;5;179mco\u001b[48;5;185md\u001b[48;5;77min\u001b[48;5;80mg\u001b[48;5;68m:\u001b[48;5;134m\n", + "\u001b[48;5;167m \u001b[48;5;179m \u001b[48;5;185mde\u001b[48;5;77mf\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167min\u001b[48;5;179mi\u001b[48;5;185mt\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' ' + b'='\n", + "So we made b' =' our 276th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\u001b[48;5;179m\"\u001b[48;5;185m\"\u001b[48;5;77mT\u001b[48;5;80mh\u001b[48;5;68mis\u001b[48;5;134m \u001b[48;5;167mis\u001b[48;5;179m \u001b[48;5;185ma\u001b[48;5;77mn\u001b[48;5;80m \u001b[48;5;68me\u001b[48;5;134md\u001b[48;5;167mu\u001b[48;5;179mc\u001b[48;5;185ma\u001b[48;5;77mt\u001b[48;5;80mi\u001b[48;5;68mo\u001b[48;5;134mn\u001b[48;5;167ma\u001b[48;5;179ml\u001b[48;5;185m \u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134ml\u001b[48;5;167me\u001b[48;5;179mm\u001b[48;5;185men\u001b[48;5;77mt\u001b[48;5;80ma\u001b[48;5;68mt\u001b[48;5;134mi\u001b[48;5;167mo\u001b[48;5;179mn\u001b[48;5;185m \u001b[48;5;77mo\u001b[48;5;80mf\u001b[48;5;68m t\u001b[48;5;134mh\u001b[48;5;167me\u001b[48;5;179m \u001b[48;5;185mb\u001b[48;5;77my\u001b[48;5;80mte\u001b[48;5;68m \u001b[48;5;134mpa\u001b[48;5;167mi\u001b[48;5;179mr\u001b[48;5;185m \u001b[48;5;77men\u001b[48;5;80mco\u001b[48;5;68md\u001b[48;5;134min\u001b[48;5;167mg\u001b[48;5;179m \u001b[48;5;185ma\u001b[48;5;77ml\u001b[48;5;80mg\u001b[48;5;68mor\u001b[48;5;134mi\u001b[48;5;167mt\u001b[48;5;179mh\u001b[48;5;185mm\u001b[48;5;77m.\u001b[48;5;80m\"\u001b[48;5;68m\"\u001b[48;5;134m\"\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mr\u001b[48;5;77mo\u001b[48;5;80mm\u001b[48;5;68m \u001b[48;5;134m_\u001b[48;5;167m_\u001b[48;5;179mf\u001b[48;5;185mu\u001b[48;5;77mt\u001b[48;5;80mu\u001b[48;5;68mr\u001b[48;5;134me\u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185m \u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185ma\u001b[48;5;77mn\u001b[48;5;80mn\u001b[48;5;68mo\u001b[48;5;134mt\u001b[48;5;167ma\u001b[48;5;179mt\u001b[48;5;185mi\u001b[48;5;77mo\u001b[48;5;80mn\u001b[48;5;68ms\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mi\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mco\u001b[48;5;179ml\u001b[48;5;185ml\u001b[48;5;77me\u001b[48;5;80mc\u001b[48;5;68mt\u001b[48;5;134mi\u001b[48;5;167mo\u001b[48;5;179mn\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mi\u001b[48;5;80mte\u001b[48;5;68mr\u001b[48;5;134mt\u001b[48;5;167mo\u001b[48;5;179mo\u001b[48;5;185ml\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68mf\u001b[48;5;134mr\u001b[48;5;167mo\u001b[48;5;179mm\u001b[48;5;185m t\u001b[48;5;77my\u001b[48;5;80mp\u001b[48;5;68min\u001b[48;5;134mg\u001b[48;5;167m \u001b[48;5;179mi\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mO\u001b[48;5;179mp\u001b[48;5;185mt\u001b[48;5;77mi\u001b[48;5;80mo\u001b[48;5;68mn\u001b[48;5;134ma\u001b[48;5;167ml\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mr\u001b[48;5;77me\u001b[48;5;80mg\u001b[48;5;68me\u001b[48;5;134mx\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mi\u001b[48;5;77mm\u001b[48;5;80mp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m t\u001b[48;5;179mi\u001b[48;5;185mk\u001b[48;5;77mt\u001b[48;5;80moken\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mc\u001b[48;5;185ml\u001b[48;5;77ma\u001b[48;5;80ms\u001b[48;5;68ms\u001b[48;5;134m \u001b[48;5;167mS\u001b[48;5;179mi\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80ml\u001b[48;5;68me\u001b[48;5;134mB\u001b[48;5;167my\u001b[48;5;179mte\u001b[48;5;185mP\u001b[48;5;77ma\u001b[48;5;80mi\u001b[48;5;68mr\u001b[48;5;134mE\u001b[48;5;167mn\u001b[48;5;179mco\u001b[48;5;185md\u001b[48;5;77min\u001b[48;5;80mg\u001b[48;5;68m:\u001b[48;5;134m\n", + "\u001b[48;5;167m \u001b[48;5;179m \u001b[48;5;185mde\u001b[48;5;77mf\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167min\u001b[48;5;179mi\u001b[48;5;185mt\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'\\n' + b' '\n", + "So we made b'\\n ' our 277th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\u001b[48;5;179m\"\u001b[48;5;185m\"\u001b[48;5;77mT\u001b[48;5;80mh\u001b[48;5;68mis\u001b[48;5;134m \u001b[48;5;167mis\u001b[48;5;179m \u001b[48;5;185ma\u001b[48;5;77mn\u001b[48;5;80m \u001b[48;5;68me\u001b[48;5;134md\u001b[48;5;167mu\u001b[48;5;179mc\u001b[48;5;185ma\u001b[48;5;77mt\u001b[48;5;80mi\u001b[48;5;68mo\u001b[48;5;134mn\u001b[48;5;167ma\u001b[48;5;179ml\u001b[48;5;185m \u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134ml\u001b[48;5;167me\u001b[48;5;179mm\u001b[48;5;185men\u001b[48;5;77mt\u001b[48;5;80ma\u001b[48;5;68mt\u001b[48;5;134mi\u001b[48;5;167mo\u001b[48;5;179mn\u001b[48;5;185m \u001b[48;5;77mo\u001b[48;5;80mf\u001b[48;5;68m t\u001b[48;5;134mh\u001b[48;5;167me\u001b[48;5;179m \u001b[48;5;185mb\u001b[48;5;77my\u001b[48;5;80mte\u001b[48;5;68m \u001b[48;5;134mpa\u001b[48;5;167mi\u001b[48;5;179mr\u001b[48;5;185m \u001b[48;5;77men\u001b[48;5;80mco\u001b[48;5;68md\u001b[48;5;134min\u001b[48;5;167mg\u001b[48;5;179m \u001b[48;5;185ma\u001b[48;5;77ml\u001b[48;5;80mg\u001b[48;5;68mor\u001b[48;5;134mi\u001b[48;5;167mt\u001b[48;5;179mh\u001b[48;5;185mm\u001b[48;5;77m.\u001b[48;5;80m\"\u001b[48;5;68m\"\u001b[48;5;134m\"\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mr\u001b[48;5;77mo\u001b[48;5;80mm\u001b[48;5;68m \u001b[48;5;134m_\u001b[48;5;167m_\u001b[48;5;179mf\u001b[48;5;185mu\u001b[48;5;77mt\u001b[48;5;80mu\u001b[48;5;68mr\u001b[48;5;134me\u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185m \u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185ma\u001b[48;5;77mn\u001b[48;5;80mn\u001b[48;5;68mo\u001b[48;5;134mt\u001b[48;5;167ma\u001b[48;5;179mt\u001b[48;5;185mi\u001b[48;5;77mo\u001b[48;5;80mn\u001b[48;5;68ms\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mi\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mco\u001b[48;5;179ml\u001b[48;5;185ml\u001b[48;5;77me\u001b[48;5;80mc\u001b[48;5;68mt\u001b[48;5;134mi\u001b[48;5;167mo\u001b[48;5;179mn\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mi\u001b[48;5;80mte\u001b[48;5;68mr\u001b[48;5;134mt\u001b[48;5;167mo\u001b[48;5;179mo\u001b[48;5;185ml\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68mf\u001b[48;5;134mr\u001b[48;5;167mo\u001b[48;5;179mm\u001b[48;5;185m t\u001b[48;5;77my\u001b[48;5;80mp\u001b[48;5;68min\u001b[48;5;134mg\u001b[48;5;167m \u001b[48;5;179mi\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mO\u001b[48;5;179mp\u001b[48;5;185mt\u001b[48;5;77mi\u001b[48;5;80mo\u001b[48;5;68mn\u001b[48;5;134ma\u001b[48;5;167ml\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mr\u001b[48;5;77me\u001b[48;5;80mg\u001b[48;5;68me\u001b[48;5;134mx\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mi\u001b[48;5;77mm\u001b[48;5;80mp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m t\u001b[48;5;179mi\u001b[48;5;185mk\u001b[48;5;77mt\u001b[48;5;80moken\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mc\u001b[48;5;185ml\u001b[48;5;77ma\u001b[48;5;80ms\u001b[48;5;68ms\u001b[48;5;134m \u001b[48;5;167mS\u001b[48;5;179mi\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80ml\u001b[48;5;68me\u001b[48;5;134mB\u001b[48;5;167my\u001b[48;5;179mte\u001b[48;5;185mP\u001b[48;5;77ma\u001b[48;5;80mi\u001b[48;5;68mr\u001b[48;5;134mE\u001b[48;5;167mn\u001b[48;5;179mco\u001b[48;5;185md\u001b[48;5;77min\u001b[48;5;80mg\u001b[48;5;68m:\u001b[48;5;134m\n", + " \u001b[48;5;167m \u001b[48;5;179mde\u001b[48;5;185mf\u001b[48;5;77m \u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134min\u001b[48;5;167mi\u001b[48;5;179mt\u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' ' + b'in'\n", + "So we made b' in' our 278th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\u001b[48;5;179m\"\u001b[48;5;185m\"\u001b[48;5;77mT\u001b[48;5;80mh\u001b[48;5;68mis\u001b[48;5;134m \u001b[48;5;167mis\u001b[48;5;179m \u001b[48;5;185ma\u001b[48;5;77mn\u001b[48;5;80m \u001b[48;5;68me\u001b[48;5;134md\u001b[48;5;167mu\u001b[48;5;179mc\u001b[48;5;185ma\u001b[48;5;77mt\u001b[48;5;80mi\u001b[48;5;68mo\u001b[48;5;134mn\u001b[48;5;167ma\u001b[48;5;179ml\u001b[48;5;185m \u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134ml\u001b[48;5;167me\u001b[48;5;179mm\u001b[48;5;185men\u001b[48;5;77mt\u001b[48;5;80ma\u001b[48;5;68mt\u001b[48;5;134mi\u001b[48;5;167mo\u001b[48;5;179mn\u001b[48;5;185m \u001b[48;5;77mo\u001b[48;5;80mf\u001b[48;5;68m t\u001b[48;5;134mh\u001b[48;5;167me\u001b[48;5;179m \u001b[48;5;185mb\u001b[48;5;77my\u001b[48;5;80mte\u001b[48;5;68m \u001b[48;5;134mpa\u001b[48;5;167mi\u001b[48;5;179mr\u001b[48;5;185m \u001b[48;5;77men\u001b[48;5;80mco\u001b[48;5;68md\u001b[48;5;134min\u001b[48;5;167mg\u001b[48;5;179m \u001b[48;5;185ma\u001b[48;5;77ml\u001b[48;5;80mg\u001b[48;5;68mor\u001b[48;5;134mi\u001b[48;5;167mt\u001b[48;5;179mh\u001b[48;5;185mm\u001b[48;5;77m.\u001b[48;5;80m\"\u001b[48;5;68m\"\u001b[48;5;134m\"\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mr\u001b[48;5;77mo\u001b[48;5;80mm\u001b[48;5;68m \u001b[48;5;134m_\u001b[48;5;167m_\u001b[48;5;179mf\u001b[48;5;185mu\u001b[48;5;77mt\u001b[48;5;80mu\u001b[48;5;68mr\u001b[48;5;134me\u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185m \u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185ma\u001b[48;5;77mn\u001b[48;5;80mn\u001b[48;5;68mo\u001b[48;5;134mt\u001b[48;5;167ma\u001b[48;5;179mt\u001b[48;5;185mi\u001b[48;5;77mo\u001b[48;5;80mn\u001b[48;5;68ms\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mi\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mco\u001b[48;5;179ml\u001b[48;5;185ml\u001b[48;5;77me\u001b[48;5;80mc\u001b[48;5;68mt\u001b[48;5;134mi\u001b[48;5;167mo\u001b[48;5;179mn\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mi\u001b[48;5;80mte\u001b[48;5;68mr\u001b[48;5;134mt\u001b[48;5;167mo\u001b[48;5;179mo\u001b[48;5;185ml\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68mf\u001b[48;5;134mr\u001b[48;5;167mo\u001b[48;5;179mm\u001b[48;5;185m t\u001b[48;5;77my\u001b[48;5;80mp\u001b[48;5;68min\u001b[48;5;134mg\u001b[48;5;167m \u001b[48;5;179mi\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mO\u001b[48;5;179mp\u001b[48;5;185mt\u001b[48;5;77mi\u001b[48;5;80mo\u001b[48;5;68mn\u001b[48;5;134ma\u001b[48;5;167ml\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mr\u001b[48;5;77me\u001b[48;5;80mg\u001b[48;5;68me\u001b[48;5;134mx\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mi\u001b[48;5;77mm\u001b[48;5;80mp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m t\u001b[48;5;179mi\u001b[48;5;185mk\u001b[48;5;77mt\u001b[48;5;80moken\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mc\u001b[48;5;185ml\u001b[48;5;77ma\u001b[48;5;80ms\u001b[48;5;68ms\u001b[48;5;134m \u001b[48;5;167mS\u001b[48;5;179mi\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80ml\u001b[48;5;68me\u001b[48;5;134mB\u001b[48;5;167my\u001b[48;5;179mte\u001b[48;5;185mP\u001b[48;5;77ma\u001b[48;5;80mi\u001b[48;5;68mr\u001b[48;5;134mE\u001b[48;5;167mn\u001b[48;5;179mco\u001b[48;5;185md\u001b[48;5;77min\u001b[48;5;80mg\u001b[48;5;68m:\u001b[48;5;134m\n", + " \u001b[48;5;167m \u001b[48;5;179mde\u001b[48;5;185mf\u001b[48;5;77m \u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134min\u001b[48;5;167mi\u001b[48;5;179mt\u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'or' + b'd'\n", + "So we made b'ord' our 279th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\u001b[48;5;179m\"\u001b[48;5;185m\"\u001b[48;5;77mT\u001b[48;5;80mh\u001b[48;5;68mis\u001b[48;5;134m \u001b[48;5;167mis\u001b[48;5;179m \u001b[48;5;185ma\u001b[48;5;77mn\u001b[48;5;80m \u001b[48;5;68me\u001b[48;5;134md\u001b[48;5;167mu\u001b[48;5;179mc\u001b[48;5;185ma\u001b[48;5;77mt\u001b[48;5;80mi\u001b[48;5;68mo\u001b[48;5;134mn\u001b[48;5;167ma\u001b[48;5;179ml\u001b[48;5;185m \u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134ml\u001b[48;5;167me\u001b[48;5;179mm\u001b[48;5;185men\u001b[48;5;77mt\u001b[48;5;80ma\u001b[48;5;68mt\u001b[48;5;134mi\u001b[48;5;167mo\u001b[48;5;179mn\u001b[48;5;185m \u001b[48;5;77mo\u001b[48;5;80mf\u001b[48;5;68m t\u001b[48;5;134mh\u001b[48;5;167me\u001b[48;5;179m \u001b[48;5;185mb\u001b[48;5;77my\u001b[48;5;80mte\u001b[48;5;68m \u001b[48;5;134mpa\u001b[48;5;167mi\u001b[48;5;179mr\u001b[48;5;185m \u001b[48;5;77men\u001b[48;5;80mco\u001b[48;5;68md\u001b[48;5;134min\u001b[48;5;167mg\u001b[48;5;179m \u001b[48;5;185ma\u001b[48;5;77ml\u001b[48;5;80mg\u001b[48;5;68mor\u001b[48;5;134mi\u001b[48;5;167mt\u001b[48;5;179mh\u001b[48;5;185mm\u001b[48;5;77m.\u001b[48;5;80m\"\u001b[48;5;68m\"\u001b[48;5;134m\"\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mr\u001b[48;5;77mo\u001b[48;5;80mm\u001b[48;5;68m \u001b[48;5;134m_\u001b[48;5;167m_\u001b[48;5;179mf\u001b[48;5;185mu\u001b[48;5;77mt\u001b[48;5;80mu\u001b[48;5;68mr\u001b[48;5;134me\u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185m \u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185ma\u001b[48;5;77mn\u001b[48;5;80mn\u001b[48;5;68mo\u001b[48;5;134mt\u001b[48;5;167ma\u001b[48;5;179mt\u001b[48;5;185mi\u001b[48;5;77mo\u001b[48;5;80mn\u001b[48;5;68ms\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mi\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mco\u001b[48;5;179ml\u001b[48;5;185ml\u001b[48;5;77me\u001b[48;5;80mc\u001b[48;5;68mt\u001b[48;5;134mi\u001b[48;5;167mo\u001b[48;5;179mn\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mi\u001b[48;5;80mte\u001b[48;5;68mr\u001b[48;5;134mt\u001b[48;5;167mo\u001b[48;5;179mo\u001b[48;5;185ml\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68mf\u001b[48;5;134mr\u001b[48;5;167mo\u001b[48;5;179mm\u001b[48;5;185m t\u001b[48;5;77my\u001b[48;5;80mp\u001b[48;5;68min\u001b[48;5;134mg\u001b[48;5;167m \u001b[48;5;179mi\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mO\u001b[48;5;179mp\u001b[48;5;185mt\u001b[48;5;77mi\u001b[48;5;80mo\u001b[48;5;68mn\u001b[48;5;134ma\u001b[48;5;167ml\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mr\u001b[48;5;77me\u001b[48;5;80mg\u001b[48;5;68me\u001b[48;5;134mx\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mi\u001b[48;5;77mm\u001b[48;5;80mp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m t\u001b[48;5;179mi\u001b[48;5;185mk\u001b[48;5;77mt\u001b[48;5;80moken\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mc\u001b[48;5;185ml\u001b[48;5;77ma\u001b[48;5;80ms\u001b[48;5;68ms\u001b[48;5;134m \u001b[48;5;167mS\u001b[48;5;179mi\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80ml\u001b[48;5;68me\u001b[48;5;134mB\u001b[48;5;167my\u001b[48;5;179mte\u001b[48;5;185mP\u001b[48;5;77ma\u001b[48;5;80mi\u001b[48;5;68mr\u001b[48;5;134mE\u001b[48;5;167mn\u001b[48;5;179mco\u001b[48;5;185md\u001b[48;5;77min\u001b[48;5;80mg\u001b[48;5;68m:\u001b[48;5;134m\n", + " \u001b[48;5;167m \u001b[48;5;179mde\u001b[48;5;185mf\u001b[48;5;77m \u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134min\u001b[48;5;167mi\u001b[48;5;179mt\u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'y' + b'te'\n", + "So we made b'yte' our 280th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\u001b[48;5;179m\"\u001b[48;5;185m\"\u001b[48;5;77mT\u001b[48;5;80mh\u001b[48;5;68mis\u001b[48;5;134m \u001b[48;5;167mis\u001b[48;5;179m \u001b[48;5;185ma\u001b[48;5;77mn\u001b[48;5;80m \u001b[48;5;68me\u001b[48;5;134md\u001b[48;5;167mu\u001b[48;5;179mc\u001b[48;5;185ma\u001b[48;5;77mt\u001b[48;5;80mi\u001b[48;5;68mo\u001b[48;5;134mn\u001b[48;5;167ma\u001b[48;5;179ml\u001b[48;5;185m \u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134ml\u001b[48;5;167me\u001b[48;5;179mm\u001b[48;5;185men\u001b[48;5;77mt\u001b[48;5;80ma\u001b[48;5;68mt\u001b[48;5;134mi\u001b[48;5;167mo\u001b[48;5;179mn\u001b[48;5;185m \u001b[48;5;77mo\u001b[48;5;80mf\u001b[48;5;68m t\u001b[48;5;134mh\u001b[48;5;167me\u001b[48;5;179m \u001b[48;5;185mb\u001b[48;5;77myte\u001b[48;5;80m \u001b[48;5;68mpa\u001b[48;5;134mi\u001b[48;5;167mr\u001b[48;5;179m \u001b[48;5;185men\u001b[48;5;77mco\u001b[48;5;80md\u001b[48;5;68min\u001b[48;5;134mg\u001b[48;5;167m \u001b[48;5;179ma\u001b[48;5;185ml\u001b[48;5;77mg\u001b[48;5;80mor\u001b[48;5;68mi\u001b[48;5;134mt\u001b[48;5;167mh\u001b[48;5;179mm\u001b[48;5;185m.\u001b[48;5;77m\"\u001b[48;5;80m\"\u001b[48;5;68m\"\u001b[48;5;134m\n", + "\u001b[48;5;167mf\u001b[48;5;179mr\u001b[48;5;185mo\u001b[48;5;77mm\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167mf\u001b[48;5;179mu\u001b[48;5;185mt\u001b[48;5;77mu\u001b[48;5;80mr\u001b[48;5;68me\u001b[48;5;134m_\u001b[48;5;167m_\u001b[48;5;179m \u001b[48;5;185mi\u001b[48;5;77mm\u001b[48;5;80mp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m \u001b[48;5;179ma\u001b[48;5;185mn\u001b[48;5;77mn\u001b[48;5;80mo\u001b[48;5;68mt\u001b[48;5;134ma\u001b[48;5;167mt\u001b[48;5;179mi\u001b[48;5;185mo\u001b[48;5;77mn\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mi\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m \u001b[48;5;134mco\u001b[48;5;167ml\u001b[48;5;179ml\u001b[48;5;185me\u001b[48;5;77mc\u001b[48;5;80mt\u001b[48;5;68mi\u001b[48;5;134mo\u001b[48;5;167mn\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mi\u001b[48;5;77mte\u001b[48;5;80mr\u001b[48;5;68mt\u001b[48;5;134mo\u001b[48;5;167mo\u001b[48;5;179ml\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mf\u001b[48;5;68mr\u001b[48;5;134mo\u001b[48;5;167mm\u001b[48;5;179m t\u001b[48;5;185my\u001b[48;5;77mp\u001b[48;5;80min\u001b[48;5;68mg\u001b[48;5;134m \u001b[48;5;167mi\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m \u001b[48;5;134mO\u001b[48;5;167mp\u001b[48;5;179mt\u001b[48;5;185mi\u001b[48;5;77mo\u001b[48;5;80mn\u001b[48;5;68ma\u001b[48;5;134ml\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mi\u001b[48;5;77mm\u001b[48;5;80mp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m \u001b[48;5;179mr\u001b[48;5;185me\u001b[48;5;77mg\u001b[48;5;80me\u001b[48;5;68mx\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mi\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m t\u001b[48;5;167mi\u001b[48;5;179mk\u001b[48;5;185mt\u001b[48;5;77moken\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mc\u001b[48;5;179ml\u001b[48;5;185ma\u001b[48;5;77ms\u001b[48;5;80ms\u001b[48;5;68m \u001b[48;5;134mS\u001b[48;5;167mi\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77ml\u001b[48;5;80me\u001b[48;5;68mB\u001b[48;5;134myte\u001b[48;5;167mP\u001b[48;5;179ma\u001b[48;5;185mi\u001b[48;5;77mr\u001b[48;5;80mE\u001b[48;5;68mn\u001b[48;5;134mco\u001b[48;5;167md\u001b[48;5;179min\u001b[48;5;185mg\u001b[48;5;77m:\u001b[48;5;80m\n", + " \u001b[48;5;68m \u001b[48;5;134mde\u001b[48;5;167mf\u001b[48;5;179m \u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80min\u001b[48;5;68mi\u001b[48;5;134mt\u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'\\n ' + b' '\n", + "So we made b'\\n ' our 281th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\u001b[48;5;179m\"\u001b[48;5;185m\"\u001b[48;5;77mT\u001b[48;5;80mh\u001b[48;5;68mis\u001b[48;5;134m \u001b[48;5;167mis\u001b[48;5;179m \u001b[48;5;185ma\u001b[48;5;77mn\u001b[48;5;80m \u001b[48;5;68me\u001b[48;5;134md\u001b[48;5;167mu\u001b[48;5;179mc\u001b[48;5;185ma\u001b[48;5;77mt\u001b[48;5;80mi\u001b[48;5;68mo\u001b[48;5;134mn\u001b[48;5;167ma\u001b[48;5;179ml\u001b[48;5;185m \u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134ml\u001b[48;5;167me\u001b[48;5;179mm\u001b[48;5;185men\u001b[48;5;77mt\u001b[48;5;80ma\u001b[48;5;68mt\u001b[48;5;134mi\u001b[48;5;167mo\u001b[48;5;179mn\u001b[48;5;185m \u001b[48;5;77mo\u001b[48;5;80mf\u001b[48;5;68m t\u001b[48;5;134mh\u001b[48;5;167me\u001b[48;5;179m \u001b[48;5;185mb\u001b[48;5;77myte\u001b[48;5;80m \u001b[48;5;68mpa\u001b[48;5;134mi\u001b[48;5;167mr\u001b[48;5;179m \u001b[48;5;185men\u001b[48;5;77mco\u001b[48;5;80md\u001b[48;5;68min\u001b[48;5;134mg\u001b[48;5;167m \u001b[48;5;179ma\u001b[48;5;185ml\u001b[48;5;77mg\u001b[48;5;80mor\u001b[48;5;68mi\u001b[48;5;134mt\u001b[48;5;167mh\u001b[48;5;179mm\u001b[48;5;185m.\u001b[48;5;77m\"\u001b[48;5;80m\"\u001b[48;5;68m\"\u001b[48;5;134m\n", + "\u001b[48;5;167mf\u001b[48;5;179mr\u001b[48;5;185mo\u001b[48;5;77mm\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167mf\u001b[48;5;179mu\u001b[48;5;185mt\u001b[48;5;77mu\u001b[48;5;80mr\u001b[48;5;68me\u001b[48;5;134m_\u001b[48;5;167m_\u001b[48;5;179m \u001b[48;5;185mi\u001b[48;5;77mm\u001b[48;5;80mp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m \u001b[48;5;179ma\u001b[48;5;185mn\u001b[48;5;77mn\u001b[48;5;80mo\u001b[48;5;68mt\u001b[48;5;134ma\u001b[48;5;167mt\u001b[48;5;179mi\u001b[48;5;185mo\u001b[48;5;77mn\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mi\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m \u001b[48;5;134mco\u001b[48;5;167ml\u001b[48;5;179ml\u001b[48;5;185me\u001b[48;5;77mc\u001b[48;5;80mt\u001b[48;5;68mi\u001b[48;5;134mo\u001b[48;5;167mn\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mi\u001b[48;5;77mte\u001b[48;5;80mr\u001b[48;5;68mt\u001b[48;5;134mo\u001b[48;5;167mo\u001b[48;5;179ml\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mf\u001b[48;5;68mr\u001b[48;5;134mo\u001b[48;5;167mm\u001b[48;5;179m t\u001b[48;5;185my\u001b[48;5;77mp\u001b[48;5;80min\u001b[48;5;68mg\u001b[48;5;134m \u001b[48;5;167mi\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m \u001b[48;5;134mO\u001b[48;5;167mp\u001b[48;5;179mt\u001b[48;5;185mi\u001b[48;5;77mo\u001b[48;5;80mn\u001b[48;5;68ma\u001b[48;5;134ml\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mi\u001b[48;5;77mm\u001b[48;5;80mp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m \u001b[48;5;179mr\u001b[48;5;185me\u001b[48;5;77mg\u001b[48;5;80me\u001b[48;5;68mx\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mi\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m t\u001b[48;5;167mi\u001b[48;5;179mk\u001b[48;5;185mt\u001b[48;5;77moken\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mc\u001b[48;5;179ml\u001b[48;5;185ma\u001b[48;5;77ms\u001b[48;5;80ms\u001b[48;5;68m \u001b[48;5;134mS\u001b[48;5;167mi\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77ml\u001b[48;5;80me\u001b[48;5;68mB\u001b[48;5;134myte\u001b[48;5;167mP\u001b[48;5;179ma\u001b[48;5;185mi\u001b[48;5;77mr\u001b[48;5;80mE\u001b[48;5;68mn\u001b[48;5;134mco\u001b[48;5;167md\u001b[48;5;179min\u001b[48;5;185mg\u001b[48;5;77m:\u001b[48;5;80m\n", + " \u001b[48;5;68m \u001b[48;5;134mde\u001b[48;5;167mf\u001b[48;5;179m \u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80min\u001b[48;5;68mi\u001b[48;5;134mt\u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' ' + b'm'\n", + "So we made b' m' our 282th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\u001b[48;5;179m\"\u001b[48;5;185m\"\u001b[48;5;77mT\u001b[48;5;80mh\u001b[48;5;68mis\u001b[48;5;134m \u001b[48;5;167mis\u001b[48;5;179m \u001b[48;5;185ma\u001b[48;5;77mn\u001b[48;5;80m \u001b[48;5;68me\u001b[48;5;134md\u001b[48;5;167mu\u001b[48;5;179mc\u001b[48;5;185ma\u001b[48;5;77mt\u001b[48;5;80mi\u001b[48;5;68mo\u001b[48;5;134mn\u001b[48;5;167ma\u001b[48;5;179ml\u001b[48;5;185m \u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134ml\u001b[48;5;167me\u001b[48;5;179mm\u001b[48;5;185men\u001b[48;5;77mt\u001b[48;5;80ma\u001b[48;5;68mt\u001b[48;5;134mi\u001b[48;5;167mo\u001b[48;5;179mn\u001b[48;5;185m \u001b[48;5;77mo\u001b[48;5;80mf\u001b[48;5;68m t\u001b[48;5;134mh\u001b[48;5;167me\u001b[48;5;179m \u001b[48;5;185mb\u001b[48;5;77myte\u001b[48;5;80m \u001b[48;5;68mpa\u001b[48;5;134mi\u001b[48;5;167mr\u001b[48;5;179m \u001b[48;5;185men\u001b[48;5;77mco\u001b[48;5;80md\u001b[48;5;68min\u001b[48;5;134mg\u001b[48;5;167m \u001b[48;5;179ma\u001b[48;5;185ml\u001b[48;5;77mg\u001b[48;5;80mor\u001b[48;5;68mi\u001b[48;5;134mt\u001b[48;5;167mh\u001b[48;5;179mm\u001b[48;5;185m.\u001b[48;5;77m\"\u001b[48;5;80m\"\u001b[48;5;68m\"\u001b[48;5;134m\n", + "\u001b[48;5;167mf\u001b[48;5;179mr\u001b[48;5;185mo\u001b[48;5;77mm\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167mf\u001b[48;5;179mu\u001b[48;5;185mt\u001b[48;5;77mu\u001b[48;5;80mr\u001b[48;5;68me\u001b[48;5;134m_\u001b[48;5;167m_\u001b[48;5;179m \u001b[48;5;185mi\u001b[48;5;77mm\u001b[48;5;80mp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m \u001b[48;5;179ma\u001b[48;5;185mn\u001b[48;5;77mn\u001b[48;5;80mo\u001b[48;5;68mt\u001b[48;5;134ma\u001b[48;5;167mt\u001b[48;5;179mi\u001b[48;5;185mo\u001b[48;5;77mn\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mi\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m \u001b[48;5;134mco\u001b[48;5;167ml\u001b[48;5;179ml\u001b[48;5;185me\u001b[48;5;77mc\u001b[48;5;80mt\u001b[48;5;68mi\u001b[48;5;134mo\u001b[48;5;167mn\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mi\u001b[48;5;77mte\u001b[48;5;80mr\u001b[48;5;68mt\u001b[48;5;134mo\u001b[48;5;167mo\u001b[48;5;179ml\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mf\u001b[48;5;68mr\u001b[48;5;134mo\u001b[48;5;167mm\u001b[48;5;179m t\u001b[48;5;185my\u001b[48;5;77mp\u001b[48;5;80min\u001b[48;5;68mg\u001b[48;5;134m \u001b[48;5;167mi\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m \u001b[48;5;134mO\u001b[48;5;167mp\u001b[48;5;179mt\u001b[48;5;185mi\u001b[48;5;77mo\u001b[48;5;80mn\u001b[48;5;68ma\u001b[48;5;134ml\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mi\u001b[48;5;77mm\u001b[48;5;80mp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m \u001b[48;5;179mr\u001b[48;5;185me\u001b[48;5;77mg\u001b[48;5;80me\u001b[48;5;68mx\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mi\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m t\u001b[48;5;167mi\u001b[48;5;179mk\u001b[48;5;185mt\u001b[48;5;77moken\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mc\u001b[48;5;179ml\u001b[48;5;185ma\u001b[48;5;77ms\u001b[48;5;80ms\u001b[48;5;68m \u001b[48;5;134mS\u001b[48;5;167mi\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77ml\u001b[48;5;80me\u001b[48;5;68mB\u001b[48;5;134myte\u001b[48;5;167mP\u001b[48;5;179ma\u001b[48;5;185mi\u001b[48;5;77mr\u001b[48;5;80mE\u001b[48;5;68mn\u001b[48;5;134mco\u001b[48;5;167md\u001b[48;5;179min\u001b[48;5;185mg\u001b[48;5;77m:\u001b[48;5;80m\n", + " \u001b[48;5;68m \u001b[48;5;134mde\u001b[48;5;167mf\u001b[48;5;179m \u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80min\u001b[48;5;68mi\u001b[48;5;134mt\u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' ' + b'b'\n", + "So we made b' b' our 283th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\u001b[48;5;179m\"\u001b[48;5;185m\"\u001b[48;5;77mT\u001b[48;5;80mh\u001b[48;5;68mis\u001b[48;5;134m \u001b[48;5;167mis\u001b[48;5;179m \u001b[48;5;185ma\u001b[48;5;77mn\u001b[48;5;80m \u001b[48;5;68me\u001b[48;5;134md\u001b[48;5;167mu\u001b[48;5;179mc\u001b[48;5;185ma\u001b[48;5;77mt\u001b[48;5;80mi\u001b[48;5;68mo\u001b[48;5;134mn\u001b[48;5;167ma\u001b[48;5;179ml\u001b[48;5;185m \u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134ml\u001b[48;5;167me\u001b[48;5;179mm\u001b[48;5;185men\u001b[48;5;77mt\u001b[48;5;80ma\u001b[48;5;68mt\u001b[48;5;134mi\u001b[48;5;167mo\u001b[48;5;179mn\u001b[48;5;185m \u001b[48;5;77mo\u001b[48;5;80mf\u001b[48;5;68m t\u001b[48;5;134mh\u001b[48;5;167me\u001b[48;5;179m b\u001b[48;5;185myte\u001b[48;5;77m \u001b[48;5;80mpa\u001b[48;5;68mi\u001b[48;5;134mr\u001b[48;5;167m \u001b[48;5;179men\u001b[48;5;185mco\u001b[48;5;77md\u001b[48;5;80min\u001b[48;5;68mg\u001b[48;5;134m \u001b[48;5;167ma\u001b[48;5;179ml\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mi\u001b[48;5;68mt\u001b[48;5;134mh\u001b[48;5;167mm\u001b[48;5;179m.\u001b[48;5;185m\"\u001b[48;5;77m\"\u001b[48;5;80m\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mr\u001b[48;5;179mo\u001b[48;5;185mm\u001b[48;5;77m \u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134mf\u001b[48;5;167mu\u001b[48;5;179mt\u001b[48;5;185mu\u001b[48;5;77mr\u001b[48;5;80me\u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167m \u001b[48;5;179mi\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167ma\u001b[48;5;179mn\u001b[48;5;185mn\u001b[48;5;77mo\u001b[48;5;80mt\u001b[48;5;68ma\u001b[48;5;134mt\u001b[48;5;167mi\u001b[48;5;179mo\u001b[48;5;185mn\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mi\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m \u001b[48;5;68mco\u001b[48;5;134ml\u001b[48;5;167ml\u001b[48;5;179me\u001b[48;5;185mc\u001b[48;5;77mt\u001b[48;5;80mi\u001b[48;5;68mo\u001b[48;5;134mn\u001b[48;5;167ms\u001b[48;5;179m\n", + "\u001b[48;5;185mi\u001b[48;5;77mm\u001b[48;5;80mp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m \u001b[48;5;179mi\u001b[48;5;185mte\u001b[48;5;77mr\u001b[48;5;80mt\u001b[48;5;68mo\u001b[48;5;134mo\u001b[48;5;167ml\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mr\u001b[48;5;68mo\u001b[48;5;134mm\u001b[48;5;167m t\u001b[48;5;179my\u001b[48;5;185mp\u001b[48;5;77min\u001b[48;5;80mg\u001b[48;5;68m \u001b[48;5;134mi\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m \u001b[48;5;68mO\u001b[48;5;134mp\u001b[48;5;167mt\u001b[48;5;179mi\u001b[48;5;185mo\u001b[48;5;77mn\u001b[48;5;80ma\u001b[48;5;68ml\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mi\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mr\u001b[48;5;179me\u001b[48;5;185mg\u001b[48;5;77me\u001b[48;5;80mx\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mi\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m t\u001b[48;5;134mi\u001b[48;5;167mk\u001b[48;5;179mt\u001b[48;5;185moken\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mc\u001b[48;5;167ml\u001b[48;5;179ma\u001b[48;5;185ms\u001b[48;5;77ms\u001b[48;5;80m \u001b[48;5;68mS\u001b[48;5;134mi\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185ml\u001b[48;5;77me\u001b[48;5;80mB\u001b[48;5;68myte\u001b[48;5;134mP\u001b[48;5;167ma\u001b[48;5;179mi\u001b[48;5;185mr\u001b[48;5;77mE\u001b[48;5;80mn\u001b[48;5;68mco\u001b[48;5;134md\u001b[48;5;167min\u001b[48;5;179mg\u001b[48;5;185m:\u001b[48;5;77m\n", + " \u001b[48;5;80m \u001b[48;5;68mde\u001b[48;5;134mf\u001b[48;5;167m \u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77min\u001b[48;5;80mi\u001b[48;5;68mt\u001b[48;5;134m_\u001b[48;5;167m_\u001b[48;5;179m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'a' + b'l'\n", + "So we made b'al' our 284th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\u001b[48;5;179m\"\u001b[48;5;185m\"\u001b[48;5;77mT\u001b[48;5;80mh\u001b[48;5;68mis\u001b[48;5;134m \u001b[48;5;167mis\u001b[48;5;179m \u001b[48;5;185ma\u001b[48;5;77mn\u001b[48;5;80m \u001b[48;5;68me\u001b[48;5;134md\u001b[48;5;167mu\u001b[48;5;179mc\u001b[48;5;185ma\u001b[48;5;77mt\u001b[48;5;80mi\u001b[48;5;68mo\u001b[48;5;134mn\u001b[48;5;167mal\u001b[48;5;179m \u001b[48;5;185mi\u001b[48;5;77mm\u001b[48;5;80mp\u001b[48;5;68ml\u001b[48;5;134me\u001b[48;5;167mm\u001b[48;5;179men\u001b[48;5;185mt\u001b[48;5;77ma\u001b[48;5;80mt\u001b[48;5;68mi\u001b[48;5;134mo\u001b[48;5;167mn\u001b[48;5;179m \u001b[48;5;185mo\u001b[48;5;77mf\u001b[48;5;80m t\u001b[48;5;68mh\u001b[48;5;134me\u001b[48;5;167m b\u001b[48;5;179myte\u001b[48;5;185m \u001b[48;5;77mpa\u001b[48;5;80mi\u001b[48;5;68mr\u001b[48;5;134m \u001b[48;5;167men\u001b[48;5;179mco\u001b[48;5;185md\u001b[48;5;77min\u001b[48;5;80mg\u001b[48;5;68m \u001b[48;5;134mal\u001b[48;5;167mg\u001b[48;5;179mor\u001b[48;5;185mi\u001b[48;5;77mt\u001b[48;5;80mh\u001b[48;5;68mm\u001b[48;5;134m.\u001b[48;5;167m\"\u001b[48;5;179m\"\u001b[48;5;185m\"\u001b[48;5;77m\n", + "\u001b[48;5;80mf\u001b[48;5;68mr\u001b[48;5;134mo\u001b[48;5;167mm\u001b[48;5;179m \u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80mf\u001b[48;5;68mu\u001b[48;5;134mt\u001b[48;5;167mu\u001b[48;5;179mr\u001b[48;5;185me\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m \u001b[48;5;134mi\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m \u001b[48;5;68ma\u001b[48;5;134mn\u001b[48;5;167mn\u001b[48;5;179mo\u001b[48;5;185mt\u001b[48;5;77ma\u001b[48;5;80mt\u001b[48;5;68mi\u001b[48;5;134mo\u001b[48;5;167mn\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mco\u001b[48;5;80ml\u001b[48;5;68ml\u001b[48;5;134me\u001b[48;5;167mc\u001b[48;5;179mt\u001b[48;5;185mi\u001b[48;5;77mo\u001b[48;5;80mn\u001b[48;5;68ms\u001b[48;5;134m\n", + "\u001b[48;5;167mi\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m \u001b[48;5;134mi\u001b[48;5;167mte\u001b[48;5;179mr\u001b[48;5;185mt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mr\u001b[48;5;77mo\u001b[48;5;80mm\u001b[48;5;68m t\u001b[48;5;134my\u001b[48;5;167mp\u001b[48;5;179min\u001b[48;5;185mg\u001b[48;5;77m \u001b[48;5;80mi\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mO\u001b[48;5;80mp\u001b[48;5;68mt\u001b[48;5;134mi\u001b[48;5;167mo\u001b[48;5;179mn\u001b[48;5;185mal\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mi\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m \u001b[48;5;80mr\u001b[48;5;68me\u001b[48;5;134mg\u001b[48;5;167me\u001b[48;5;179mx\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m t\u001b[48;5;77mi\u001b[48;5;80mk\u001b[48;5;68mt\u001b[48;5;134moken\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mc\u001b[48;5;80ml\u001b[48;5;68ma\u001b[48;5;134ms\u001b[48;5;167ms\u001b[48;5;179m \u001b[48;5;185mS\u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134ml\u001b[48;5;167me\u001b[48;5;179mB\u001b[48;5;185myte\u001b[48;5;77mP\u001b[48;5;80ma\u001b[48;5;68mi\u001b[48;5;134mr\u001b[48;5;167mE\u001b[48;5;179mn\u001b[48;5;185mco\u001b[48;5;77md\u001b[48;5;80min\u001b[48;5;68mg\u001b[48;5;134m:\u001b[48;5;167m\n", + " \u001b[48;5;179m \u001b[48;5;185mde\u001b[48;5;77mf\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167min\u001b[48;5;179mi\u001b[48;5;185mt\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'l' + b'e'\n", + "So we made b'le' our 285th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\u001b[48;5;179m\"\u001b[48;5;185m\"\u001b[48;5;77mT\u001b[48;5;80mh\u001b[48;5;68mis\u001b[48;5;134m \u001b[48;5;167mis\u001b[48;5;179m \u001b[48;5;185ma\u001b[48;5;77mn\u001b[48;5;80m \u001b[48;5;68me\u001b[48;5;134md\u001b[48;5;167mu\u001b[48;5;179mc\u001b[48;5;185ma\u001b[48;5;77mt\u001b[48;5;80mi\u001b[48;5;68mo\u001b[48;5;134mn\u001b[48;5;167mal\u001b[48;5;179m \u001b[48;5;185mi\u001b[48;5;77mm\u001b[48;5;80mp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167men\u001b[48;5;179mt\u001b[48;5;185ma\u001b[48;5;77mt\u001b[48;5;80mi\u001b[48;5;68mo\u001b[48;5;134mn\u001b[48;5;167m \u001b[48;5;179mo\u001b[48;5;185mf\u001b[48;5;77m t\u001b[48;5;80mh\u001b[48;5;68me\u001b[48;5;134m b\u001b[48;5;167myte\u001b[48;5;179m \u001b[48;5;185mpa\u001b[48;5;77mi\u001b[48;5;80mr\u001b[48;5;68m \u001b[48;5;134men\u001b[48;5;167mco\u001b[48;5;179md\u001b[48;5;185min\u001b[48;5;77mg\u001b[48;5;80m \u001b[48;5;68mal\u001b[48;5;134mg\u001b[48;5;167mor\u001b[48;5;179mi\u001b[48;5;185mt\u001b[48;5;77mh\u001b[48;5;80mm\u001b[48;5;68m.\u001b[48;5;134m\"\u001b[48;5;167m\"\u001b[48;5;179m\"\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mr\u001b[48;5;68mo\u001b[48;5;134mm\u001b[48;5;167m \u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77mf\u001b[48;5;80mu\u001b[48;5;68mt\u001b[48;5;134mu\u001b[48;5;167mr\u001b[48;5;179me\u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80m \u001b[48;5;68mi\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m \u001b[48;5;80ma\u001b[48;5;68mn\u001b[48;5;134mn\u001b[48;5;167mo\u001b[48;5;179mt\u001b[48;5;185ma\u001b[48;5;77mt\u001b[48;5;80mi\u001b[48;5;68mo\u001b[48;5;134mn\u001b[48;5;167ms\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mco\u001b[48;5;77ml\u001b[48;5;80mle\u001b[48;5;68mc\u001b[48;5;134mt\u001b[48;5;167mi\u001b[48;5;179mo\u001b[48;5;185mn\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68mi\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m \u001b[48;5;80mi\u001b[48;5;68mte\u001b[48;5;134mr\u001b[48;5;167mt\u001b[48;5;179mo\u001b[48;5;185mo\u001b[48;5;77ml\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mr\u001b[48;5;179mo\u001b[48;5;185mm\u001b[48;5;77m t\u001b[48;5;80my\u001b[48;5;68mp\u001b[48;5;134min\u001b[48;5;167mg\u001b[48;5;179m \u001b[48;5;185mi\u001b[48;5;77mm\u001b[48;5;80mp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m \u001b[48;5;179mO\u001b[48;5;185mp\u001b[48;5;77mt\u001b[48;5;80mi\u001b[48;5;68mo\u001b[48;5;134mn\u001b[48;5;167mal\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mr\u001b[48;5;77me\u001b[48;5;80mg\u001b[48;5;68me\u001b[48;5;134mx\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mi\u001b[48;5;77mm\u001b[48;5;80mp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m t\u001b[48;5;179mi\u001b[48;5;185mk\u001b[48;5;77mt\u001b[48;5;80moken\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mc\u001b[48;5;185ml\u001b[48;5;77ma\u001b[48;5;80ms\u001b[48;5;68ms\u001b[48;5;134m \u001b[48;5;167mS\u001b[48;5;179mi\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80mle\u001b[48;5;68mB\u001b[48;5;134myte\u001b[48;5;167mP\u001b[48;5;179ma\u001b[48;5;185mi\u001b[48;5;77mr\u001b[48;5;80mE\u001b[48;5;68mn\u001b[48;5;134mco\u001b[48;5;167md\u001b[48;5;179min\u001b[48;5;185mg\u001b[48;5;77m:\u001b[48;5;80m\n", + " \u001b[48;5;68m \u001b[48;5;134mde\u001b[48;5;167mf\u001b[48;5;179m \u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80min\u001b[48;5;68mi\u001b[48;5;134mt\u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'\"' + b'\"'\n", + "So we made b'\"\"' our 286th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\u001b[48;5;179m\"\u001b[48;5;185mT\u001b[48;5;77mh\u001b[48;5;80mis\u001b[48;5;68m \u001b[48;5;134mis\u001b[48;5;167m \u001b[48;5;179ma\u001b[48;5;185mn\u001b[48;5;77m \u001b[48;5;80me\u001b[48;5;68md\u001b[48;5;134mu\u001b[48;5;167mc\u001b[48;5;179ma\u001b[48;5;185mt\u001b[48;5;77mi\u001b[48;5;80mo\u001b[48;5;68mn\u001b[48;5;134mal\u001b[48;5;167m \u001b[48;5;179mi\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80mle\u001b[48;5;68mm\u001b[48;5;134men\u001b[48;5;167mt\u001b[48;5;179ma\u001b[48;5;185mt\u001b[48;5;77mi\u001b[48;5;80mo\u001b[48;5;68mn\u001b[48;5;134m \u001b[48;5;167mo\u001b[48;5;179mf\u001b[48;5;185m t\u001b[48;5;77mh\u001b[48;5;80me\u001b[48;5;68m b\u001b[48;5;134myte\u001b[48;5;167m \u001b[48;5;179mpa\u001b[48;5;185mi\u001b[48;5;77mr\u001b[48;5;80m \u001b[48;5;68men\u001b[48;5;134mco\u001b[48;5;167md\u001b[48;5;179min\u001b[48;5;185mg\u001b[48;5;77m \u001b[48;5;80mal\u001b[48;5;68mg\u001b[48;5;134mor\u001b[48;5;167mi\u001b[48;5;179mt\u001b[48;5;185mh\u001b[48;5;77mm\u001b[48;5;80m.\u001b[48;5;68m\"\"\u001b[48;5;134m\"\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mr\u001b[48;5;77mo\u001b[48;5;80mm\u001b[48;5;68m \u001b[48;5;134m_\u001b[48;5;167m_\u001b[48;5;179mf\u001b[48;5;185mu\u001b[48;5;77mt\u001b[48;5;80mu\u001b[48;5;68mr\u001b[48;5;134me\u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185m \u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185ma\u001b[48;5;77mn\u001b[48;5;80mn\u001b[48;5;68mo\u001b[48;5;134mt\u001b[48;5;167ma\u001b[48;5;179mt\u001b[48;5;185mi\u001b[48;5;77mo\u001b[48;5;80mn\u001b[48;5;68ms\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mi\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mco\u001b[48;5;179ml\u001b[48;5;185mle\u001b[48;5;77mc\u001b[48;5;80mt\u001b[48;5;68mi\u001b[48;5;134mo\u001b[48;5;167mn\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mi\u001b[48;5;77mte\u001b[48;5;80mr\u001b[48;5;68mt\u001b[48;5;134mo\u001b[48;5;167mo\u001b[48;5;179ml\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mf\u001b[48;5;68mr\u001b[48;5;134mo\u001b[48;5;167mm\u001b[48;5;179m t\u001b[48;5;185my\u001b[48;5;77mp\u001b[48;5;80min\u001b[48;5;68mg\u001b[48;5;134m \u001b[48;5;167mi\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m \u001b[48;5;134mO\u001b[48;5;167mp\u001b[48;5;179mt\u001b[48;5;185mi\u001b[48;5;77mo\u001b[48;5;80mn\u001b[48;5;68mal\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mi\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mr\u001b[48;5;179me\u001b[48;5;185mg\u001b[48;5;77me\u001b[48;5;80mx\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mi\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m t\u001b[48;5;134mi\u001b[48;5;167mk\u001b[48;5;179mt\u001b[48;5;185moken\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mc\u001b[48;5;167ml\u001b[48;5;179ma\u001b[48;5;185ms\u001b[48;5;77ms\u001b[48;5;80m \u001b[48;5;68mS\u001b[48;5;134mi\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mle\u001b[48;5;77mB\u001b[48;5;80myte\u001b[48;5;68mP\u001b[48;5;134ma\u001b[48;5;167mi\u001b[48;5;179mr\u001b[48;5;185mE\u001b[48;5;77mn\u001b[48;5;80mco\u001b[48;5;68md\u001b[48;5;134min\u001b[48;5;167mg\u001b[48;5;179m:\u001b[48;5;185m\n", + " \u001b[48;5;77m \u001b[48;5;80mde\u001b[48;5;68mf\u001b[48;5;134m \u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185min\u001b[48;5;77mi\u001b[48;5;80mt\u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'e' + b'r'\n", + "So we made b'er' our 287th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\u001b[48;5;179m\"\u001b[48;5;185mT\u001b[48;5;77mh\u001b[48;5;80mis\u001b[48;5;68m \u001b[48;5;134mis\u001b[48;5;167m \u001b[48;5;179ma\u001b[48;5;185mn\u001b[48;5;77m \u001b[48;5;80me\u001b[48;5;68md\u001b[48;5;134mu\u001b[48;5;167mc\u001b[48;5;179ma\u001b[48;5;185mt\u001b[48;5;77mi\u001b[48;5;80mo\u001b[48;5;68mn\u001b[48;5;134mal\u001b[48;5;167m \u001b[48;5;179mi\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80mle\u001b[48;5;68mm\u001b[48;5;134men\u001b[48;5;167mt\u001b[48;5;179ma\u001b[48;5;185mt\u001b[48;5;77mi\u001b[48;5;80mo\u001b[48;5;68mn\u001b[48;5;134m \u001b[48;5;167mo\u001b[48;5;179mf\u001b[48;5;185m t\u001b[48;5;77mh\u001b[48;5;80me\u001b[48;5;68m b\u001b[48;5;134myte\u001b[48;5;167m \u001b[48;5;179mpa\u001b[48;5;185mi\u001b[48;5;77mr\u001b[48;5;80m \u001b[48;5;68men\u001b[48;5;134mco\u001b[48;5;167md\u001b[48;5;179min\u001b[48;5;185mg\u001b[48;5;77m \u001b[48;5;80mal\u001b[48;5;68mg\u001b[48;5;134mor\u001b[48;5;167mi\u001b[48;5;179mt\u001b[48;5;185mh\u001b[48;5;77mm\u001b[48;5;80m.\u001b[48;5;68m\"\"\u001b[48;5;134m\"\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mr\u001b[48;5;77mo\u001b[48;5;80mm\u001b[48;5;68m \u001b[48;5;134m_\u001b[48;5;167m_\u001b[48;5;179mf\u001b[48;5;185mu\u001b[48;5;77mt\u001b[48;5;80mu\u001b[48;5;68mr\u001b[48;5;134me\u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185m \u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185ma\u001b[48;5;77mn\u001b[48;5;80mn\u001b[48;5;68mo\u001b[48;5;134mt\u001b[48;5;167ma\u001b[48;5;179mt\u001b[48;5;185mi\u001b[48;5;77mo\u001b[48;5;80mn\u001b[48;5;68ms\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mi\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mco\u001b[48;5;179ml\u001b[48;5;185mle\u001b[48;5;77mc\u001b[48;5;80mt\u001b[48;5;68mi\u001b[48;5;134mo\u001b[48;5;167mn\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mi\u001b[48;5;77mte\u001b[48;5;80mr\u001b[48;5;68mt\u001b[48;5;134mo\u001b[48;5;167mo\u001b[48;5;179ml\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mf\u001b[48;5;68mr\u001b[48;5;134mo\u001b[48;5;167mm\u001b[48;5;179m t\u001b[48;5;185my\u001b[48;5;77mp\u001b[48;5;80min\u001b[48;5;68mg\u001b[48;5;134m \u001b[48;5;167mi\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m \u001b[48;5;134mO\u001b[48;5;167mp\u001b[48;5;179mt\u001b[48;5;185mi\u001b[48;5;77mo\u001b[48;5;80mn\u001b[48;5;68mal\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mi\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mr\u001b[48;5;179me\u001b[48;5;185mg\u001b[48;5;77me\u001b[48;5;80mx\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mi\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m t\u001b[48;5;134mi\u001b[48;5;167mk\u001b[48;5;179mt\u001b[48;5;185moken\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mc\u001b[48;5;167ml\u001b[48;5;179ma\u001b[48;5;185ms\u001b[48;5;77ms\u001b[48;5;80m \u001b[48;5;68mS\u001b[48;5;134mi\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mle\u001b[48;5;77mB\u001b[48;5;80myte\u001b[48;5;68mP\u001b[48;5;134ma\u001b[48;5;167mi\u001b[48;5;179mr\u001b[48;5;185mE\u001b[48;5;77mn\u001b[48;5;80mco\u001b[48;5;68md\u001b[48;5;134min\u001b[48;5;167mg\u001b[48;5;179m:\u001b[48;5;185m\n", + " \u001b[48;5;77m \u001b[48;5;80mde\u001b[48;5;68mf\u001b[48;5;134m \u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185min\u001b[48;5;77mi\u001b[48;5;80mt\u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' t' + b'oken'\n", + "So we made b' token' our 288th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\u001b[48;5;179m\"\u001b[48;5;185mT\u001b[48;5;77mh\u001b[48;5;80mis\u001b[48;5;68m \u001b[48;5;134mis\u001b[48;5;167m \u001b[48;5;179ma\u001b[48;5;185mn\u001b[48;5;77m \u001b[48;5;80me\u001b[48;5;68md\u001b[48;5;134mu\u001b[48;5;167mc\u001b[48;5;179ma\u001b[48;5;185mt\u001b[48;5;77mi\u001b[48;5;80mo\u001b[48;5;68mn\u001b[48;5;134mal\u001b[48;5;167m \u001b[48;5;179mi\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80mle\u001b[48;5;68mm\u001b[48;5;134men\u001b[48;5;167mt\u001b[48;5;179ma\u001b[48;5;185mt\u001b[48;5;77mi\u001b[48;5;80mo\u001b[48;5;68mn\u001b[48;5;134m \u001b[48;5;167mo\u001b[48;5;179mf\u001b[48;5;185m t\u001b[48;5;77mh\u001b[48;5;80me\u001b[48;5;68m b\u001b[48;5;134myte\u001b[48;5;167m \u001b[48;5;179mpa\u001b[48;5;185mi\u001b[48;5;77mr\u001b[48;5;80m \u001b[48;5;68men\u001b[48;5;134mco\u001b[48;5;167md\u001b[48;5;179min\u001b[48;5;185mg\u001b[48;5;77m \u001b[48;5;80mal\u001b[48;5;68mg\u001b[48;5;134mor\u001b[48;5;167mi\u001b[48;5;179mt\u001b[48;5;185mh\u001b[48;5;77mm\u001b[48;5;80m.\u001b[48;5;68m\"\"\u001b[48;5;134m\"\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mr\u001b[48;5;77mo\u001b[48;5;80mm\u001b[48;5;68m \u001b[48;5;134m_\u001b[48;5;167m_\u001b[48;5;179mf\u001b[48;5;185mu\u001b[48;5;77mt\u001b[48;5;80mu\u001b[48;5;68mr\u001b[48;5;134me\u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185m \u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185ma\u001b[48;5;77mn\u001b[48;5;80mn\u001b[48;5;68mo\u001b[48;5;134mt\u001b[48;5;167ma\u001b[48;5;179mt\u001b[48;5;185mi\u001b[48;5;77mo\u001b[48;5;80mn\u001b[48;5;68ms\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mi\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mco\u001b[48;5;179ml\u001b[48;5;185mle\u001b[48;5;77mc\u001b[48;5;80mt\u001b[48;5;68mi\u001b[48;5;134mo\u001b[48;5;167mn\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mi\u001b[48;5;77mte\u001b[48;5;80mr\u001b[48;5;68mt\u001b[48;5;134mo\u001b[48;5;167mo\u001b[48;5;179ml\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mf\u001b[48;5;68mr\u001b[48;5;134mo\u001b[48;5;167mm\u001b[48;5;179m t\u001b[48;5;185my\u001b[48;5;77mp\u001b[48;5;80min\u001b[48;5;68mg\u001b[48;5;134m \u001b[48;5;167mi\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m \u001b[48;5;134mO\u001b[48;5;167mp\u001b[48;5;179mt\u001b[48;5;185mi\u001b[48;5;77mo\u001b[48;5;80mn\u001b[48;5;68mal\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mi\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mr\u001b[48;5;179me\u001b[48;5;185mg\u001b[48;5;77me\u001b[48;5;80mx\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mi\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m t\u001b[48;5;134mi\u001b[48;5;167mk\u001b[48;5;179mt\u001b[48;5;185moken\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mc\u001b[48;5;167ml\u001b[48;5;179ma\u001b[48;5;185ms\u001b[48;5;77ms\u001b[48;5;80m \u001b[48;5;68mS\u001b[48;5;134mi\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mle\u001b[48;5;77mB\u001b[48;5;80myte\u001b[48;5;68mP\u001b[48;5;134ma\u001b[48;5;167mi\u001b[48;5;179mr\u001b[48;5;185mE\u001b[48;5;77mn\u001b[48;5;80mco\u001b[48;5;68md\u001b[48;5;134min\u001b[48;5;167mg\u001b[48;5;179m:\u001b[48;5;185m\n", + " \u001b[48;5;77m \u001b[48;5;80mde\u001b[48;5;68mf\u001b[48;5;134m \u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185min\u001b[48;5;77mi\u001b[48;5;80mt\u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'ra' + b'n'\n", + "So we made b'ran' our 289th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\u001b[48;5;179m\"\u001b[48;5;185mT\u001b[48;5;77mh\u001b[48;5;80mis\u001b[48;5;68m \u001b[48;5;134mis\u001b[48;5;167m \u001b[48;5;179ma\u001b[48;5;185mn\u001b[48;5;77m \u001b[48;5;80me\u001b[48;5;68md\u001b[48;5;134mu\u001b[48;5;167mc\u001b[48;5;179ma\u001b[48;5;185mt\u001b[48;5;77mi\u001b[48;5;80mo\u001b[48;5;68mn\u001b[48;5;134mal\u001b[48;5;167m \u001b[48;5;179mi\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80mle\u001b[48;5;68mm\u001b[48;5;134men\u001b[48;5;167mt\u001b[48;5;179ma\u001b[48;5;185mt\u001b[48;5;77mi\u001b[48;5;80mo\u001b[48;5;68mn\u001b[48;5;134m \u001b[48;5;167mo\u001b[48;5;179mf\u001b[48;5;185m t\u001b[48;5;77mh\u001b[48;5;80me\u001b[48;5;68m b\u001b[48;5;134myte\u001b[48;5;167m \u001b[48;5;179mpa\u001b[48;5;185mi\u001b[48;5;77mr\u001b[48;5;80m \u001b[48;5;68men\u001b[48;5;134mco\u001b[48;5;167md\u001b[48;5;179min\u001b[48;5;185mg\u001b[48;5;77m \u001b[48;5;80mal\u001b[48;5;68mg\u001b[48;5;134mor\u001b[48;5;167mi\u001b[48;5;179mt\u001b[48;5;185mh\u001b[48;5;77mm\u001b[48;5;80m.\u001b[48;5;68m\"\"\u001b[48;5;134m\"\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mr\u001b[48;5;77mo\u001b[48;5;80mm\u001b[48;5;68m \u001b[48;5;134m_\u001b[48;5;167m_\u001b[48;5;179mf\u001b[48;5;185mu\u001b[48;5;77mt\u001b[48;5;80mu\u001b[48;5;68mr\u001b[48;5;134me\u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185m \u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185ma\u001b[48;5;77mn\u001b[48;5;80mn\u001b[48;5;68mo\u001b[48;5;134mt\u001b[48;5;167ma\u001b[48;5;179mt\u001b[48;5;185mi\u001b[48;5;77mo\u001b[48;5;80mn\u001b[48;5;68ms\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mi\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mco\u001b[48;5;179ml\u001b[48;5;185mle\u001b[48;5;77mc\u001b[48;5;80mt\u001b[48;5;68mi\u001b[48;5;134mo\u001b[48;5;167mn\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mi\u001b[48;5;77mte\u001b[48;5;80mr\u001b[48;5;68mt\u001b[48;5;134mo\u001b[48;5;167mo\u001b[48;5;179ml\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mf\u001b[48;5;68mr\u001b[48;5;134mo\u001b[48;5;167mm\u001b[48;5;179m t\u001b[48;5;185my\u001b[48;5;77mp\u001b[48;5;80min\u001b[48;5;68mg\u001b[48;5;134m \u001b[48;5;167mi\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m \u001b[48;5;134mO\u001b[48;5;167mp\u001b[48;5;179mt\u001b[48;5;185mi\u001b[48;5;77mo\u001b[48;5;80mn\u001b[48;5;68mal\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mi\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mr\u001b[48;5;179me\u001b[48;5;185mg\u001b[48;5;77me\u001b[48;5;80mx\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mi\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m t\u001b[48;5;134mi\u001b[48;5;167mk\u001b[48;5;179mt\u001b[48;5;185moken\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mc\u001b[48;5;167ml\u001b[48;5;179ma\u001b[48;5;185ms\u001b[48;5;77ms\u001b[48;5;80m \u001b[48;5;68mS\u001b[48;5;134mi\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mle\u001b[48;5;77mB\u001b[48;5;80myte\u001b[48;5;68mP\u001b[48;5;134ma\u001b[48;5;167mi\u001b[48;5;179mr\u001b[48;5;185mE\u001b[48;5;77mn\u001b[48;5;80mco\u001b[48;5;68md\u001b[48;5;134min\u001b[48;5;167mg\u001b[48;5;179m:\u001b[48;5;185m\n", + " \u001b[48;5;77m \u001b[48;5;80mde\u001b[48;5;68mf\u001b[48;5;134m \u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185min\u001b[48;5;77mi\u001b[48;5;80mt\u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'yte' + b's'\n", + "So we made b'ytes' our 290th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\u001b[48;5;179m\"\u001b[48;5;185mT\u001b[48;5;77mh\u001b[48;5;80mis\u001b[48;5;68m \u001b[48;5;134mis\u001b[48;5;167m \u001b[48;5;179ma\u001b[48;5;185mn\u001b[48;5;77m \u001b[48;5;80me\u001b[48;5;68md\u001b[48;5;134mu\u001b[48;5;167mc\u001b[48;5;179ma\u001b[48;5;185mt\u001b[48;5;77mi\u001b[48;5;80mo\u001b[48;5;68mn\u001b[48;5;134mal\u001b[48;5;167m \u001b[48;5;179mi\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80mle\u001b[48;5;68mm\u001b[48;5;134men\u001b[48;5;167mt\u001b[48;5;179ma\u001b[48;5;185mt\u001b[48;5;77mi\u001b[48;5;80mo\u001b[48;5;68mn\u001b[48;5;134m \u001b[48;5;167mo\u001b[48;5;179mf\u001b[48;5;185m t\u001b[48;5;77mh\u001b[48;5;80me\u001b[48;5;68m b\u001b[48;5;134myte\u001b[48;5;167m \u001b[48;5;179mpa\u001b[48;5;185mi\u001b[48;5;77mr\u001b[48;5;80m \u001b[48;5;68men\u001b[48;5;134mco\u001b[48;5;167md\u001b[48;5;179min\u001b[48;5;185mg\u001b[48;5;77m \u001b[48;5;80mal\u001b[48;5;68mg\u001b[48;5;134mor\u001b[48;5;167mi\u001b[48;5;179mt\u001b[48;5;185mh\u001b[48;5;77mm\u001b[48;5;80m.\u001b[48;5;68m\"\"\u001b[48;5;134m\"\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mr\u001b[48;5;77mo\u001b[48;5;80mm\u001b[48;5;68m \u001b[48;5;134m_\u001b[48;5;167m_\u001b[48;5;179mf\u001b[48;5;185mu\u001b[48;5;77mt\u001b[48;5;80mu\u001b[48;5;68mr\u001b[48;5;134me\u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185m \u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185ma\u001b[48;5;77mn\u001b[48;5;80mn\u001b[48;5;68mo\u001b[48;5;134mt\u001b[48;5;167ma\u001b[48;5;179mt\u001b[48;5;185mi\u001b[48;5;77mo\u001b[48;5;80mn\u001b[48;5;68ms\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mi\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mco\u001b[48;5;179ml\u001b[48;5;185mle\u001b[48;5;77mc\u001b[48;5;80mt\u001b[48;5;68mi\u001b[48;5;134mo\u001b[48;5;167mn\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mi\u001b[48;5;77mte\u001b[48;5;80mr\u001b[48;5;68mt\u001b[48;5;134mo\u001b[48;5;167mo\u001b[48;5;179ml\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mf\u001b[48;5;68mr\u001b[48;5;134mo\u001b[48;5;167mm\u001b[48;5;179m t\u001b[48;5;185my\u001b[48;5;77mp\u001b[48;5;80min\u001b[48;5;68mg\u001b[48;5;134m \u001b[48;5;167mi\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m \u001b[48;5;134mO\u001b[48;5;167mp\u001b[48;5;179mt\u001b[48;5;185mi\u001b[48;5;77mo\u001b[48;5;80mn\u001b[48;5;68mal\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mi\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mr\u001b[48;5;179me\u001b[48;5;185mg\u001b[48;5;77me\u001b[48;5;80mx\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mi\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m t\u001b[48;5;134mi\u001b[48;5;167mk\u001b[48;5;179mt\u001b[48;5;185moken\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mc\u001b[48;5;167ml\u001b[48;5;179ma\u001b[48;5;185ms\u001b[48;5;77ms\u001b[48;5;80m \u001b[48;5;68mS\u001b[48;5;134mi\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mle\u001b[48;5;77mB\u001b[48;5;80myte\u001b[48;5;68mP\u001b[48;5;134ma\u001b[48;5;167mi\u001b[48;5;179mr\u001b[48;5;185mE\u001b[48;5;77mn\u001b[48;5;80mco\u001b[48;5;68md\u001b[48;5;134min\u001b[48;5;167mg\u001b[48;5;179m:\u001b[48;5;185m\n", + " \u001b[48;5;77m \u001b[48;5;80mde\u001b[48;5;68mf\u001b[48;5;134m \u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185min\u001b[48;5;77mi\u001b[48;5;80mt\u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'g' + b'e'\n", + "So we made b'ge' our 291th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\u001b[48;5;179m\"\u001b[48;5;185mT\u001b[48;5;77mh\u001b[48;5;80mis\u001b[48;5;68m \u001b[48;5;134mis\u001b[48;5;167m \u001b[48;5;179ma\u001b[48;5;185mn\u001b[48;5;77m \u001b[48;5;80me\u001b[48;5;68md\u001b[48;5;134mu\u001b[48;5;167mc\u001b[48;5;179ma\u001b[48;5;185mt\u001b[48;5;77mi\u001b[48;5;80mo\u001b[48;5;68mn\u001b[48;5;134mal\u001b[48;5;167m \u001b[48;5;179mi\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80mle\u001b[48;5;68mm\u001b[48;5;134men\u001b[48;5;167mt\u001b[48;5;179ma\u001b[48;5;185mt\u001b[48;5;77mi\u001b[48;5;80mo\u001b[48;5;68mn\u001b[48;5;134m \u001b[48;5;167mo\u001b[48;5;179mf\u001b[48;5;185m t\u001b[48;5;77mh\u001b[48;5;80me\u001b[48;5;68m b\u001b[48;5;134myte\u001b[48;5;167m \u001b[48;5;179mpa\u001b[48;5;185mi\u001b[48;5;77mr\u001b[48;5;80m \u001b[48;5;68men\u001b[48;5;134mco\u001b[48;5;167md\u001b[48;5;179min\u001b[48;5;185mg\u001b[48;5;77m \u001b[48;5;80mal\u001b[48;5;68mg\u001b[48;5;134mor\u001b[48;5;167mi\u001b[48;5;179mt\u001b[48;5;185mh\u001b[48;5;77mm\u001b[48;5;80m.\u001b[48;5;68m\"\"\u001b[48;5;134m\"\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mr\u001b[48;5;77mo\u001b[48;5;80mm\u001b[48;5;68m \u001b[48;5;134m_\u001b[48;5;167m_\u001b[48;5;179mf\u001b[48;5;185mu\u001b[48;5;77mt\u001b[48;5;80mu\u001b[48;5;68mr\u001b[48;5;134me\u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185m \u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185ma\u001b[48;5;77mn\u001b[48;5;80mn\u001b[48;5;68mo\u001b[48;5;134mt\u001b[48;5;167ma\u001b[48;5;179mt\u001b[48;5;185mi\u001b[48;5;77mo\u001b[48;5;80mn\u001b[48;5;68ms\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mi\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mco\u001b[48;5;179ml\u001b[48;5;185mle\u001b[48;5;77mc\u001b[48;5;80mt\u001b[48;5;68mi\u001b[48;5;134mo\u001b[48;5;167mn\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mi\u001b[48;5;77mte\u001b[48;5;80mr\u001b[48;5;68mt\u001b[48;5;134mo\u001b[48;5;167mo\u001b[48;5;179ml\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mf\u001b[48;5;68mr\u001b[48;5;134mo\u001b[48;5;167mm\u001b[48;5;179m t\u001b[48;5;185my\u001b[48;5;77mp\u001b[48;5;80min\u001b[48;5;68mg\u001b[48;5;134m \u001b[48;5;167mi\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m \u001b[48;5;134mO\u001b[48;5;167mp\u001b[48;5;179mt\u001b[48;5;185mi\u001b[48;5;77mo\u001b[48;5;80mn\u001b[48;5;68mal\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mi\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mr\u001b[48;5;179me\u001b[48;5;185mge\u001b[48;5;77mx\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mi\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mt\u001b[48;5;179moken\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mc\u001b[48;5;134ml\u001b[48;5;167ma\u001b[48;5;179ms\u001b[48;5;185ms\u001b[48;5;77m \u001b[48;5;80mS\u001b[48;5;68mi\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179mle\u001b[48;5;185mB\u001b[48;5;77myte\u001b[48;5;80mP\u001b[48;5;68ma\u001b[48;5;134mi\u001b[48;5;167mr\u001b[48;5;179mE\u001b[48;5;185mn\u001b[48;5;77mco\u001b[48;5;80md\u001b[48;5;68min\u001b[48;5;134mg\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m \u001b[48;5;77mde\u001b[48;5;80mf\u001b[48;5;68m \u001b[48;5;134m_\u001b[48;5;167m_\u001b[48;5;179min\u001b[48;5;185mi\u001b[48;5;77mt\u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'a' + b't'\n", + "So we made b'at' our 292th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\u001b[48;5;179m\"\u001b[48;5;185mT\u001b[48;5;77mh\u001b[48;5;80mis\u001b[48;5;68m \u001b[48;5;134mis\u001b[48;5;167m \u001b[48;5;179ma\u001b[48;5;185mn\u001b[48;5;77m \u001b[48;5;80me\u001b[48;5;68md\u001b[48;5;134mu\u001b[48;5;167mc\u001b[48;5;179mat\u001b[48;5;185mi\u001b[48;5;77mo\u001b[48;5;80mn\u001b[48;5;68mal\u001b[48;5;134m \u001b[48;5;167mi\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mle\u001b[48;5;80mm\u001b[48;5;68men\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mi\u001b[48;5;185mo\u001b[48;5;77mn\u001b[48;5;80m \u001b[48;5;68mo\u001b[48;5;134mf\u001b[48;5;167m t\u001b[48;5;179mh\u001b[48;5;185me\u001b[48;5;77m b\u001b[48;5;80myte\u001b[48;5;68m \u001b[48;5;134mpa\u001b[48;5;167mi\u001b[48;5;179mr\u001b[48;5;185m \u001b[48;5;77men\u001b[48;5;80mco\u001b[48;5;68md\u001b[48;5;134min\u001b[48;5;167mg\u001b[48;5;179m \u001b[48;5;185mal\u001b[48;5;77mg\u001b[48;5;80mor\u001b[48;5;68mi\u001b[48;5;134mt\u001b[48;5;167mh\u001b[48;5;179mm\u001b[48;5;185m.\u001b[48;5;77m\"\"\u001b[48;5;80m\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mr\u001b[48;5;179mo\u001b[48;5;185mm\u001b[48;5;77m \u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134mf\u001b[48;5;167mu\u001b[48;5;179mt\u001b[48;5;185mu\u001b[48;5;77mr\u001b[48;5;80me\u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167m \u001b[48;5;179mi\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167ma\u001b[48;5;179mn\u001b[48;5;185mn\u001b[48;5;77mo\u001b[48;5;80mt\u001b[48;5;68mat\u001b[48;5;134mi\u001b[48;5;167mo\u001b[48;5;179mn\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mi\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m \u001b[48;5;80mco\u001b[48;5;68ml\u001b[48;5;134mle\u001b[48;5;167mc\u001b[48;5;179mt\u001b[48;5;185mi\u001b[48;5;77mo\u001b[48;5;80mn\u001b[48;5;68ms\u001b[48;5;134m\n", + "\u001b[48;5;167mi\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m \u001b[48;5;134mi\u001b[48;5;167mte\u001b[48;5;179mr\u001b[48;5;185mt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mr\u001b[48;5;77mo\u001b[48;5;80mm\u001b[48;5;68m t\u001b[48;5;134my\u001b[48;5;167mp\u001b[48;5;179min\u001b[48;5;185mg\u001b[48;5;77m \u001b[48;5;80mi\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mO\u001b[48;5;80mp\u001b[48;5;68mt\u001b[48;5;134mi\u001b[48;5;167mo\u001b[48;5;179mn\u001b[48;5;185mal\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mi\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m \u001b[48;5;80mr\u001b[48;5;68me\u001b[48;5;134mge\u001b[48;5;167mx\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m t\u001b[48;5;185mi\u001b[48;5;77mk\u001b[48;5;80mt\u001b[48;5;68moken\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mc\u001b[48;5;77ml\u001b[48;5;80ma\u001b[48;5;68ms\u001b[48;5;134ms\u001b[48;5;167m \u001b[48;5;179mS\u001b[48;5;185mi\u001b[48;5;77mm\u001b[48;5;80mp\u001b[48;5;68mle\u001b[48;5;134mB\u001b[48;5;167myte\u001b[48;5;179mP\u001b[48;5;185ma\u001b[48;5;77mi\u001b[48;5;80mr\u001b[48;5;68mE\u001b[48;5;134mn\u001b[48;5;167mco\u001b[48;5;179md\u001b[48;5;185min\u001b[48;5;77mg\u001b[48;5;80m:\u001b[48;5;68m\n", + " \u001b[48;5;134m \u001b[48;5;167mde\u001b[48;5;179mf\u001b[48;5;185m \u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68min\u001b[48;5;134mi\u001b[48;5;167mt\u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'o' + b'n'\n", + "So we made b'on' our 293th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\u001b[48;5;179m\"\u001b[48;5;185mT\u001b[48;5;77mh\u001b[48;5;80mis\u001b[48;5;68m \u001b[48;5;134mis\u001b[48;5;167m \u001b[48;5;179ma\u001b[48;5;185mn\u001b[48;5;77m \u001b[48;5;80me\u001b[48;5;68md\u001b[48;5;134mu\u001b[48;5;167mc\u001b[48;5;179mat\u001b[48;5;185mi\u001b[48;5;77mon\u001b[48;5;80mal\u001b[48;5;68m \u001b[48;5;134mi\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mle\u001b[48;5;77mm\u001b[48;5;80men\u001b[48;5;68mt\u001b[48;5;134mat\u001b[48;5;167mi\u001b[48;5;179mon\u001b[48;5;185m \u001b[48;5;77mo\u001b[48;5;80mf\u001b[48;5;68m t\u001b[48;5;134mh\u001b[48;5;167me\u001b[48;5;179m b\u001b[48;5;185myte\u001b[48;5;77m \u001b[48;5;80mpa\u001b[48;5;68mi\u001b[48;5;134mr\u001b[48;5;167m \u001b[48;5;179men\u001b[48;5;185mco\u001b[48;5;77md\u001b[48;5;80min\u001b[48;5;68mg\u001b[48;5;134m \u001b[48;5;167mal\u001b[48;5;179mg\u001b[48;5;185mor\u001b[48;5;77mi\u001b[48;5;80mt\u001b[48;5;68mh\u001b[48;5;134mm\u001b[48;5;167m.\u001b[48;5;179m\"\"\u001b[48;5;185m\"\u001b[48;5;77m\n", + "\u001b[48;5;80mf\u001b[48;5;68mr\u001b[48;5;134mo\u001b[48;5;167mm\u001b[48;5;179m \u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80mf\u001b[48;5;68mu\u001b[48;5;134mt\u001b[48;5;167mu\u001b[48;5;179mr\u001b[48;5;185me\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m \u001b[48;5;134mi\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m \u001b[48;5;68ma\u001b[48;5;134mn\u001b[48;5;167mn\u001b[48;5;179mo\u001b[48;5;185mt\u001b[48;5;77mat\u001b[48;5;80mi\u001b[48;5;68mon\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mi\u001b[48;5;77mm\u001b[48;5;80mp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m \u001b[48;5;179mco\u001b[48;5;185ml\u001b[48;5;77mle\u001b[48;5;80mc\u001b[48;5;68mt\u001b[48;5;134mi\u001b[48;5;167mon\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mi\u001b[48;5;77mte\u001b[48;5;80mr\u001b[48;5;68mt\u001b[48;5;134mo\u001b[48;5;167mo\u001b[48;5;179ml\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mf\u001b[48;5;68mr\u001b[48;5;134mo\u001b[48;5;167mm\u001b[48;5;179m t\u001b[48;5;185my\u001b[48;5;77mp\u001b[48;5;80min\u001b[48;5;68mg\u001b[48;5;134m \u001b[48;5;167mi\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m \u001b[48;5;134mO\u001b[48;5;167mp\u001b[48;5;179mt\u001b[48;5;185mi\u001b[48;5;77mon\u001b[48;5;80mal\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mi\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m \u001b[48;5;134mr\u001b[48;5;167me\u001b[48;5;179mge\u001b[48;5;185mx\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mi\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m t\u001b[48;5;80mi\u001b[48;5;68mk\u001b[48;5;134mt\u001b[48;5;167moken\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mc\u001b[48;5;68ml\u001b[48;5;134ma\u001b[48;5;167ms\u001b[48;5;179ms\u001b[48;5;185m \u001b[48;5;77mS\u001b[48;5;80mi\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mle\u001b[48;5;179mB\u001b[48;5;185myte\u001b[48;5;77mP\u001b[48;5;80ma\u001b[48;5;68mi\u001b[48;5;134mr\u001b[48;5;167mE\u001b[48;5;179mn\u001b[48;5;185mco\u001b[48;5;77md\u001b[48;5;80min\u001b[48;5;68mg\u001b[48;5;134m:\u001b[48;5;167m\n", + " \u001b[48;5;179m \u001b[48;5;185mde\u001b[48;5;77mf\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167min\u001b[48;5;179mi\u001b[48;5;185mt\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'ran' + b'k'\n", + "So we made b'rank' our 294th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\u001b[48;5;179m\"\u001b[48;5;185mT\u001b[48;5;77mh\u001b[48;5;80mis\u001b[48;5;68m \u001b[48;5;134mis\u001b[48;5;167m \u001b[48;5;179ma\u001b[48;5;185mn\u001b[48;5;77m \u001b[48;5;80me\u001b[48;5;68md\u001b[48;5;134mu\u001b[48;5;167mc\u001b[48;5;179mat\u001b[48;5;185mi\u001b[48;5;77mon\u001b[48;5;80mal\u001b[48;5;68m \u001b[48;5;134mi\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mle\u001b[48;5;77mm\u001b[48;5;80men\u001b[48;5;68mt\u001b[48;5;134mat\u001b[48;5;167mi\u001b[48;5;179mon\u001b[48;5;185m \u001b[48;5;77mo\u001b[48;5;80mf\u001b[48;5;68m t\u001b[48;5;134mh\u001b[48;5;167me\u001b[48;5;179m b\u001b[48;5;185myte\u001b[48;5;77m \u001b[48;5;80mpa\u001b[48;5;68mi\u001b[48;5;134mr\u001b[48;5;167m \u001b[48;5;179men\u001b[48;5;185mco\u001b[48;5;77md\u001b[48;5;80min\u001b[48;5;68mg\u001b[48;5;134m \u001b[48;5;167mal\u001b[48;5;179mg\u001b[48;5;185mor\u001b[48;5;77mi\u001b[48;5;80mt\u001b[48;5;68mh\u001b[48;5;134mm\u001b[48;5;167m.\u001b[48;5;179m\"\"\u001b[48;5;185m\"\u001b[48;5;77m\n", + "\u001b[48;5;80mf\u001b[48;5;68mr\u001b[48;5;134mo\u001b[48;5;167mm\u001b[48;5;179m \u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80mf\u001b[48;5;68mu\u001b[48;5;134mt\u001b[48;5;167mu\u001b[48;5;179mr\u001b[48;5;185me\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m \u001b[48;5;134mi\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m \u001b[48;5;68ma\u001b[48;5;134mn\u001b[48;5;167mn\u001b[48;5;179mo\u001b[48;5;185mt\u001b[48;5;77mat\u001b[48;5;80mi\u001b[48;5;68mon\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mi\u001b[48;5;77mm\u001b[48;5;80mp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m \u001b[48;5;179mco\u001b[48;5;185ml\u001b[48;5;77mle\u001b[48;5;80mc\u001b[48;5;68mt\u001b[48;5;134mi\u001b[48;5;167mon\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mi\u001b[48;5;77mte\u001b[48;5;80mr\u001b[48;5;68mt\u001b[48;5;134mo\u001b[48;5;167mo\u001b[48;5;179ml\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mf\u001b[48;5;68mr\u001b[48;5;134mo\u001b[48;5;167mm\u001b[48;5;179m t\u001b[48;5;185my\u001b[48;5;77mp\u001b[48;5;80min\u001b[48;5;68mg\u001b[48;5;134m \u001b[48;5;167mi\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m \u001b[48;5;134mO\u001b[48;5;167mp\u001b[48;5;179mt\u001b[48;5;185mi\u001b[48;5;77mon\u001b[48;5;80mal\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mi\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m \u001b[48;5;134mr\u001b[48;5;167me\u001b[48;5;179mge\u001b[48;5;185mx\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mi\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m t\u001b[48;5;80mi\u001b[48;5;68mk\u001b[48;5;134mt\u001b[48;5;167moken\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mc\u001b[48;5;68ml\u001b[48;5;134ma\u001b[48;5;167ms\u001b[48;5;179ms\u001b[48;5;185m \u001b[48;5;77mS\u001b[48;5;80mi\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mle\u001b[48;5;179mB\u001b[48;5;185myte\u001b[48;5;77mP\u001b[48;5;80ma\u001b[48;5;68mi\u001b[48;5;134mr\u001b[48;5;167mE\u001b[48;5;179mn\u001b[48;5;185mco\u001b[48;5;77md\u001b[48;5;80min\u001b[48;5;68mg\u001b[48;5;134m:\u001b[48;5;167m\n", + " \u001b[48;5;179m \u001b[48;5;185mde\u001b[48;5;77mf\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167min\u001b[48;5;179mi\u001b[48;5;185mt\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'co' + b'de'\n", + "So we made b'code' our 295th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\u001b[48;5;179m\"\u001b[48;5;185mT\u001b[48;5;77mh\u001b[48;5;80mis\u001b[48;5;68m \u001b[48;5;134mis\u001b[48;5;167m \u001b[48;5;179ma\u001b[48;5;185mn\u001b[48;5;77m \u001b[48;5;80me\u001b[48;5;68md\u001b[48;5;134mu\u001b[48;5;167mc\u001b[48;5;179mat\u001b[48;5;185mi\u001b[48;5;77mon\u001b[48;5;80mal\u001b[48;5;68m \u001b[48;5;134mi\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mle\u001b[48;5;77mm\u001b[48;5;80men\u001b[48;5;68mt\u001b[48;5;134mat\u001b[48;5;167mi\u001b[48;5;179mon\u001b[48;5;185m \u001b[48;5;77mo\u001b[48;5;80mf\u001b[48;5;68m t\u001b[48;5;134mh\u001b[48;5;167me\u001b[48;5;179m b\u001b[48;5;185myte\u001b[48;5;77m \u001b[48;5;80mpa\u001b[48;5;68mi\u001b[48;5;134mr\u001b[48;5;167m \u001b[48;5;179men\u001b[48;5;185mco\u001b[48;5;77md\u001b[48;5;80min\u001b[48;5;68mg\u001b[48;5;134m \u001b[48;5;167mal\u001b[48;5;179mg\u001b[48;5;185mor\u001b[48;5;77mi\u001b[48;5;80mt\u001b[48;5;68mh\u001b[48;5;134mm\u001b[48;5;167m.\u001b[48;5;179m\"\"\u001b[48;5;185m\"\u001b[48;5;77m\n", + "\u001b[48;5;80mf\u001b[48;5;68mr\u001b[48;5;134mo\u001b[48;5;167mm\u001b[48;5;179m \u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80mf\u001b[48;5;68mu\u001b[48;5;134mt\u001b[48;5;167mu\u001b[48;5;179mr\u001b[48;5;185me\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m \u001b[48;5;134mi\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m \u001b[48;5;68ma\u001b[48;5;134mn\u001b[48;5;167mn\u001b[48;5;179mo\u001b[48;5;185mt\u001b[48;5;77mat\u001b[48;5;80mi\u001b[48;5;68mon\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mi\u001b[48;5;77mm\u001b[48;5;80mp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m \u001b[48;5;179mco\u001b[48;5;185ml\u001b[48;5;77mle\u001b[48;5;80mc\u001b[48;5;68mt\u001b[48;5;134mi\u001b[48;5;167mon\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mi\u001b[48;5;77mte\u001b[48;5;80mr\u001b[48;5;68mt\u001b[48;5;134mo\u001b[48;5;167mo\u001b[48;5;179ml\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mf\u001b[48;5;68mr\u001b[48;5;134mo\u001b[48;5;167mm\u001b[48;5;179m t\u001b[48;5;185my\u001b[48;5;77mp\u001b[48;5;80min\u001b[48;5;68mg\u001b[48;5;134m \u001b[48;5;167mi\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m \u001b[48;5;134mO\u001b[48;5;167mp\u001b[48;5;179mt\u001b[48;5;185mi\u001b[48;5;77mon\u001b[48;5;80mal\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mi\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m \u001b[48;5;134mr\u001b[48;5;167me\u001b[48;5;179mge\u001b[48;5;185mx\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mi\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m t\u001b[48;5;80mi\u001b[48;5;68mk\u001b[48;5;134mt\u001b[48;5;167moken\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mc\u001b[48;5;68ml\u001b[48;5;134ma\u001b[48;5;167ms\u001b[48;5;179ms\u001b[48;5;185m \u001b[48;5;77mS\u001b[48;5;80mi\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mle\u001b[48;5;179mB\u001b[48;5;185myte\u001b[48;5;77mP\u001b[48;5;80ma\u001b[48;5;68mi\u001b[48;5;134mr\u001b[48;5;167mE\u001b[48;5;179mn\u001b[48;5;185mco\u001b[48;5;77md\u001b[48;5;80min\u001b[48;5;68mg\u001b[48;5;134m:\u001b[48;5;167m\n", + " \u001b[48;5;179m \u001b[48;5;185mde\u001b[48;5;77mf\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167min\u001b[48;5;179mi\u001b[48;5;185mt\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'h' + b'e'\n", + "So we made b'he' our 296th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\u001b[48;5;179m\"\u001b[48;5;185mT\u001b[48;5;77mh\u001b[48;5;80mis\u001b[48;5;68m \u001b[48;5;134mis\u001b[48;5;167m \u001b[48;5;179ma\u001b[48;5;185mn\u001b[48;5;77m \u001b[48;5;80me\u001b[48;5;68md\u001b[48;5;134mu\u001b[48;5;167mc\u001b[48;5;179mat\u001b[48;5;185mi\u001b[48;5;77mon\u001b[48;5;80mal\u001b[48;5;68m \u001b[48;5;134mi\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mle\u001b[48;5;77mm\u001b[48;5;80men\u001b[48;5;68mt\u001b[48;5;134mat\u001b[48;5;167mi\u001b[48;5;179mon\u001b[48;5;185m \u001b[48;5;77mo\u001b[48;5;80mf\u001b[48;5;68m t\u001b[48;5;134mhe\u001b[48;5;167m b\u001b[48;5;179myte\u001b[48;5;185m \u001b[48;5;77mpa\u001b[48;5;80mi\u001b[48;5;68mr\u001b[48;5;134m \u001b[48;5;167men\u001b[48;5;179mco\u001b[48;5;185md\u001b[48;5;77min\u001b[48;5;80mg\u001b[48;5;68m \u001b[48;5;134mal\u001b[48;5;167mg\u001b[48;5;179mor\u001b[48;5;185mi\u001b[48;5;77mt\u001b[48;5;80mh\u001b[48;5;68mm\u001b[48;5;134m.\u001b[48;5;167m\"\"\u001b[48;5;179m\"\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mr\u001b[48;5;68mo\u001b[48;5;134mm\u001b[48;5;167m \u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77mf\u001b[48;5;80mu\u001b[48;5;68mt\u001b[48;5;134mu\u001b[48;5;167mr\u001b[48;5;179me\u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80m \u001b[48;5;68mi\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m \u001b[48;5;80ma\u001b[48;5;68mn\u001b[48;5;134mn\u001b[48;5;167mo\u001b[48;5;179mt\u001b[48;5;185mat\u001b[48;5;77mi\u001b[48;5;80mon\u001b[48;5;68ms\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mi\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mco\u001b[48;5;179ml\u001b[48;5;185mle\u001b[48;5;77mc\u001b[48;5;80mt\u001b[48;5;68mi\u001b[48;5;134mon\u001b[48;5;167ms\u001b[48;5;179m\n", + "\u001b[48;5;185mi\u001b[48;5;77mm\u001b[48;5;80mp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m \u001b[48;5;179mi\u001b[48;5;185mte\u001b[48;5;77mr\u001b[48;5;80mt\u001b[48;5;68mo\u001b[48;5;134mo\u001b[48;5;167ml\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mr\u001b[48;5;68mo\u001b[48;5;134mm\u001b[48;5;167m t\u001b[48;5;179my\u001b[48;5;185mp\u001b[48;5;77min\u001b[48;5;80mg\u001b[48;5;68m \u001b[48;5;134mi\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m \u001b[48;5;68mO\u001b[48;5;134mp\u001b[48;5;167mt\u001b[48;5;179mi\u001b[48;5;185mon\u001b[48;5;77mal\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mi\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m \u001b[48;5;68mr\u001b[48;5;134me\u001b[48;5;167mge\u001b[48;5;179mx\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m t\u001b[48;5;77mi\u001b[48;5;80mk\u001b[48;5;68mt\u001b[48;5;134moken\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mc\u001b[48;5;80ml\u001b[48;5;68ma\u001b[48;5;134ms\u001b[48;5;167ms\u001b[48;5;179m \u001b[48;5;185mS\u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mle\u001b[48;5;167mB\u001b[48;5;179myte\u001b[48;5;185mP\u001b[48;5;77ma\u001b[48;5;80mi\u001b[48;5;68mr\u001b[48;5;134mE\u001b[48;5;167mn\u001b[48;5;179mco\u001b[48;5;185md\u001b[48;5;77min\u001b[48;5;80mg\u001b[48;5;68m:\u001b[48;5;134m\n", + " \u001b[48;5;167m \u001b[48;5;179mde\u001b[48;5;185mf\u001b[48;5;77m \u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134min\u001b[48;5;167mi\u001b[48;5;179mt\u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' ' + b'pa'\n", + "So we made b' pa' our 297th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\u001b[48;5;179m\"\u001b[48;5;185mT\u001b[48;5;77mh\u001b[48;5;80mis\u001b[48;5;68m \u001b[48;5;134mis\u001b[48;5;167m \u001b[48;5;179ma\u001b[48;5;185mn\u001b[48;5;77m \u001b[48;5;80me\u001b[48;5;68md\u001b[48;5;134mu\u001b[48;5;167mc\u001b[48;5;179mat\u001b[48;5;185mi\u001b[48;5;77mon\u001b[48;5;80mal\u001b[48;5;68m \u001b[48;5;134mi\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mle\u001b[48;5;77mm\u001b[48;5;80men\u001b[48;5;68mt\u001b[48;5;134mat\u001b[48;5;167mi\u001b[48;5;179mon\u001b[48;5;185m \u001b[48;5;77mo\u001b[48;5;80mf\u001b[48;5;68m t\u001b[48;5;134mhe\u001b[48;5;167m b\u001b[48;5;179myte\u001b[48;5;185m pa\u001b[48;5;77mi\u001b[48;5;80mr\u001b[48;5;68m \u001b[48;5;134men\u001b[48;5;167mco\u001b[48;5;179md\u001b[48;5;185min\u001b[48;5;77mg\u001b[48;5;80m \u001b[48;5;68mal\u001b[48;5;134mg\u001b[48;5;167mor\u001b[48;5;179mi\u001b[48;5;185mt\u001b[48;5;77mh\u001b[48;5;80mm\u001b[48;5;68m.\u001b[48;5;134m\"\"\u001b[48;5;167m\"\u001b[48;5;179m\n", + "\u001b[48;5;185mf\u001b[48;5;77mr\u001b[48;5;80mo\u001b[48;5;68mm\u001b[48;5;134m \u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185mf\u001b[48;5;77mu\u001b[48;5;80mt\u001b[48;5;68mu\u001b[48;5;134mr\u001b[48;5;167me\u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77m \u001b[48;5;80mi\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77ma\u001b[48;5;80mn\u001b[48;5;68mn\u001b[48;5;134mo\u001b[48;5;167mt\u001b[48;5;179mat\u001b[48;5;185mi\u001b[48;5;77mon\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mi\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m \u001b[48;5;134mco\u001b[48;5;167ml\u001b[48;5;179mle\u001b[48;5;185mc\u001b[48;5;77mt\u001b[48;5;80mi\u001b[48;5;68mon\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mi\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mi\u001b[48;5;179mte\u001b[48;5;185mr\u001b[48;5;77mt\u001b[48;5;80mo\u001b[48;5;68mo\u001b[48;5;134ml\u001b[48;5;167ms\u001b[48;5;179m\n", + "\u001b[48;5;185mf\u001b[48;5;77mr\u001b[48;5;80mo\u001b[48;5;68mm\u001b[48;5;134m t\u001b[48;5;167my\u001b[48;5;179mp\u001b[48;5;185min\u001b[48;5;77mg\u001b[48;5;80m \u001b[48;5;68mi\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m \u001b[48;5;80mO\u001b[48;5;68mp\u001b[48;5;134mt\u001b[48;5;167mi\u001b[48;5;179mon\u001b[48;5;185mal\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mi\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m \u001b[48;5;80mr\u001b[48;5;68me\u001b[48;5;134mge\u001b[48;5;167mx\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m t\u001b[48;5;185mi\u001b[48;5;77mk\u001b[48;5;80mt\u001b[48;5;68moken\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mc\u001b[48;5;77ml\u001b[48;5;80ma\u001b[48;5;68ms\u001b[48;5;134ms\u001b[48;5;167m \u001b[48;5;179mS\u001b[48;5;185mi\u001b[48;5;77mm\u001b[48;5;80mp\u001b[48;5;68mle\u001b[48;5;134mB\u001b[48;5;167myte\u001b[48;5;179mP\u001b[48;5;185ma\u001b[48;5;77mi\u001b[48;5;80mr\u001b[48;5;68mE\u001b[48;5;134mn\u001b[48;5;167mco\u001b[48;5;179md\u001b[48;5;185min\u001b[48;5;77mg\u001b[48;5;80m:\u001b[48;5;68m\n", + " \u001b[48;5;134m \u001b[48;5;167mde\u001b[48;5;179mf\u001b[48;5;185m \u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68min\u001b[48;5;134mi\u001b[48;5;167mt\u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'i' + b'r'\n", + "So we made b'ir' our 298th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\u001b[48;5;179m\"\u001b[48;5;185mT\u001b[48;5;77mh\u001b[48;5;80mis\u001b[48;5;68m \u001b[48;5;134mis\u001b[48;5;167m \u001b[48;5;179ma\u001b[48;5;185mn\u001b[48;5;77m \u001b[48;5;80me\u001b[48;5;68md\u001b[48;5;134mu\u001b[48;5;167mc\u001b[48;5;179mat\u001b[48;5;185mi\u001b[48;5;77mon\u001b[48;5;80mal\u001b[48;5;68m \u001b[48;5;134mi\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mle\u001b[48;5;77mm\u001b[48;5;80men\u001b[48;5;68mt\u001b[48;5;134mat\u001b[48;5;167mi\u001b[48;5;179mon\u001b[48;5;185m \u001b[48;5;77mo\u001b[48;5;80mf\u001b[48;5;68m t\u001b[48;5;134mhe\u001b[48;5;167m b\u001b[48;5;179myte\u001b[48;5;185m pa\u001b[48;5;77mir\u001b[48;5;80m \u001b[48;5;68men\u001b[48;5;134mco\u001b[48;5;167md\u001b[48;5;179min\u001b[48;5;185mg\u001b[48;5;77m \u001b[48;5;80mal\u001b[48;5;68mg\u001b[48;5;134mor\u001b[48;5;167mi\u001b[48;5;179mt\u001b[48;5;185mh\u001b[48;5;77mm\u001b[48;5;80m.\u001b[48;5;68m\"\"\u001b[48;5;134m\"\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mr\u001b[48;5;77mo\u001b[48;5;80mm\u001b[48;5;68m \u001b[48;5;134m_\u001b[48;5;167m_\u001b[48;5;179mf\u001b[48;5;185mu\u001b[48;5;77mt\u001b[48;5;80mu\u001b[48;5;68mr\u001b[48;5;134me\u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185m \u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185ma\u001b[48;5;77mn\u001b[48;5;80mn\u001b[48;5;68mo\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mi\u001b[48;5;185mon\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mi\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m \u001b[48;5;68mco\u001b[48;5;134ml\u001b[48;5;167mle\u001b[48;5;179mc\u001b[48;5;185mt\u001b[48;5;77mi\u001b[48;5;80mon\u001b[48;5;68ms\u001b[48;5;134m\n", + "\u001b[48;5;167mi\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m \u001b[48;5;134mi\u001b[48;5;167mte\u001b[48;5;179mr\u001b[48;5;185mt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mr\u001b[48;5;77mo\u001b[48;5;80mm\u001b[48;5;68m t\u001b[48;5;134my\u001b[48;5;167mp\u001b[48;5;179min\u001b[48;5;185mg\u001b[48;5;77m \u001b[48;5;80mi\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mO\u001b[48;5;80mp\u001b[48;5;68mt\u001b[48;5;134mi\u001b[48;5;167mon\u001b[48;5;179mal\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mr\u001b[48;5;80me\u001b[48;5;68mge\u001b[48;5;134mx\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mi\u001b[48;5;77mm\u001b[48;5;80mp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m t\u001b[48;5;179mi\u001b[48;5;185mk\u001b[48;5;77mt\u001b[48;5;80moken\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mc\u001b[48;5;185ml\u001b[48;5;77ma\u001b[48;5;80ms\u001b[48;5;68ms\u001b[48;5;134m \u001b[48;5;167mS\u001b[48;5;179mi\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80mle\u001b[48;5;68mB\u001b[48;5;134myte\u001b[48;5;167mP\u001b[48;5;179ma\u001b[48;5;185mir\u001b[48;5;77mE\u001b[48;5;80mn\u001b[48;5;68mco\u001b[48;5;134md\u001b[48;5;167min\u001b[48;5;179mg\u001b[48;5;185m:\u001b[48;5;77m\n", + " \u001b[48;5;80m \u001b[48;5;68mde\u001b[48;5;134mf\u001b[48;5;167m \u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77min\u001b[48;5;80mi\u001b[48;5;68mt\u001b[48;5;134m_\u001b[48;5;167m_\u001b[48;5;179m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'r' + b'e'\n", + "So we made b're' our 299th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\u001b[48;5;179m\"\u001b[48;5;185mT\u001b[48;5;77mh\u001b[48;5;80mis\u001b[48;5;68m \u001b[48;5;134mis\u001b[48;5;167m \u001b[48;5;179ma\u001b[48;5;185mn\u001b[48;5;77m \u001b[48;5;80me\u001b[48;5;68md\u001b[48;5;134mu\u001b[48;5;167mc\u001b[48;5;179mat\u001b[48;5;185mi\u001b[48;5;77mon\u001b[48;5;80mal\u001b[48;5;68m \u001b[48;5;134mi\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mle\u001b[48;5;77mm\u001b[48;5;80men\u001b[48;5;68mt\u001b[48;5;134mat\u001b[48;5;167mi\u001b[48;5;179mon\u001b[48;5;185m \u001b[48;5;77mo\u001b[48;5;80mf\u001b[48;5;68m t\u001b[48;5;134mhe\u001b[48;5;167m b\u001b[48;5;179myte\u001b[48;5;185m pa\u001b[48;5;77mir\u001b[48;5;80m \u001b[48;5;68men\u001b[48;5;134mco\u001b[48;5;167md\u001b[48;5;179min\u001b[48;5;185mg\u001b[48;5;77m \u001b[48;5;80mal\u001b[48;5;68mg\u001b[48;5;134mor\u001b[48;5;167mi\u001b[48;5;179mt\u001b[48;5;185mh\u001b[48;5;77mm\u001b[48;5;80m.\u001b[48;5;68m\"\"\u001b[48;5;134m\"\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mr\u001b[48;5;77mo\u001b[48;5;80mm\u001b[48;5;68m \u001b[48;5;134m_\u001b[48;5;167m_\u001b[48;5;179mf\u001b[48;5;185mu\u001b[48;5;77mt\u001b[48;5;80mu\u001b[48;5;68mre\u001b[48;5;134m_\u001b[48;5;167m_\u001b[48;5;179m \u001b[48;5;185mi\u001b[48;5;77mm\u001b[48;5;80mp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m \u001b[48;5;179ma\u001b[48;5;185mn\u001b[48;5;77mn\u001b[48;5;80mo\u001b[48;5;68mt\u001b[48;5;134mat\u001b[48;5;167mi\u001b[48;5;179mon\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mi\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m \u001b[48;5;80mco\u001b[48;5;68ml\u001b[48;5;134mle\u001b[48;5;167mc\u001b[48;5;179mt\u001b[48;5;185mi\u001b[48;5;77mon\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mi\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m \u001b[48;5;68mi\u001b[48;5;134mte\u001b[48;5;167mr\u001b[48;5;179mt\u001b[48;5;185mo\u001b[48;5;77mo\u001b[48;5;80ml\u001b[48;5;68ms\u001b[48;5;134m\n", + "\u001b[48;5;167mf\u001b[48;5;179mr\u001b[48;5;185mo\u001b[48;5;77mm\u001b[48;5;80m t\u001b[48;5;68my\u001b[48;5;134mp\u001b[48;5;167min\u001b[48;5;179mg\u001b[48;5;185m \u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mO\u001b[48;5;77mp\u001b[48;5;80mt\u001b[48;5;68mi\u001b[48;5;134mon\u001b[48;5;167mal\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mre\u001b[48;5;77mge\u001b[48;5;80mx\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mi\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m t\u001b[48;5;134mi\u001b[48;5;167mk\u001b[48;5;179mt\u001b[48;5;185moken\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mc\u001b[48;5;167ml\u001b[48;5;179ma\u001b[48;5;185ms\u001b[48;5;77ms\u001b[48;5;80m \u001b[48;5;68mS\u001b[48;5;134mi\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mle\u001b[48;5;77mB\u001b[48;5;80myte\u001b[48;5;68mP\u001b[48;5;134ma\u001b[48;5;167mir\u001b[48;5;179mE\u001b[48;5;185mn\u001b[48;5;77mco\u001b[48;5;80md\u001b[48;5;68min\u001b[48;5;134mg\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m \u001b[48;5;77mde\u001b[48;5;80mf\u001b[48;5;68m \u001b[48;5;134m_\u001b[48;5;167m_\u001b[48;5;179min\u001b[48;5;185mi\u001b[48;5;77mt\u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'st' + b'r'\n", + "So we made b'str' our 300th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\u001b[48;5;179m\"\u001b[48;5;185mT\u001b[48;5;77mh\u001b[48;5;80mis\u001b[48;5;68m \u001b[48;5;134mis\u001b[48;5;167m \u001b[48;5;179ma\u001b[48;5;185mn\u001b[48;5;77m \u001b[48;5;80me\u001b[48;5;68md\u001b[48;5;134mu\u001b[48;5;167mc\u001b[48;5;179mat\u001b[48;5;185mi\u001b[48;5;77mon\u001b[48;5;80mal\u001b[48;5;68m \u001b[48;5;134mi\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mle\u001b[48;5;77mm\u001b[48;5;80men\u001b[48;5;68mt\u001b[48;5;134mat\u001b[48;5;167mi\u001b[48;5;179mon\u001b[48;5;185m \u001b[48;5;77mo\u001b[48;5;80mf\u001b[48;5;68m t\u001b[48;5;134mhe\u001b[48;5;167m b\u001b[48;5;179myte\u001b[48;5;185m pa\u001b[48;5;77mir\u001b[48;5;80m \u001b[48;5;68men\u001b[48;5;134mco\u001b[48;5;167md\u001b[48;5;179min\u001b[48;5;185mg\u001b[48;5;77m \u001b[48;5;80mal\u001b[48;5;68mg\u001b[48;5;134mor\u001b[48;5;167mi\u001b[48;5;179mt\u001b[48;5;185mh\u001b[48;5;77mm\u001b[48;5;80m.\u001b[48;5;68m\"\"\u001b[48;5;134m\"\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mr\u001b[48;5;77mo\u001b[48;5;80mm\u001b[48;5;68m \u001b[48;5;134m_\u001b[48;5;167m_\u001b[48;5;179mf\u001b[48;5;185mu\u001b[48;5;77mt\u001b[48;5;80mu\u001b[48;5;68mre\u001b[48;5;134m_\u001b[48;5;167m_\u001b[48;5;179m \u001b[48;5;185mi\u001b[48;5;77mm\u001b[48;5;80mp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m \u001b[48;5;179ma\u001b[48;5;185mn\u001b[48;5;77mn\u001b[48;5;80mo\u001b[48;5;68mt\u001b[48;5;134mat\u001b[48;5;167mi\u001b[48;5;179mon\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mi\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m \u001b[48;5;80mco\u001b[48;5;68ml\u001b[48;5;134mle\u001b[48;5;167mc\u001b[48;5;179mt\u001b[48;5;185mi\u001b[48;5;77mon\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mi\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m \u001b[48;5;68mi\u001b[48;5;134mte\u001b[48;5;167mr\u001b[48;5;179mt\u001b[48;5;185mo\u001b[48;5;77mo\u001b[48;5;80ml\u001b[48;5;68ms\u001b[48;5;134m\n", + "\u001b[48;5;167mf\u001b[48;5;179mr\u001b[48;5;185mo\u001b[48;5;77mm\u001b[48;5;80m t\u001b[48;5;68my\u001b[48;5;134mp\u001b[48;5;167min\u001b[48;5;179mg\u001b[48;5;185m \u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mO\u001b[48;5;77mp\u001b[48;5;80mt\u001b[48;5;68mi\u001b[48;5;134mon\u001b[48;5;167mal\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mre\u001b[48;5;77mge\u001b[48;5;80mx\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mi\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m t\u001b[48;5;134mi\u001b[48;5;167mk\u001b[48;5;179mt\u001b[48;5;185moken\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mc\u001b[48;5;167ml\u001b[48;5;179ma\u001b[48;5;185ms\u001b[48;5;77ms\u001b[48;5;80m \u001b[48;5;68mS\u001b[48;5;134mi\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mle\u001b[48;5;77mB\u001b[48;5;80myte\u001b[48;5;68mP\u001b[48;5;134ma\u001b[48;5;167mir\u001b[48;5;179mE\u001b[48;5;185mn\u001b[48;5;77mco\u001b[48;5;80md\u001b[48;5;68min\u001b[48;5;134mg\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m \u001b[48;5;77mde\u001b[48;5;80mf\u001b[48;5;68m \u001b[48;5;134m_\u001b[48;5;167m_\u001b[48;5;179min\u001b[48;5;185mi\u001b[48;5;77mt\u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' ' + b'i'\n", + "So we made b' i' our 301th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\u001b[48;5;179m\"\u001b[48;5;185mT\u001b[48;5;77mh\u001b[48;5;80mis\u001b[48;5;68m \u001b[48;5;134mis\u001b[48;5;167m \u001b[48;5;179ma\u001b[48;5;185mn\u001b[48;5;77m \u001b[48;5;80me\u001b[48;5;68md\u001b[48;5;134mu\u001b[48;5;167mc\u001b[48;5;179mat\u001b[48;5;185mi\u001b[48;5;77mon\u001b[48;5;80mal\u001b[48;5;68m i\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179mle\u001b[48;5;185mm\u001b[48;5;77men\u001b[48;5;80mt\u001b[48;5;68mat\u001b[48;5;134mi\u001b[48;5;167mon\u001b[48;5;179m \u001b[48;5;185mo\u001b[48;5;77mf\u001b[48;5;80m t\u001b[48;5;68mhe\u001b[48;5;134m b\u001b[48;5;167myte\u001b[48;5;179m pa\u001b[48;5;185mir\u001b[48;5;77m \u001b[48;5;80men\u001b[48;5;68mco\u001b[48;5;134md\u001b[48;5;167min\u001b[48;5;179mg\u001b[48;5;185m \u001b[48;5;77mal\u001b[48;5;80mg\u001b[48;5;68mor\u001b[48;5;134mi\u001b[48;5;167mt\u001b[48;5;179mh\u001b[48;5;185mm\u001b[48;5;77m.\u001b[48;5;80m\"\"\u001b[48;5;68m\"\u001b[48;5;134m\n", + "\u001b[48;5;167mf\u001b[48;5;179mr\u001b[48;5;185mo\u001b[48;5;77mm\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167mf\u001b[48;5;179mu\u001b[48;5;185mt\u001b[48;5;77mu\u001b[48;5;80mre\u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167m i\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m \u001b[48;5;134ma\u001b[48;5;167mn\u001b[48;5;179mn\u001b[48;5;185mo\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mi\u001b[48;5;134mon\u001b[48;5;167ms\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mco\u001b[48;5;77ml\u001b[48;5;80mle\u001b[48;5;68mc\u001b[48;5;134mt\u001b[48;5;167mi\u001b[48;5;179mon\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m i\u001b[48;5;77mte\u001b[48;5;80mr\u001b[48;5;68mt\u001b[48;5;134mo\u001b[48;5;167mo\u001b[48;5;179ml\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mf\u001b[48;5;68mr\u001b[48;5;134mo\u001b[48;5;167mm\u001b[48;5;179m t\u001b[48;5;185my\u001b[48;5;77mp\u001b[48;5;80min\u001b[48;5;68mg\u001b[48;5;134m i\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m \u001b[48;5;68mO\u001b[48;5;134mp\u001b[48;5;167mt\u001b[48;5;179mi\u001b[48;5;185mon\u001b[48;5;77mal\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mi\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m \u001b[48;5;68mre\u001b[48;5;134mge\u001b[48;5;167mx\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m t\u001b[48;5;185mi\u001b[48;5;77mk\u001b[48;5;80mt\u001b[48;5;68moken\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mc\u001b[48;5;77ml\u001b[48;5;80ma\u001b[48;5;68ms\u001b[48;5;134ms\u001b[48;5;167m \u001b[48;5;179mS\u001b[48;5;185mi\u001b[48;5;77mm\u001b[48;5;80mp\u001b[48;5;68mle\u001b[48;5;134mB\u001b[48;5;167myte\u001b[48;5;179mP\u001b[48;5;185ma\u001b[48;5;77mir\u001b[48;5;80mE\u001b[48;5;68mn\u001b[48;5;134mco\u001b[48;5;167md\u001b[48;5;179min\u001b[48;5;185mg\u001b[48;5;77m:\u001b[48;5;80m\n", + " \u001b[48;5;68m \u001b[48;5;134mde\u001b[48;5;167mf\u001b[48;5;179m \u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80min\u001b[48;5;68mi\u001b[48;5;134mt\u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'in' + b'g'\n", + "So we made b'ing' our 302th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\u001b[48;5;179m\"\u001b[48;5;185mT\u001b[48;5;77mh\u001b[48;5;80mis\u001b[48;5;68m \u001b[48;5;134mis\u001b[48;5;167m \u001b[48;5;179ma\u001b[48;5;185mn\u001b[48;5;77m \u001b[48;5;80me\u001b[48;5;68md\u001b[48;5;134mu\u001b[48;5;167mc\u001b[48;5;179mat\u001b[48;5;185mi\u001b[48;5;77mon\u001b[48;5;80mal\u001b[48;5;68m i\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179mle\u001b[48;5;185mm\u001b[48;5;77men\u001b[48;5;80mt\u001b[48;5;68mat\u001b[48;5;134mi\u001b[48;5;167mon\u001b[48;5;179m \u001b[48;5;185mo\u001b[48;5;77mf\u001b[48;5;80m t\u001b[48;5;68mhe\u001b[48;5;134m b\u001b[48;5;167myte\u001b[48;5;179m pa\u001b[48;5;185mir\u001b[48;5;77m \u001b[48;5;80men\u001b[48;5;68mco\u001b[48;5;134md\u001b[48;5;167ming\u001b[48;5;179m \u001b[48;5;185mal\u001b[48;5;77mg\u001b[48;5;80mor\u001b[48;5;68mi\u001b[48;5;134mt\u001b[48;5;167mh\u001b[48;5;179mm\u001b[48;5;185m.\u001b[48;5;77m\"\"\u001b[48;5;80m\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mr\u001b[48;5;179mo\u001b[48;5;185mm\u001b[48;5;77m \u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134mf\u001b[48;5;167mu\u001b[48;5;179mt\u001b[48;5;185mu\u001b[48;5;77mre\u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134m i\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m \u001b[48;5;68ma\u001b[48;5;134mn\u001b[48;5;167mn\u001b[48;5;179mo\u001b[48;5;185mt\u001b[48;5;77mat\u001b[48;5;80mi\u001b[48;5;68mon\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mi\u001b[48;5;77mm\u001b[48;5;80mp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m \u001b[48;5;179mco\u001b[48;5;185ml\u001b[48;5;77mle\u001b[48;5;80mc\u001b[48;5;68mt\u001b[48;5;134mi\u001b[48;5;167mon\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m i\u001b[48;5;185mte\u001b[48;5;77mr\u001b[48;5;80mt\u001b[48;5;68mo\u001b[48;5;134mo\u001b[48;5;167ml\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mr\u001b[48;5;68mo\u001b[48;5;134mm\u001b[48;5;167m t\u001b[48;5;179my\u001b[48;5;185mp\u001b[48;5;77ming\u001b[48;5;80m i\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mO\u001b[48;5;80mp\u001b[48;5;68mt\u001b[48;5;134mi\u001b[48;5;167mon\u001b[48;5;179mal\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mre\u001b[48;5;80mge\u001b[48;5;68mx\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mi\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m t\u001b[48;5;167mi\u001b[48;5;179mk\u001b[48;5;185mt\u001b[48;5;77moken\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mc\u001b[48;5;179ml\u001b[48;5;185ma\u001b[48;5;77ms\u001b[48;5;80ms\u001b[48;5;68m \u001b[48;5;134mS\u001b[48;5;167mi\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mle\u001b[48;5;80mB\u001b[48;5;68myte\u001b[48;5;134mP\u001b[48;5;167ma\u001b[48;5;179mir\u001b[48;5;185mE\u001b[48;5;77mn\u001b[48;5;80mco\u001b[48;5;68md\u001b[48;5;134ming\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m \u001b[48;5;77mde\u001b[48;5;80mf\u001b[48;5;68m \u001b[48;5;134m_\u001b[48;5;167m_\u001b[48;5;179min\u001b[48;5;185mi\u001b[48;5;77mt\u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' ' + b'f'\n", + "So we made b' f' our 303th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\u001b[48;5;179m\"\u001b[48;5;185mT\u001b[48;5;77mh\u001b[48;5;80mis\u001b[48;5;68m \u001b[48;5;134mis\u001b[48;5;167m \u001b[48;5;179ma\u001b[48;5;185mn\u001b[48;5;77m \u001b[48;5;80me\u001b[48;5;68md\u001b[48;5;134mu\u001b[48;5;167mc\u001b[48;5;179mat\u001b[48;5;185mi\u001b[48;5;77mon\u001b[48;5;80mal\u001b[48;5;68m i\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179mle\u001b[48;5;185mm\u001b[48;5;77men\u001b[48;5;80mt\u001b[48;5;68mat\u001b[48;5;134mi\u001b[48;5;167mon\u001b[48;5;179m \u001b[48;5;185mo\u001b[48;5;77mf\u001b[48;5;80m t\u001b[48;5;68mhe\u001b[48;5;134m b\u001b[48;5;167myte\u001b[48;5;179m pa\u001b[48;5;185mir\u001b[48;5;77m \u001b[48;5;80men\u001b[48;5;68mco\u001b[48;5;134md\u001b[48;5;167ming\u001b[48;5;179m \u001b[48;5;185mal\u001b[48;5;77mg\u001b[48;5;80mor\u001b[48;5;68mi\u001b[48;5;134mt\u001b[48;5;167mh\u001b[48;5;179mm\u001b[48;5;185m.\u001b[48;5;77m\"\"\u001b[48;5;80m\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mr\u001b[48;5;179mo\u001b[48;5;185mm\u001b[48;5;77m \u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134mf\u001b[48;5;167mu\u001b[48;5;179mt\u001b[48;5;185mu\u001b[48;5;77mre\u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134m i\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m \u001b[48;5;68ma\u001b[48;5;134mn\u001b[48;5;167mn\u001b[48;5;179mo\u001b[48;5;185mt\u001b[48;5;77mat\u001b[48;5;80mi\u001b[48;5;68mon\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mi\u001b[48;5;77mm\u001b[48;5;80mp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m \u001b[48;5;179mco\u001b[48;5;185ml\u001b[48;5;77mle\u001b[48;5;80mc\u001b[48;5;68mt\u001b[48;5;134mi\u001b[48;5;167mon\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m i\u001b[48;5;185mte\u001b[48;5;77mr\u001b[48;5;80mt\u001b[48;5;68mo\u001b[48;5;134mo\u001b[48;5;167ml\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mr\u001b[48;5;68mo\u001b[48;5;134mm\u001b[48;5;167m t\u001b[48;5;179my\u001b[48;5;185mp\u001b[48;5;77ming\u001b[48;5;80m i\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mO\u001b[48;5;80mp\u001b[48;5;68mt\u001b[48;5;134mi\u001b[48;5;167mon\u001b[48;5;179mal\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mre\u001b[48;5;80mge\u001b[48;5;68mx\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mi\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m t\u001b[48;5;167mi\u001b[48;5;179mk\u001b[48;5;185mt\u001b[48;5;77moken\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mc\u001b[48;5;179ml\u001b[48;5;185ma\u001b[48;5;77ms\u001b[48;5;80ms\u001b[48;5;68m \u001b[48;5;134mS\u001b[48;5;167mi\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mle\u001b[48;5;80mB\u001b[48;5;68myte\u001b[48;5;134mP\u001b[48;5;167ma\u001b[48;5;179mir\u001b[48;5;185mE\u001b[48;5;77mn\u001b[48;5;80mco\u001b[48;5;68md\u001b[48;5;134ming\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m \u001b[48;5;77mde\u001b[48;5;80mf\u001b[48;5;68m \u001b[48;5;134m_\u001b[48;5;167m_\u001b[48;5;179min\u001b[48;5;185mi\u001b[48;5;77mt\u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' w' + b'ord'\n", + "So we made b' word' our 304th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\u001b[48;5;179m\"\u001b[48;5;185mT\u001b[48;5;77mh\u001b[48;5;80mis\u001b[48;5;68m \u001b[48;5;134mis\u001b[48;5;167m \u001b[48;5;179ma\u001b[48;5;185mn\u001b[48;5;77m \u001b[48;5;80me\u001b[48;5;68md\u001b[48;5;134mu\u001b[48;5;167mc\u001b[48;5;179mat\u001b[48;5;185mi\u001b[48;5;77mon\u001b[48;5;80mal\u001b[48;5;68m i\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179mle\u001b[48;5;185mm\u001b[48;5;77men\u001b[48;5;80mt\u001b[48;5;68mat\u001b[48;5;134mi\u001b[48;5;167mon\u001b[48;5;179m \u001b[48;5;185mo\u001b[48;5;77mf\u001b[48;5;80m t\u001b[48;5;68mhe\u001b[48;5;134m b\u001b[48;5;167myte\u001b[48;5;179m pa\u001b[48;5;185mir\u001b[48;5;77m \u001b[48;5;80men\u001b[48;5;68mco\u001b[48;5;134md\u001b[48;5;167ming\u001b[48;5;179m \u001b[48;5;185mal\u001b[48;5;77mg\u001b[48;5;80mor\u001b[48;5;68mi\u001b[48;5;134mt\u001b[48;5;167mh\u001b[48;5;179mm\u001b[48;5;185m.\u001b[48;5;77m\"\"\u001b[48;5;80m\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mr\u001b[48;5;179mo\u001b[48;5;185mm\u001b[48;5;77m \u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134mf\u001b[48;5;167mu\u001b[48;5;179mt\u001b[48;5;185mu\u001b[48;5;77mre\u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134m i\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m \u001b[48;5;68ma\u001b[48;5;134mn\u001b[48;5;167mn\u001b[48;5;179mo\u001b[48;5;185mt\u001b[48;5;77mat\u001b[48;5;80mi\u001b[48;5;68mon\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mi\u001b[48;5;77mm\u001b[48;5;80mp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m \u001b[48;5;179mco\u001b[48;5;185ml\u001b[48;5;77mle\u001b[48;5;80mc\u001b[48;5;68mt\u001b[48;5;134mi\u001b[48;5;167mon\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m i\u001b[48;5;185mte\u001b[48;5;77mr\u001b[48;5;80mt\u001b[48;5;68mo\u001b[48;5;134mo\u001b[48;5;167ml\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mr\u001b[48;5;68mo\u001b[48;5;134mm\u001b[48;5;167m t\u001b[48;5;179my\u001b[48;5;185mp\u001b[48;5;77ming\u001b[48;5;80m i\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mO\u001b[48;5;80mp\u001b[48;5;68mt\u001b[48;5;134mi\u001b[48;5;167mon\u001b[48;5;179mal\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mre\u001b[48;5;80mge\u001b[48;5;68mx\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mi\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m t\u001b[48;5;167mi\u001b[48;5;179mk\u001b[48;5;185mt\u001b[48;5;77moken\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mc\u001b[48;5;179ml\u001b[48;5;185ma\u001b[48;5;77ms\u001b[48;5;80ms\u001b[48;5;68m \u001b[48;5;134mS\u001b[48;5;167mi\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mle\u001b[48;5;80mB\u001b[48;5;68myte\u001b[48;5;134mP\u001b[48;5;167ma\u001b[48;5;179mir\u001b[48;5;185mE\u001b[48;5;77mn\u001b[48;5;80mco\u001b[48;5;68md\u001b[48;5;134ming\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m \u001b[48;5;77mde\u001b[48;5;80mf\u001b[48;5;68m \u001b[48;5;134m_\u001b[48;5;167m_\u001b[48;5;179min\u001b[48;5;185mi\u001b[48;5;77mt\u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'u' + b'r'\n", + "So we made b'ur' our 305th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\u001b[48;5;179m\"\u001b[48;5;185mT\u001b[48;5;77mh\u001b[48;5;80mis\u001b[48;5;68m \u001b[48;5;134mis\u001b[48;5;167m \u001b[48;5;179ma\u001b[48;5;185mn\u001b[48;5;77m \u001b[48;5;80me\u001b[48;5;68md\u001b[48;5;134mu\u001b[48;5;167mc\u001b[48;5;179mat\u001b[48;5;185mi\u001b[48;5;77mon\u001b[48;5;80mal\u001b[48;5;68m i\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179mle\u001b[48;5;185mm\u001b[48;5;77men\u001b[48;5;80mt\u001b[48;5;68mat\u001b[48;5;134mi\u001b[48;5;167mon\u001b[48;5;179m \u001b[48;5;185mo\u001b[48;5;77mf\u001b[48;5;80m t\u001b[48;5;68mhe\u001b[48;5;134m b\u001b[48;5;167myte\u001b[48;5;179m pa\u001b[48;5;185mir\u001b[48;5;77m \u001b[48;5;80men\u001b[48;5;68mco\u001b[48;5;134md\u001b[48;5;167ming\u001b[48;5;179m \u001b[48;5;185mal\u001b[48;5;77mg\u001b[48;5;80mor\u001b[48;5;68mi\u001b[48;5;134mt\u001b[48;5;167mh\u001b[48;5;179mm\u001b[48;5;185m.\u001b[48;5;77m\"\"\u001b[48;5;80m\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mr\u001b[48;5;179mo\u001b[48;5;185mm\u001b[48;5;77m \u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134mf\u001b[48;5;167mu\u001b[48;5;179mt\u001b[48;5;185mu\u001b[48;5;77mre\u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134m i\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m \u001b[48;5;68ma\u001b[48;5;134mn\u001b[48;5;167mn\u001b[48;5;179mo\u001b[48;5;185mt\u001b[48;5;77mat\u001b[48;5;80mi\u001b[48;5;68mon\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mi\u001b[48;5;77mm\u001b[48;5;80mp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m \u001b[48;5;179mco\u001b[48;5;185ml\u001b[48;5;77mle\u001b[48;5;80mc\u001b[48;5;68mt\u001b[48;5;134mi\u001b[48;5;167mon\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m i\u001b[48;5;185mte\u001b[48;5;77mr\u001b[48;5;80mt\u001b[48;5;68mo\u001b[48;5;134mo\u001b[48;5;167ml\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mr\u001b[48;5;68mo\u001b[48;5;134mm\u001b[48;5;167m t\u001b[48;5;179my\u001b[48;5;185mp\u001b[48;5;77ming\u001b[48;5;80m i\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mO\u001b[48;5;80mp\u001b[48;5;68mt\u001b[48;5;134mi\u001b[48;5;167mon\u001b[48;5;179mal\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mre\u001b[48;5;80mge\u001b[48;5;68mx\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mi\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m t\u001b[48;5;167mi\u001b[48;5;179mk\u001b[48;5;185mt\u001b[48;5;77moken\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mc\u001b[48;5;179ml\u001b[48;5;185ma\u001b[48;5;77ms\u001b[48;5;80ms\u001b[48;5;68m \u001b[48;5;134mS\u001b[48;5;167mi\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mle\u001b[48;5;80mB\u001b[48;5;68myte\u001b[48;5;134mP\u001b[48;5;167ma\u001b[48;5;179mir\u001b[48;5;185mE\u001b[48;5;77mn\u001b[48;5;80mco\u001b[48;5;68md\u001b[48;5;134ming\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m \u001b[48;5;77mde\u001b[48;5;80mf\u001b[48;5;68m \u001b[48;5;134m_\u001b[48;5;167m_\u001b[48;5;179min\u001b[48;5;185mi\u001b[48;5;77mt\u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'b' + b'ytes'\n", + "So we made b'bytes' our 306th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\u001b[48;5;179m\"\u001b[48;5;185mT\u001b[48;5;77mh\u001b[48;5;80mis\u001b[48;5;68m \u001b[48;5;134mis\u001b[48;5;167m \u001b[48;5;179ma\u001b[48;5;185mn\u001b[48;5;77m \u001b[48;5;80me\u001b[48;5;68md\u001b[48;5;134mu\u001b[48;5;167mc\u001b[48;5;179mat\u001b[48;5;185mi\u001b[48;5;77mon\u001b[48;5;80mal\u001b[48;5;68m i\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179mle\u001b[48;5;185mm\u001b[48;5;77men\u001b[48;5;80mt\u001b[48;5;68mat\u001b[48;5;134mi\u001b[48;5;167mon\u001b[48;5;179m \u001b[48;5;185mo\u001b[48;5;77mf\u001b[48;5;80m t\u001b[48;5;68mhe\u001b[48;5;134m b\u001b[48;5;167myte\u001b[48;5;179m pa\u001b[48;5;185mir\u001b[48;5;77m \u001b[48;5;80men\u001b[48;5;68mco\u001b[48;5;134md\u001b[48;5;167ming\u001b[48;5;179m \u001b[48;5;185mal\u001b[48;5;77mg\u001b[48;5;80mor\u001b[48;5;68mi\u001b[48;5;134mt\u001b[48;5;167mh\u001b[48;5;179mm\u001b[48;5;185m.\u001b[48;5;77m\"\"\u001b[48;5;80m\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mr\u001b[48;5;179mo\u001b[48;5;185mm\u001b[48;5;77m \u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134mf\u001b[48;5;167mu\u001b[48;5;179mt\u001b[48;5;185mu\u001b[48;5;77mre\u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134m i\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m \u001b[48;5;68ma\u001b[48;5;134mn\u001b[48;5;167mn\u001b[48;5;179mo\u001b[48;5;185mt\u001b[48;5;77mat\u001b[48;5;80mi\u001b[48;5;68mon\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mi\u001b[48;5;77mm\u001b[48;5;80mp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m \u001b[48;5;179mco\u001b[48;5;185ml\u001b[48;5;77mle\u001b[48;5;80mc\u001b[48;5;68mt\u001b[48;5;134mi\u001b[48;5;167mon\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m i\u001b[48;5;185mte\u001b[48;5;77mr\u001b[48;5;80mt\u001b[48;5;68mo\u001b[48;5;134mo\u001b[48;5;167ml\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mr\u001b[48;5;68mo\u001b[48;5;134mm\u001b[48;5;167m t\u001b[48;5;179my\u001b[48;5;185mp\u001b[48;5;77ming\u001b[48;5;80m i\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mO\u001b[48;5;80mp\u001b[48;5;68mt\u001b[48;5;134mi\u001b[48;5;167mon\u001b[48;5;179mal\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mre\u001b[48;5;80mge\u001b[48;5;68mx\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mi\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m t\u001b[48;5;167mi\u001b[48;5;179mk\u001b[48;5;185mt\u001b[48;5;77moken\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mc\u001b[48;5;179ml\u001b[48;5;185ma\u001b[48;5;77ms\u001b[48;5;80ms\u001b[48;5;68m \u001b[48;5;134mS\u001b[48;5;167mi\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mle\u001b[48;5;80mB\u001b[48;5;68myte\u001b[48;5;134mP\u001b[48;5;167ma\u001b[48;5;179mir\u001b[48;5;185mE\u001b[48;5;77mn\u001b[48;5;80mco\u001b[48;5;68md\u001b[48;5;134ming\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m \u001b[48;5;77mde\u001b[48;5;80mf\u001b[48;5;68m \u001b[48;5;134m_\u001b[48;5;167m_\u001b[48;5;179min\u001b[48;5;185mi\u001b[48;5;77mt\u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b't' + b'oken'\n", + "So we made b'token' our 307th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\u001b[48;5;179m\"\u001b[48;5;185mT\u001b[48;5;77mh\u001b[48;5;80mis\u001b[48;5;68m \u001b[48;5;134mis\u001b[48;5;167m \u001b[48;5;179ma\u001b[48;5;185mn\u001b[48;5;77m \u001b[48;5;80me\u001b[48;5;68md\u001b[48;5;134mu\u001b[48;5;167mc\u001b[48;5;179mat\u001b[48;5;185mi\u001b[48;5;77mon\u001b[48;5;80mal\u001b[48;5;68m i\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179mle\u001b[48;5;185mm\u001b[48;5;77men\u001b[48;5;80mt\u001b[48;5;68mat\u001b[48;5;134mi\u001b[48;5;167mon\u001b[48;5;179m \u001b[48;5;185mo\u001b[48;5;77mf\u001b[48;5;80m t\u001b[48;5;68mhe\u001b[48;5;134m b\u001b[48;5;167myte\u001b[48;5;179m pa\u001b[48;5;185mir\u001b[48;5;77m \u001b[48;5;80men\u001b[48;5;68mco\u001b[48;5;134md\u001b[48;5;167ming\u001b[48;5;179m \u001b[48;5;185mal\u001b[48;5;77mg\u001b[48;5;80mor\u001b[48;5;68mi\u001b[48;5;134mt\u001b[48;5;167mh\u001b[48;5;179mm\u001b[48;5;185m.\u001b[48;5;77m\"\"\u001b[48;5;80m\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mr\u001b[48;5;179mo\u001b[48;5;185mm\u001b[48;5;77m \u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134mf\u001b[48;5;167mu\u001b[48;5;179mt\u001b[48;5;185mu\u001b[48;5;77mre\u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134m i\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m \u001b[48;5;68ma\u001b[48;5;134mn\u001b[48;5;167mn\u001b[48;5;179mo\u001b[48;5;185mt\u001b[48;5;77mat\u001b[48;5;80mi\u001b[48;5;68mon\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mi\u001b[48;5;77mm\u001b[48;5;80mp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m \u001b[48;5;179mco\u001b[48;5;185ml\u001b[48;5;77mle\u001b[48;5;80mc\u001b[48;5;68mt\u001b[48;5;134mi\u001b[48;5;167mon\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m i\u001b[48;5;185mte\u001b[48;5;77mr\u001b[48;5;80mt\u001b[48;5;68mo\u001b[48;5;134mo\u001b[48;5;167ml\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mr\u001b[48;5;68mo\u001b[48;5;134mm\u001b[48;5;167m t\u001b[48;5;179my\u001b[48;5;185mp\u001b[48;5;77ming\u001b[48;5;80m i\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mO\u001b[48;5;80mp\u001b[48;5;68mt\u001b[48;5;134mi\u001b[48;5;167mon\u001b[48;5;179mal\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mre\u001b[48;5;80mge\u001b[48;5;68mx\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mi\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m t\u001b[48;5;167mi\u001b[48;5;179mk\u001b[48;5;185mtoken\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mc\u001b[48;5;167ml\u001b[48;5;179ma\u001b[48;5;185ms\u001b[48;5;77ms\u001b[48;5;80m \u001b[48;5;68mS\u001b[48;5;134mi\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mle\u001b[48;5;77mB\u001b[48;5;80myte\u001b[48;5;68mP\u001b[48;5;134ma\u001b[48;5;167mir\u001b[48;5;179mE\u001b[48;5;185mn\u001b[48;5;77mco\u001b[48;5;80md\u001b[48;5;68ming\u001b[48;5;134m:\u001b[48;5;167m\n", + " \u001b[48;5;179m \u001b[48;5;185mde\u001b[48;5;77mf\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167min\u001b[48;5;179mi\u001b[48;5;185mt\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'er' + b'ge'\n", + "So we made b'erge' our 308th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\u001b[48;5;179m\"\u001b[48;5;185mT\u001b[48;5;77mh\u001b[48;5;80mis\u001b[48;5;68m \u001b[48;5;134mis\u001b[48;5;167m \u001b[48;5;179ma\u001b[48;5;185mn\u001b[48;5;77m \u001b[48;5;80me\u001b[48;5;68md\u001b[48;5;134mu\u001b[48;5;167mc\u001b[48;5;179mat\u001b[48;5;185mi\u001b[48;5;77mon\u001b[48;5;80mal\u001b[48;5;68m i\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179mle\u001b[48;5;185mm\u001b[48;5;77men\u001b[48;5;80mt\u001b[48;5;68mat\u001b[48;5;134mi\u001b[48;5;167mon\u001b[48;5;179m \u001b[48;5;185mo\u001b[48;5;77mf\u001b[48;5;80m t\u001b[48;5;68mhe\u001b[48;5;134m b\u001b[48;5;167myte\u001b[48;5;179m pa\u001b[48;5;185mir\u001b[48;5;77m \u001b[48;5;80men\u001b[48;5;68mco\u001b[48;5;134md\u001b[48;5;167ming\u001b[48;5;179m \u001b[48;5;185mal\u001b[48;5;77mg\u001b[48;5;80mor\u001b[48;5;68mi\u001b[48;5;134mt\u001b[48;5;167mh\u001b[48;5;179mm\u001b[48;5;185m.\u001b[48;5;77m\"\"\u001b[48;5;80m\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mr\u001b[48;5;179mo\u001b[48;5;185mm\u001b[48;5;77m \u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134mf\u001b[48;5;167mu\u001b[48;5;179mt\u001b[48;5;185mu\u001b[48;5;77mre\u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134m i\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m \u001b[48;5;68ma\u001b[48;5;134mn\u001b[48;5;167mn\u001b[48;5;179mo\u001b[48;5;185mt\u001b[48;5;77mat\u001b[48;5;80mi\u001b[48;5;68mon\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mi\u001b[48;5;77mm\u001b[48;5;80mp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m \u001b[48;5;179mco\u001b[48;5;185ml\u001b[48;5;77mle\u001b[48;5;80mc\u001b[48;5;68mt\u001b[48;5;134mi\u001b[48;5;167mon\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m i\u001b[48;5;185mte\u001b[48;5;77mr\u001b[48;5;80mt\u001b[48;5;68mo\u001b[48;5;134mo\u001b[48;5;167ml\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mr\u001b[48;5;68mo\u001b[48;5;134mm\u001b[48;5;167m t\u001b[48;5;179my\u001b[48;5;185mp\u001b[48;5;77ming\u001b[48;5;80m i\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mO\u001b[48;5;80mp\u001b[48;5;68mt\u001b[48;5;134mi\u001b[48;5;167mon\u001b[48;5;179mal\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mre\u001b[48;5;80mge\u001b[48;5;68mx\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mi\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m t\u001b[48;5;167mi\u001b[48;5;179mk\u001b[48;5;185mtoken\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mc\u001b[48;5;167ml\u001b[48;5;179ma\u001b[48;5;185ms\u001b[48;5;77ms\u001b[48;5;80m \u001b[48;5;68mS\u001b[48;5;134mi\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mle\u001b[48;5;77mB\u001b[48;5;80myte\u001b[48;5;68mP\u001b[48;5;134ma\u001b[48;5;167mir\u001b[48;5;179mE\u001b[48;5;185mn\u001b[48;5;77mco\u001b[48;5;80md\u001b[48;5;68ming\u001b[48;5;134m:\u001b[48;5;167m\n", + " \u001b[48;5;179m \u001b[48;5;185mde\u001b[48;5;77mf\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167min\u001b[48;5;179mi\u001b[48;5;185mt\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' ' + b'v'\n", + "So we made b' v' our 309th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\u001b[48;5;179m\"\u001b[48;5;185mT\u001b[48;5;77mh\u001b[48;5;80mis\u001b[48;5;68m \u001b[48;5;134mis\u001b[48;5;167m \u001b[48;5;179ma\u001b[48;5;185mn\u001b[48;5;77m \u001b[48;5;80me\u001b[48;5;68md\u001b[48;5;134mu\u001b[48;5;167mc\u001b[48;5;179mat\u001b[48;5;185mi\u001b[48;5;77mon\u001b[48;5;80mal\u001b[48;5;68m i\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179mle\u001b[48;5;185mm\u001b[48;5;77men\u001b[48;5;80mt\u001b[48;5;68mat\u001b[48;5;134mi\u001b[48;5;167mon\u001b[48;5;179m \u001b[48;5;185mo\u001b[48;5;77mf\u001b[48;5;80m t\u001b[48;5;68mhe\u001b[48;5;134m b\u001b[48;5;167myte\u001b[48;5;179m pa\u001b[48;5;185mir\u001b[48;5;77m \u001b[48;5;80men\u001b[48;5;68mco\u001b[48;5;134md\u001b[48;5;167ming\u001b[48;5;179m \u001b[48;5;185mal\u001b[48;5;77mg\u001b[48;5;80mor\u001b[48;5;68mi\u001b[48;5;134mt\u001b[48;5;167mh\u001b[48;5;179mm\u001b[48;5;185m.\u001b[48;5;77m\"\"\u001b[48;5;80m\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mr\u001b[48;5;179mo\u001b[48;5;185mm\u001b[48;5;77m \u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134mf\u001b[48;5;167mu\u001b[48;5;179mt\u001b[48;5;185mu\u001b[48;5;77mre\u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134m i\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m \u001b[48;5;68ma\u001b[48;5;134mn\u001b[48;5;167mn\u001b[48;5;179mo\u001b[48;5;185mt\u001b[48;5;77mat\u001b[48;5;80mi\u001b[48;5;68mon\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mi\u001b[48;5;77mm\u001b[48;5;80mp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m \u001b[48;5;179mco\u001b[48;5;185ml\u001b[48;5;77mle\u001b[48;5;80mc\u001b[48;5;68mt\u001b[48;5;134mi\u001b[48;5;167mon\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m i\u001b[48;5;185mte\u001b[48;5;77mr\u001b[48;5;80mt\u001b[48;5;68mo\u001b[48;5;134mo\u001b[48;5;167ml\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mr\u001b[48;5;68mo\u001b[48;5;134mm\u001b[48;5;167m t\u001b[48;5;179my\u001b[48;5;185mp\u001b[48;5;77ming\u001b[48;5;80m i\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mO\u001b[48;5;80mp\u001b[48;5;68mt\u001b[48;5;134mi\u001b[48;5;167mon\u001b[48;5;179mal\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mre\u001b[48;5;80mge\u001b[48;5;68mx\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mi\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m t\u001b[48;5;167mi\u001b[48;5;179mk\u001b[48;5;185mtoken\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mc\u001b[48;5;167ml\u001b[48;5;179ma\u001b[48;5;185ms\u001b[48;5;77ms\u001b[48;5;80m \u001b[48;5;68mS\u001b[48;5;134mi\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mle\u001b[48;5;77mB\u001b[48;5;80myte\u001b[48;5;68mP\u001b[48;5;134ma\u001b[48;5;167mir\u001b[48;5;179mE\u001b[48;5;185mn\u001b[48;5;77mco\u001b[48;5;80md\u001b[48;5;68ming\u001b[48;5;134m:\u001b[48;5;167m\n", + " \u001b[48;5;179m \u001b[48;5;185mde\u001b[48;5;77mf\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167min\u001b[48;5;179mi\u001b[48;5;185mt\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' ' + b'a'\n", + "So we made b' a' our 310th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\u001b[48;5;179m\"\u001b[48;5;185mT\u001b[48;5;77mh\u001b[48;5;80mis\u001b[48;5;68m \u001b[48;5;134mis\u001b[48;5;167m a\u001b[48;5;179mn\u001b[48;5;185m \u001b[48;5;77me\u001b[48;5;80md\u001b[48;5;68mu\u001b[48;5;134mc\u001b[48;5;167mat\u001b[48;5;179mi\u001b[48;5;185mon\u001b[48;5;77mal\u001b[48;5;80m i\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185men\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mi\u001b[48;5;134mon\u001b[48;5;167m \u001b[48;5;179mo\u001b[48;5;185mf\u001b[48;5;77m t\u001b[48;5;80mhe\u001b[48;5;68m b\u001b[48;5;134myte\u001b[48;5;167m pa\u001b[48;5;179mir\u001b[48;5;185m \u001b[48;5;77men\u001b[48;5;80mco\u001b[48;5;68md\u001b[48;5;134ming\u001b[48;5;167m \u001b[48;5;179mal\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mi\u001b[48;5;68mt\u001b[48;5;134mh\u001b[48;5;167mm\u001b[48;5;179m.\u001b[48;5;185m\"\"\u001b[48;5;77m\"\u001b[48;5;80m\n", + "\u001b[48;5;68mf\u001b[48;5;134mr\u001b[48;5;167mo\u001b[48;5;179mm\u001b[48;5;185m \u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68mf\u001b[48;5;134mu\u001b[48;5;167mt\u001b[48;5;179mu\u001b[48;5;185mre\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m i\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m a\u001b[48;5;80mn\u001b[48;5;68mn\u001b[48;5;134mo\u001b[48;5;167mt\u001b[48;5;179mat\u001b[48;5;185mi\u001b[48;5;77mon\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mi\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m \u001b[48;5;134mco\u001b[48;5;167ml\u001b[48;5;179mle\u001b[48;5;185mc\u001b[48;5;77mt\u001b[48;5;80mi\u001b[48;5;68mon\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mi\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m i\u001b[48;5;167mte\u001b[48;5;179mr\u001b[48;5;185mt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mr\u001b[48;5;77mo\u001b[48;5;80mm\u001b[48;5;68m t\u001b[48;5;134my\u001b[48;5;167mp\u001b[48;5;179ming\u001b[48;5;185m i\u001b[48;5;77mm\u001b[48;5;80mp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m \u001b[48;5;179mO\u001b[48;5;185mp\u001b[48;5;77mt\u001b[48;5;80mi\u001b[48;5;68mon\u001b[48;5;134mal\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mi\u001b[48;5;77mm\u001b[48;5;80mp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m \u001b[48;5;179mre\u001b[48;5;185mge\u001b[48;5;77mx\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mi\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mc\u001b[48;5;68ml\u001b[48;5;134ma\u001b[48;5;167ms\u001b[48;5;179ms\u001b[48;5;185m \u001b[48;5;77mS\u001b[48;5;80mi\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mle\u001b[48;5;179mB\u001b[48;5;185myte\u001b[48;5;77mP\u001b[48;5;80ma\u001b[48;5;68mir\u001b[48;5;134mE\u001b[48;5;167mn\u001b[48;5;179mco\u001b[48;5;185md\u001b[48;5;77ming\u001b[48;5;80m:\u001b[48;5;68m\n", + " \u001b[48;5;134m \u001b[48;5;167mde\u001b[48;5;179mf\u001b[48;5;185m \u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68min\u001b[48;5;134mi\u001b[48;5;167mt\u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' ' + b'o'\n", + "So we made b' o' our 311th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\u001b[48;5;179m\"\u001b[48;5;185mT\u001b[48;5;77mh\u001b[48;5;80mis\u001b[48;5;68m \u001b[48;5;134mis\u001b[48;5;167m a\u001b[48;5;179mn\u001b[48;5;185m \u001b[48;5;77me\u001b[48;5;80md\u001b[48;5;68mu\u001b[48;5;134mc\u001b[48;5;167mat\u001b[48;5;179mi\u001b[48;5;185mon\u001b[48;5;77mal\u001b[48;5;80m i\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185men\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mi\u001b[48;5;134mon\u001b[48;5;167m o\u001b[48;5;179mf\u001b[48;5;185m t\u001b[48;5;77mhe\u001b[48;5;80m b\u001b[48;5;68myte\u001b[48;5;134m pa\u001b[48;5;167mir\u001b[48;5;179m \u001b[48;5;185men\u001b[48;5;77mco\u001b[48;5;80md\u001b[48;5;68ming\u001b[48;5;134m \u001b[48;5;167mal\u001b[48;5;179mg\u001b[48;5;185mor\u001b[48;5;77mi\u001b[48;5;80mt\u001b[48;5;68mh\u001b[48;5;134mm\u001b[48;5;167m.\u001b[48;5;179m\"\"\u001b[48;5;185m\"\u001b[48;5;77m\n", + "\u001b[48;5;80mf\u001b[48;5;68mr\u001b[48;5;134mo\u001b[48;5;167mm\u001b[48;5;179m \u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80mf\u001b[48;5;68mu\u001b[48;5;134mt\u001b[48;5;167mu\u001b[48;5;179mre\u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80m i\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m a\u001b[48;5;77mn\u001b[48;5;80mn\u001b[48;5;68mo\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mi\u001b[48;5;185mon\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mi\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m \u001b[48;5;68mco\u001b[48;5;134ml\u001b[48;5;167mle\u001b[48;5;179mc\u001b[48;5;185mt\u001b[48;5;77mi\u001b[48;5;80mon\u001b[48;5;68ms\u001b[48;5;134m\n", + "\u001b[48;5;167mi\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m i\u001b[48;5;134mte\u001b[48;5;167mr\u001b[48;5;179mt\u001b[48;5;185mo\u001b[48;5;77mo\u001b[48;5;80ml\u001b[48;5;68ms\u001b[48;5;134m\n", + "\u001b[48;5;167mf\u001b[48;5;179mr\u001b[48;5;185mo\u001b[48;5;77mm\u001b[48;5;80m t\u001b[48;5;68my\u001b[48;5;134mp\u001b[48;5;167ming\u001b[48;5;179m i\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mO\u001b[48;5;179mp\u001b[48;5;185mt\u001b[48;5;77mi\u001b[48;5;80mon\u001b[48;5;68mal\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mi\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mre\u001b[48;5;179mge\u001b[48;5;185mx\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mi\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m t\u001b[48;5;80mi\u001b[48;5;68mk\u001b[48;5;134mtoken\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mc\u001b[48;5;80ml\u001b[48;5;68ma\u001b[48;5;134ms\u001b[48;5;167ms\u001b[48;5;179m \u001b[48;5;185mS\u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mle\u001b[48;5;167mB\u001b[48;5;179myte\u001b[48;5;185mP\u001b[48;5;77ma\u001b[48;5;80mir\u001b[48;5;68mE\u001b[48;5;134mn\u001b[48;5;167mco\u001b[48;5;179md\u001b[48;5;185ming\u001b[48;5;77m:\u001b[48;5;80m\n", + " \u001b[48;5;68m \u001b[48;5;134mde\u001b[48;5;167mf\u001b[48;5;179m \u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80min\u001b[48;5;68mi\u001b[48;5;134mt\u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'rank' + b's'\n", + "So we made b'ranks' our 312th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\u001b[48;5;179m\"\u001b[48;5;185mT\u001b[48;5;77mh\u001b[48;5;80mis\u001b[48;5;68m \u001b[48;5;134mis\u001b[48;5;167m a\u001b[48;5;179mn\u001b[48;5;185m \u001b[48;5;77me\u001b[48;5;80md\u001b[48;5;68mu\u001b[48;5;134mc\u001b[48;5;167mat\u001b[48;5;179mi\u001b[48;5;185mon\u001b[48;5;77mal\u001b[48;5;80m i\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185men\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mi\u001b[48;5;134mon\u001b[48;5;167m o\u001b[48;5;179mf\u001b[48;5;185m t\u001b[48;5;77mhe\u001b[48;5;80m b\u001b[48;5;68myte\u001b[48;5;134m pa\u001b[48;5;167mir\u001b[48;5;179m \u001b[48;5;185men\u001b[48;5;77mco\u001b[48;5;80md\u001b[48;5;68ming\u001b[48;5;134m \u001b[48;5;167mal\u001b[48;5;179mg\u001b[48;5;185mor\u001b[48;5;77mi\u001b[48;5;80mt\u001b[48;5;68mh\u001b[48;5;134mm\u001b[48;5;167m.\u001b[48;5;179m\"\"\u001b[48;5;185m\"\u001b[48;5;77m\n", + "\u001b[48;5;80mf\u001b[48;5;68mr\u001b[48;5;134mo\u001b[48;5;167mm\u001b[48;5;179m \u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80mf\u001b[48;5;68mu\u001b[48;5;134mt\u001b[48;5;167mu\u001b[48;5;179mre\u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80m i\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m a\u001b[48;5;77mn\u001b[48;5;80mn\u001b[48;5;68mo\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mi\u001b[48;5;185mon\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mi\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m \u001b[48;5;68mco\u001b[48;5;134ml\u001b[48;5;167mle\u001b[48;5;179mc\u001b[48;5;185mt\u001b[48;5;77mi\u001b[48;5;80mon\u001b[48;5;68ms\u001b[48;5;134m\n", + "\u001b[48;5;167mi\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m i\u001b[48;5;134mte\u001b[48;5;167mr\u001b[48;5;179mt\u001b[48;5;185mo\u001b[48;5;77mo\u001b[48;5;80ml\u001b[48;5;68ms\u001b[48;5;134m\n", + "\u001b[48;5;167mf\u001b[48;5;179mr\u001b[48;5;185mo\u001b[48;5;77mm\u001b[48;5;80m t\u001b[48;5;68my\u001b[48;5;134mp\u001b[48;5;167ming\u001b[48;5;179m i\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mO\u001b[48;5;179mp\u001b[48;5;185mt\u001b[48;5;77mi\u001b[48;5;80mon\u001b[48;5;68mal\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mi\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mre\u001b[48;5;179mge\u001b[48;5;185mx\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mi\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m t\u001b[48;5;80mi\u001b[48;5;68mk\u001b[48;5;134mtoken\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mc\u001b[48;5;80ml\u001b[48;5;68ma\u001b[48;5;134ms\u001b[48;5;167ms\u001b[48;5;179m \u001b[48;5;185mS\u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mle\u001b[48;5;167mB\u001b[48;5;179myte\u001b[48;5;185mP\u001b[48;5;77ma\u001b[48;5;80mir\u001b[48;5;68mE\u001b[48;5;134mn\u001b[48;5;167mco\u001b[48;5;179md\u001b[48;5;185ming\u001b[48;5;77m:\u001b[48;5;80m\n", + " \u001b[48;5;68m \u001b[48;5;134mde\u001b[48;5;167mf\u001b[48;5;179m \u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80min\u001b[48;5;68mi\u001b[48;5;134mt\u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' ' + b'#'\n", + "So we made b' #' our 313th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\u001b[48;5;179m\"\u001b[48;5;185mT\u001b[48;5;77mh\u001b[48;5;80mis\u001b[48;5;68m \u001b[48;5;134mis\u001b[48;5;167m a\u001b[48;5;179mn\u001b[48;5;185m \u001b[48;5;77me\u001b[48;5;80md\u001b[48;5;68mu\u001b[48;5;134mc\u001b[48;5;167mat\u001b[48;5;179mi\u001b[48;5;185mon\u001b[48;5;77mal\u001b[48;5;80m i\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185men\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mi\u001b[48;5;134mon\u001b[48;5;167m o\u001b[48;5;179mf\u001b[48;5;185m t\u001b[48;5;77mhe\u001b[48;5;80m b\u001b[48;5;68myte\u001b[48;5;134m pa\u001b[48;5;167mir\u001b[48;5;179m \u001b[48;5;185men\u001b[48;5;77mco\u001b[48;5;80md\u001b[48;5;68ming\u001b[48;5;134m \u001b[48;5;167mal\u001b[48;5;179mg\u001b[48;5;185mor\u001b[48;5;77mi\u001b[48;5;80mt\u001b[48;5;68mh\u001b[48;5;134mm\u001b[48;5;167m.\u001b[48;5;179m\"\"\u001b[48;5;185m\"\u001b[48;5;77m\n", + "\u001b[48;5;80mf\u001b[48;5;68mr\u001b[48;5;134mo\u001b[48;5;167mm\u001b[48;5;179m \u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80mf\u001b[48;5;68mu\u001b[48;5;134mt\u001b[48;5;167mu\u001b[48;5;179mre\u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80m i\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m a\u001b[48;5;77mn\u001b[48;5;80mn\u001b[48;5;68mo\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mi\u001b[48;5;185mon\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mi\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m \u001b[48;5;68mco\u001b[48;5;134ml\u001b[48;5;167mle\u001b[48;5;179mc\u001b[48;5;185mt\u001b[48;5;77mi\u001b[48;5;80mon\u001b[48;5;68ms\u001b[48;5;134m\n", + "\u001b[48;5;167mi\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m i\u001b[48;5;134mte\u001b[48;5;167mr\u001b[48;5;179mt\u001b[48;5;185mo\u001b[48;5;77mo\u001b[48;5;80ml\u001b[48;5;68ms\u001b[48;5;134m\n", + "\u001b[48;5;167mf\u001b[48;5;179mr\u001b[48;5;185mo\u001b[48;5;77mm\u001b[48;5;80m t\u001b[48;5;68my\u001b[48;5;134mp\u001b[48;5;167ming\u001b[48;5;179m i\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mO\u001b[48;5;179mp\u001b[48;5;185mt\u001b[48;5;77mi\u001b[48;5;80mon\u001b[48;5;68mal\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mi\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mre\u001b[48;5;179mge\u001b[48;5;185mx\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mi\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m t\u001b[48;5;80mi\u001b[48;5;68mk\u001b[48;5;134mtoken\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mc\u001b[48;5;80ml\u001b[48;5;68ma\u001b[48;5;134ms\u001b[48;5;167ms\u001b[48;5;179m \u001b[48;5;185mS\u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mle\u001b[48;5;167mB\u001b[48;5;179myte\u001b[48;5;185mP\u001b[48;5;77ma\u001b[48;5;80mir\u001b[48;5;68mE\u001b[48;5;134mn\u001b[48;5;167mco\u001b[48;5;179md\u001b[48;5;185ming\u001b[48;5;77m:\u001b[48;5;80m\n", + " \u001b[48;5;68m \u001b[48;5;134mde\u001b[48;5;167mf\u001b[48;5;179m \u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80min\u001b[48;5;68mi\u001b[48;5;134mt\u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'\\n ' + b' '\n", + "So we made b'\\n ' our 314th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\u001b[48;5;179m\"\u001b[48;5;185mT\u001b[48;5;77mh\u001b[48;5;80mis\u001b[48;5;68m \u001b[48;5;134mis\u001b[48;5;167m a\u001b[48;5;179mn\u001b[48;5;185m \u001b[48;5;77me\u001b[48;5;80md\u001b[48;5;68mu\u001b[48;5;134mc\u001b[48;5;167mat\u001b[48;5;179mi\u001b[48;5;185mon\u001b[48;5;77mal\u001b[48;5;80m i\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185men\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mi\u001b[48;5;134mon\u001b[48;5;167m o\u001b[48;5;179mf\u001b[48;5;185m t\u001b[48;5;77mhe\u001b[48;5;80m b\u001b[48;5;68myte\u001b[48;5;134m pa\u001b[48;5;167mir\u001b[48;5;179m \u001b[48;5;185men\u001b[48;5;77mco\u001b[48;5;80md\u001b[48;5;68ming\u001b[48;5;134m \u001b[48;5;167mal\u001b[48;5;179mg\u001b[48;5;185mor\u001b[48;5;77mi\u001b[48;5;80mt\u001b[48;5;68mh\u001b[48;5;134mm\u001b[48;5;167m.\u001b[48;5;179m\"\"\u001b[48;5;185m\"\u001b[48;5;77m\n", + "\u001b[48;5;80mf\u001b[48;5;68mr\u001b[48;5;134mo\u001b[48;5;167mm\u001b[48;5;179m \u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80mf\u001b[48;5;68mu\u001b[48;5;134mt\u001b[48;5;167mu\u001b[48;5;179mre\u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80m i\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m a\u001b[48;5;77mn\u001b[48;5;80mn\u001b[48;5;68mo\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mi\u001b[48;5;185mon\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mi\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m \u001b[48;5;68mco\u001b[48;5;134ml\u001b[48;5;167mle\u001b[48;5;179mc\u001b[48;5;185mt\u001b[48;5;77mi\u001b[48;5;80mon\u001b[48;5;68ms\u001b[48;5;134m\n", + "\u001b[48;5;167mi\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m i\u001b[48;5;134mte\u001b[48;5;167mr\u001b[48;5;179mt\u001b[48;5;185mo\u001b[48;5;77mo\u001b[48;5;80ml\u001b[48;5;68ms\u001b[48;5;134m\n", + "\u001b[48;5;167mf\u001b[48;5;179mr\u001b[48;5;185mo\u001b[48;5;77mm\u001b[48;5;80m t\u001b[48;5;68my\u001b[48;5;134mp\u001b[48;5;167ming\u001b[48;5;179m i\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mO\u001b[48;5;179mp\u001b[48;5;185mt\u001b[48;5;77mi\u001b[48;5;80mon\u001b[48;5;68mal\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mi\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mre\u001b[48;5;179mge\u001b[48;5;185mx\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mi\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m t\u001b[48;5;80mi\u001b[48;5;68mk\u001b[48;5;134mtoken\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mc\u001b[48;5;80ml\u001b[48;5;68ma\u001b[48;5;134ms\u001b[48;5;167ms\u001b[48;5;179m \u001b[48;5;185mS\u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mle\u001b[48;5;167mB\u001b[48;5;179myte\u001b[48;5;185mP\u001b[48;5;77ma\u001b[48;5;80mir\u001b[48;5;68mE\u001b[48;5;134mn\u001b[48;5;167mco\u001b[48;5;179md\u001b[48;5;185ming\u001b[48;5;77m:\u001b[48;5;80m\n", + " \u001b[48;5;68m \u001b[48;5;134mde\u001b[48;5;167mf\u001b[48;5;179m \u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80min\u001b[48;5;68mi\u001b[48;5;134mt\u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b's' + b'e'\n", + "So we made b'se' our 315th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\u001b[48;5;179m\"\u001b[48;5;185mT\u001b[48;5;77mh\u001b[48;5;80mis\u001b[48;5;68m \u001b[48;5;134mis\u001b[48;5;167m a\u001b[48;5;179mn\u001b[48;5;185m \u001b[48;5;77me\u001b[48;5;80md\u001b[48;5;68mu\u001b[48;5;134mc\u001b[48;5;167mat\u001b[48;5;179mi\u001b[48;5;185mon\u001b[48;5;77mal\u001b[48;5;80m i\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185men\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mi\u001b[48;5;134mon\u001b[48;5;167m o\u001b[48;5;179mf\u001b[48;5;185m t\u001b[48;5;77mhe\u001b[48;5;80m b\u001b[48;5;68myte\u001b[48;5;134m pa\u001b[48;5;167mir\u001b[48;5;179m \u001b[48;5;185men\u001b[48;5;77mco\u001b[48;5;80md\u001b[48;5;68ming\u001b[48;5;134m \u001b[48;5;167mal\u001b[48;5;179mg\u001b[48;5;185mor\u001b[48;5;77mi\u001b[48;5;80mt\u001b[48;5;68mh\u001b[48;5;134mm\u001b[48;5;167m.\u001b[48;5;179m\"\"\u001b[48;5;185m\"\u001b[48;5;77m\n", + "\u001b[48;5;80mf\u001b[48;5;68mr\u001b[48;5;134mo\u001b[48;5;167mm\u001b[48;5;179m \u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80mf\u001b[48;5;68mu\u001b[48;5;134mt\u001b[48;5;167mu\u001b[48;5;179mre\u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80m i\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m a\u001b[48;5;77mn\u001b[48;5;80mn\u001b[48;5;68mo\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mi\u001b[48;5;185mon\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mi\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m \u001b[48;5;68mco\u001b[48;5;134ml\u001b[48;5;167mle\u001b[48;5;179mc\u001b[48;5;185mt\u001b[48;5;77mi\u001b[48;5;80mon\u001b[48;5;68ms\u001b[48;5;134m\n", + "\u001b[48;5;167mi\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m i\u001b[48;5;134mte\u001b[48;5;167mr\u001b[48;5;179mt\u001b[48;5;185mo\u001b[48;5;77mo\u001b[48;5;80ml\u001b[48;5;68ms\u001b[48;5;134m\n", + "\u001b[48;5;167mf\u001b[48;5;179mr\u001b[48;5;185mo\u001b[48;5;77mm\u001b[48;5;80m t\u001b[48;5;68my\u001b[48;5;134mp\u001b[48;5;167ming\u001b[48;5;179m i\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mO\u001b[48;5;179mp\u001b[48;5;185mt\u001b[48;5;77mi\u001b[48;5;80mon\u001b[48;5;68mal\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mi\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mre\u001b[48;5;179mge\u001b[48;5;185mx\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mi\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m t\u001b[48;5;80mi\u001b[48;5;68mk\u001b[48;5;134mtoken\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mc\u001b[48;5;80ml\u001b[48;5;68ma\u001b[48;5;134ms\u001b[48;5;167ms\u001b[48;5;179m \u001b[48;5;185mS\u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mle\u001b[48;5;167mB\u001b[48;5;179myte\u001b[48;5;185mP\u001b[48;5;77ma\u001b[48;5;80mir\u001b[48;5;68mE\u001b[48;5;134mn\u001b[48;5;167mco\u001b[48;5;179md\u001b[48;5;185ming\u001b[48;5;77m:\u001b[48;5;80m\n", + " \u001b[48;5;68m \u001b[48;5;134mde\u001b[48;5;167mf\u001b[48;5;179m \u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80min\u001b[48;5;68mi\u001b[48;5;134mt\u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'a' + b'b'\n", + "So we made b'ab' our 316th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\u001b[48;5;179m\"\u001b[48;5;185mT\u001b[48;5;77mh\u001b[48;5;80mis\u001b[48;5;68m \u001b[48;5;134mis\u001b[48;5;167m a\u001b[48;5;179mn\u001b[48;5;185m \u001b[48;5;77me\u001b[48;5;80md\u001b[48;5;68mu\u001b[48;5;134mc\u001b[48;5;167mat\u001b[48;5;179mi\u001b[48;5;185mon\u001b[48;5;77mal\u001b[48;5;80m i\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185men\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mi\u001b[48;5;134mon\u001b[48;5;167m o\u001b[48;5;179mf\u001b[48;5;185m t\u001b[48;5;77mhe\u001b[48;5;80m b\u001b[48;5;68myte\u001b[48;5;134m pa\u001b[48;5;167mir\u001b[48;5;179m \u001b[48;5;185men\u001b[48;5;77mco\u001b[48;5;80md\u001b[48;5;68ming\u001b[48;5;134m \u001b[48;5;167mal\u001b[48;5;179mg\u001b[48;5;185mor\u001b[48;5;77mi\u001b[48;5;80mt\u001b[48;5;68mh\u001b[48;5;134mm\u001b[48;5;167m.\u001b[48;5;179m\"\"\u001b[48;5;185m\"\u001b[48;5;77m\n", + "\u001b[48;5;80mf\u001b[48;5;68mr\u001b[48;5;134mo\u001b[48;5;167mm\u001b[48;5;179m \u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80mf\u001b[48;5;68mu\u001b[48;5;134mt\u001b[48;5;167mu\u001b[48;5;179mre\u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80m i\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m a\u001b[48;5;77mn\u001b[48;5;80mn\u001b[48;5;68mo\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mi\u001b[48;5;185mon\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mi\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m \u001b[48;5;68mco\u001b[48;5;134ml\u001b[48;5;167mle\u001b[48;5;179mc\u001b[48;5;185mt\u001b[48;5;77mi\u001b[48;5;80mon\u001b[48;5;68ms\u001b[48;5;134m\n", + "\u001b[48;5;167mi\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m i\u001b[48;5;134mte\u001b[48;5;167mr\u001b[48;5;179mt\u001b[48;5;185mo\u001b[48;5;77mo\u001b[48;5;80ml\u001b[48;5;68ms\u001b[48;5;134m\n", + "\u001b[48;5;167mf\u001b[48;5;179mr\u001b[48;5;185mo\u001b[48;5;77mm\u001b[48;5;80m t\u001b[48;5;68my\u001b[48;5;134mp\u001b[48;5;167ming\u001b[48;5;179m i\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mO\u001b[48;5;179mp\u001b[48;5;185mt\u001b[48;5;77mi\u001b[48;5;80mon\u001b[48;5;68mal\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mi\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mre\u001b[48;5;179mge\u001b[48;5;185mx\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mi\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m t\u001b[48;5;80mi\u001b[48;5;68mk\u001b[48;5;134mtoken\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mc\u001b[48;5;80ml\u001b[48;5;68ma\u001b[48;5;134ms\u001b[48;5;167ms\u001b[48;5;179m \u001b[48;5;185mS\u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mle\u001b[48;5;167mB\u001b[48;5;179myte\u001b[48;5;185mP\u001b[48;5;77ma\u001b[48;5;80mir\u001b[48;5;68mE\u001b[48;5;134mn\u001b[48;5;167mco\u001b[48;5;179md\u001b[48;5;185ming\u001b[48;5;77m:\u001b[48;5;80m\n", + " \u001b[48;5;68m \u001b[48;5;134mde\u001b[48;5;167mf\u001b[48;5;179m \u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80min\u001b[48;5;68mi\u001b[48;5;134mt\u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' ' + b'l'\n", + "So we made b' l' our 317th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\u001b[48;5;179m\"\u001b[48;5;185mT\u001b[48;5;77mh\u001b[48;5;80mis\u001b[48;5;68m \u001b[48;5;134mis\u001b[48;5;167m a\u001b[48;5;179mn\u001b[48;5;185m \u001b[48;5;77me\u001b[48;5;80md\u001b[48;5;68mu\u001b[48;5;134mc\u001b[48;5;167mat\u001b[48;5;179mi\u001b[48;5;185mon\u001b[48;5;77mal\u001b[48;5;80m i\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185men\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mi\u001b[48;5;134mon\u001b[48;5;167m o\u001b[48;5;179mf\u001b[48;5;185m t\u001b[48;5;77mhe\u001b[48;5;80m b\u001b[48;5;68myte\u001b[48;5;134m pa\u001b[48;5;167mir\u001b[48;5;179m \u001b[48;5;185men\u001b[48;5;77mco\u001b[48;5;80md\u001b[48;5;68ming\u001b[48;5;134m \u001b[48;5;167mal\u001b[48;5;179mg\u001b[48;5;185mor\u001b[48;5;77mi\u001b[48;5;80mt\u001b[48;5;68mh\u001b[48;5;134mm\u001b[48;5;167m.\u001b[48;5;179m\"\"\u001b[48;5;185m\"\u001b[48;5;77m\n", + "\u001b[48;5;80mf\u001b[48;5;68mr\u001b[48;5;134mo\u001b[48;5;167mm\u001b[48;5;179m \u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80mf\u001b[48;5;68mu\u001b[48;5;134mt\u001b[48;5;167mu\u001b[48;5;179mre\u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80m i\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m a\u001b[48;5;77mn\u001b[48;5;80mn\u001b[48;5;68mo\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mi\u001b[48;5;185mon\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mi\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m \u001b[48;5;68mco\u001b[48;5;134ml\u001b[48;5;167mle\u001b[48;5;179mc\u001b[48;5;185mt\u001b[48;5;77mi\u001b[48;5;80mon\u001b[48;5;68ms\u001b[48;5;134m\n", + "\u001b[48;5;167mi\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m i\u001b[48;5;134mte\u001b[48;5;167mr\u001b[48;5;179mt\u001b[48;5;185mo\u001b[48;5;77mo\u001b[48;5;80ml\u001b[48;5;68ms\u001b[48;5;134m\n", + "\u001b[48;5;167mf\u001b[48;5;179mr\u001b[48;5;185mo\u001b[48;5;77mm\u001b[48;5;80m t\u001b[48;5;68my\u001b[48;5;134mp\u001b[48;5;167ming\u001b[48;5;179m i\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mO\u001b[48;5;179mp\u001b[48;5;185mt\u001b[48;5;77mi\u001b[48;5;80mon\u001b[48;5;68mal\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mi\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mre\u001b[48;5;179mge\u001b[48;5;185mx\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mi\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m t\u001b[48;5;80mi\u001b[48;5;68mk\u001b[48;5;134mtoken\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mc\u001b[48;5;80ml\u001b[48;5;68ma\u001b[48;5;134ms\u001b[48;5;167ms\u001b[48;5;179m \u001b[48;5;185mS\u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mle\u001b[48;5;167mB\u001b[48;5;179myte\u001b[48;5;185mP\u001b[48;5;77ma\u001b[48;5;80mir\u001b[48;5;68mE\u001b[48;5;134mn\u001b[48;5;167mco\u001b[48;5;179md\u001b[48;5;185ming\u001b[48;5;77m:\u001b[48;5;80m\n", + " \u001b[48;5;68m \u001b[48;5;134mde\u001b[48;5;167mf\u001b[48;5;179m \u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80min\u001b[48;5;68mi\u001b[48;5;134mt\u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' t' + b'he'\n", + "So we made b' the' our 318th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\u001b[48;5;179m\"\u001b[48;5;185mT\u001b[48;5;77mh\u001b[48;5;80mis\u001b[48;5;68m \u001b[48;5;134mis\u001b[48;5;167m a\u001b[48;5;179mn\u001b[48;5;185m \u001b[48;5;77me\u001b[48;5;80md\u001b[48;5;68mu\u001b[48;5;134mc\u001b[48;5;167mat\u001b[48;5;179mi\u001b[48;5;185mon\u001b[48;5;77mal\u001b[48;5;80m i\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185men\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mi\u001b[48;5;134mon\u001b[48;5;167m o\u001b[48;5;179mf\u001b[48;5;185m the\u001b[48;5;77m b\u001b[48;5;80myte\u001b[48;5;68m pa\u001b[48;5;134mir\u001b[48;5;167m \u001b[48;5;179men\u001b[48;5;185mco\u001b[48;5;77md\u001b[48;5;80ming\u001b[48;5;68m \u001b[48;5;134mal\u001b[48;5;167mg\u001b[48;5;179mor\u001b[48;5;185mi\u001b[48;5;77mt\u001b[48;5;80mh\u001b[48;5;68mm\u001b[48;5;134m.\u001b[48;5;167m\"\"\u001b[48;5;179m\"\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mr\u001b[48;5;68mo\u001b[48;5;134mm\u001b[48;5;167m \u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77mf\u001b[48;5;80mu\u001b[48;5;68mt\u001b[48;5;134mu\u001b[48;5;167mre\u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77m i\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m a\u001b[48;5;185mn\u001b[48;5;77mn\u001b[48;5;80mo\u001b[48;5;68mt\u001b[48;5;134mat\u001b[48;5;167mi\u001b[48;5;179mon\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mi\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m \u001b[48;5;80mco\u001b[48;5;68ml\u001b[48;5;134mle\u001b[48;5;167mc\u001b[48;5;179mt\u001b[48;5;185mi\u001b[48;5;77mon\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mi\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m i\u001b[48;5;68mte\u001b[48;5;134mr\u001b[48;5;167mt\u001b[48;5;179mo\u001b[48;5;185mo\u001b[48;5;77ml\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mr\u001b[48;5;179mo\u001b[48;5;185mm\u001b[48;5;77m t\u001b[48;5;80my\u001b[48;5;68mp\u001b[48;5;134ming\u001b[48;5;167m i\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m \u001b[48;5;134mO\u001b[48;5;167mp\u001b[48;5;179mt\u001b[48;5;185mi\u001b[48;5;77mon\u001b[48;5;80mal\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mi\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m \u001b[48;5;134mre\u001b[48;5;167mge\u001b[48;5;179mx\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m t\u001b[48;5;77mi\u001b[48;5;80mk\u001b[48;5;68mtoken\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mc\u001b[48;5;77ml\u001b[48;5;80ma\u001b[48;5;68ms\u001b[48;5;134ms\u001b[48;5;167m \u001b[48;5;179mS\u001b[48;5;185mi\u001b[48;5;77mm\u001b[48;5;80mp\u001b[48;5;68mle\u001b[48;5;134mB\u001b[48;5;167myte\u001b[48;5;179mP\u001b[48;5;185ma\u001b[48;5;77mir\u001b[48;5;80mE\u001b[48;5;68mn\u001b[48;5;134mco\u001b[48;5;167md\u001b[48;5;179ming\u001b[48;5;185m:\u001b[48;5;77m\n", + " \u001b[48;5;80m \u001b[48;5;68mde\u001b[48;5;134mf\u001b[48;5;167m \u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77min\u001b[48;5;80mi\u001b[48;5;68mt\u001b[48;5;134m_\u001b[48;5;167m_\u001b[48;5;179m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' ' + b're'\n", + "So we made b' re' our 319th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\u001b[48;5;179m\"\u001b[48;5;185mT\u001b[48;5;77mh\u001b[48;5;80mis\u001b[48;5;68m \u001b[48;5;134mis\u001b[48;5;167m a\u001b[48;5;179mn\u001b[48;5;185m \u001b[48;5;77me\u001b[48;5;80md\u001b[48;5;68mu\u001b[48;5;134mc\u001b[48;5;167mat\u001b[48;5;179mi\u001b[48;5;185mon\u001b[48;5;77mal\u001b[48;5;80m i\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185men\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mi\u001b[48;5;134mon\u001b[48;5;167m o\u001b[48;5;179mf\u001b[48;5;185m the\u001b[48;5;77m b\u001b[48;5;80myte\u001b[48;5;68m pa\u001b[48;5;134mir\u001b[48;5;167m \u001b[48;5;179men\u001b[48;5;185mco\u001b[48;5;77md\u001b[48;5;80ming\u001b[48;5;68m \u001b[48;5;134mal\u001b[48;5;167mg\u001b[48;5;179mor\u001b[48;5;185mi\u001b[48;5;77mt\u001b[48;5;80mh\u001b[48;5;68mm\u001b[48;5;134m.\u001b[48;5;167m\"\"\u001b[48;5;179m\"\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mr\u001b[48;5;68mo\u001b[48;5;134mm\u001b[48;5;167m \u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77mf\u001b[48;5;80mu\u001b[48;5;68mt\u001b[48;5;134mu\u001b[48;5;167mre\u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77m i\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m a\u001b[48;5;185mn\u001b[48;5;77mn\u001b[48;5;80mo\u001b[48;5;68mt\u001b[48;5;134mat\u001b[48;5;167mi\u001b[48;5;179mon\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mi\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m \u001b[48;5;80mco\u001b[48;5;68ml\u001b[48;5;134mle\u001b[48;5;167mc\u001b[48;5;179mt\u001b[48;5;185mi\u001b[48;5;77mon\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mi\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m i\u001b[48;5;68mte\u001b[48;5;134mr\u001b[48;5;167mt\u001b[48;5;179mo\u001b[48;5;185mo\u001b[48;5;77ml\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mr\u001b[48;5;179mo\u001b[48;5;185mm\u001b[48;5;77m t\u001b[48;5;80my\u001b[48;5;68mp\u001b[48;5;134ming\u001b[48;5;167m i\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m \u001b[48;5;134mO\u001b[48;5;167mp\u001b[48;5;179mt\u001b[48;5;185mi\u001b[48;5;77mon\u001b[48;5;80mal\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mi\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m re\u001b[48;5;134mge\u001b[48;5;167mx\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m t\u001b[48;5;185mi\u001b[48;5;77mk\u001b[48;5;80mtoken\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mc\u001b[48;5;185ml\u001b[48;5;77ma\u001b[48;5;80ms\u001b[48;5;68ms\u001b[48;5;134m \u001b[48;5;167mS\u001b[48;5;179mi\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80mle\u001b[48;5;68mB\u001b[48;5;134myte\u001b[48;5;167mP\u001b[48;5;179ma\u001b[48;5;185mir\u001b[48;5;77mE\u001b[48;5;80mn\u001b[48;5;68mco\u001b[48;5;134md\u001b[48;5;167ming\u001b[48;5;179m:\u001b[48;5;185m\n", + " \u001b[48;5;77m \u001b[48;5;80mde\u001b[48;5;68mf\u001b[48;5;134m \u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185min\u001b[48;5;77mi\u001b[48;5;80mt\u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b']' + b')'\n", + "So we made b'])' our 320th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\u001b[48;5;179m\"\u001b[48;5;185mT\u001b[48;5;77mh\u001b[48;5;80mis\u001b[48;5;68m \u001b[48;5;134mis\u001b[48;5;167m a\u001b[48;5;179mn\u001b[48;5;185m \u001b[48;5;77me\u001b[48;5;80md\u001b[48;5;68mu\u001b[48;5;134mc\u001b[48;5;167mat\u001b[48;5;179mi\u001b[48;5;185mon\u001b[48;5;77mal\u001b[48;5;80m i\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185men\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mi\u001b[48;5;134mon\u001b[48;5;167m o\u001b[48;5;179mf\u001b[48;5;185m the\u001b[48;5;77m b\u001b[48;5;80myte\u001b[48;5;68m pa\u001b[48;5;134mir\u001b[48;5;167m \u001b[48;5;179men\u001b[48;5;185mco\u001b[48;5;77md\u001b[48;5;80ming\u001b[48;5;68m \u001b[48;5;134mal\u001b[48;5;167mg\u001b[48;5;179mor\u001b[48;5;185mi\u001b[48;5;77mt\u001b[48;5;80mh\u001b[48;5;68mm\u001b[48;5;134m.\u001b[48;5;167m\"\"\u001b[48;5;179m\"\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mr\u001b[48;5;68mo\u001b[48;5;134mm\u001b[48;5;167m \u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77mf\u001b[48;5;80mu\u001b[48;5;68mt\u001b[48;5;134mu\u001b[48;5;167mre\u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77m i\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m a\u001b[48;5;185mn\u001b[48;5;77mn\u001b[48;5;80mo\u001b[48;5;68mt\u001b[48;5;134mat\u001b[48;5;167mi\u001b[48;5;179mon\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mi\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m \u001b[48;5;80mco\u001b[48;5;68ml\u001b[48;5;134mle\u001b[48;5;167mc\u001b[48;5;179mt\u001b[48;5;185mi\u001b[48;5;77mon\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mi\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m i\u001b[48;5;68mte\u001b[48;5;134mr\u001b[48;5;167mt\u001b[48;5;179mo\u001b[48;5;185mo\u001b[48;5;77ml\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mr\u001b[48;5;179mo\u001b[48;5;185mm\u001b[48;5;77m t\u001b[48;5;80my\u001b[48;5;68mp\u001b[48;5;134ming\u001b[48;5;167m i\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m \u001b[48;5;134mO\u001b[48;5;167mp\u001b[48;5;179mt\u001b[48;5;185mi\u001b[48;5;77mon\u001b[48;5;80mal\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mi\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m re\u001b[48;5;134mge\u001b[48;5;167mx\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m t\u001b[48;5;185mi\u001b[48;5;77mk\u001b[48;5;80mtoken\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mc\u001b[48;5;185ml\u001b[48;5;77ma\u001b[48;5;80ms\u001b[48;5;68ms\u001b[48;5;134m \u001b[48;5;167mS\u001b[48;5;179mi\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80mle\u001b[48;5;68mB\u001b[48;5;134myte\u001b[48;5;167mP\u001b[48;5;179ma\u001b[48;5;185mir\u001b[48;5;77mE\u001b[48;5;80mn\u001b[48;5;68mco\u001b[48;5;134md\u001b[48;5;167ming\u001b[48;5;179m:\u001b[48;5;185m\n", + " \u001b[48;5;77m \u001b[48;5;80mde\u001b[48;5;68mf\u001b[48;5;134m \u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185min\u001b[48;5;77mi\u001b[48;5;80mt\u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' f' + b'or'\n", + "So we made b' for' our 321th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\u001b[48;5;179m\"\u001b[48;5;185mT\u001b[48;5;77mh\u001b[48;5;80mis\u001b[48;5;68m \u001b[48;5;134mis\u001b[48;5;167m a\u001b[48;5;179mn\u001b[48;5;185m \u001b[48;5;77me\u001b[48;5;80md\u001b[48;5;68mu\u001b[48;5;134mc\u001b[48;5;167mat\u001b[48;5;179mi\u001b[48;5;185mon\u001b[48;5;77mal\u001b[48;5;80m i\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185men\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mi\u001b[48;5;134mon\u001b[48;5;167m o\u001b[48;5;179mf\u001b[48;5;185m the\u001b[48;5;77m b\u001b[48;5;80myte\u001b[48;5;68m pa\u001b[48;5;134mir\u001b[48;5;167m \u001b[48;5;179men\u001b[48;5;185mco\u001b[48;5;77md\u001b[48;5;80ming\u001b[48;5;68m \u001b[48;5;134mal\u001b[48;5;167mg\u001b[48;5;179mor\u001b[48;5;185mi\u001b[48;5;77mt\u001b[48;5;80mh\u001b[48;5;68mm\u001b[48;5;134m.\u001b[48;5;167m\"\"\u001b[48;5;179m\"\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mr\u001b[48;5;68mo\u001b[48;5;134mm\u001b[48;5;167m \u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77mf\u001b[48;5;80mu\u001b[48;5;68mt\u001b[48;5;134mu\u001b[48;5;167mre\u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77m i\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m a\u001b[48;5;185mn\u001b[48;5;77mn\u001b[48;5;80mo\u001b[48;5;68mt\u001b[48;5;134mat\u001b[48;5;167mi\u001b[48;5;179mon\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mi\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m \u001b[48;5;80mco\u001b[48;5;68ml\u001b[48;5;134mle\u001b[48;5;167mc\u001b[48;5;179mt\u001b[48;5;185mi\u001b[48;5;77mon\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mi\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m i\u001b[48;5;68mte\u001b[48;5;134mr\u001b[48;5;167mt\u001b[48;5;179mo\u001b[48;5;185mo\u001b[48;5;77ml\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mr\u001b[48;5;179mo\u001b[48;5;185mm\u001b[48;5;77m t\u001b[48;5;80my\u001b[48;5;68mp\u001b[48;5;134ming\u001b[48;5;167m i\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m \u001b[48;5;134mO\u001b[48;5;167mp\u001b[48;5;179mt\u001b[48;5;185mi\u001b[48;5;77mon\u001b[48;5;80mal\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mi\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m re\u001b[48;5;134mge\u001b[48;5;167mx\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m t\u001b[48;5;185mi\u001b[48;5;77mk\u001b[48;5;80mtoken\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mc\u001b[48;5;185ml\u001b[48;5;77ma\u001b[48;5;80ms\u001b[48;5;68ms\u001b[48;5;134m \u001b[48;5;167mS\u001b[48;5;179mi\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80mle\u001b[48;5;68mB\u001b[48;5;134myte\u001b[48;5;167mP\u001b[48;5;179ma\u001b[48;5;185mir\u001b[48;5;77mE\u001b[48;5;80mn\u001b[48;5;68mco\u001b[48;5;134md\u001b[48;5;167ming\u001b[48;5;179m:\u001b[48;5;185m\n", + " \u001b[48;5;77m \u001b[48;5;80mde\u001b[48;5;68mf\u001b[48;5;134m \u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185min\u001b[48;5;77mi\u001b[48;5;80mt\u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' ' + b'['\n", + "So we made b' [' our 322th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\u001b[48;5;179m\"\u001b[48;5;185mT\u001b[48;5;77mh\u001b[48;5;80mis\u001b[48;5;68m \u001b[48;5;134mis\u001b[48;5;167m a\u001b[48;5;179mn\u001b[48;5;185m \u001b[48;5;77me\u001b[48;5;80md\u001b[48;5;68mu\u001b[48;5;134mc\u001b[48;5;167mat\u001b[48;5;179mi\u001b[48;5;185mon\u001b[48;5;77mal\u001b[48;5;80m i\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185men\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mi\u001b[48;5;134mon\u001b[48;5;167m o\u001b[48;5;179mf\u001b[48;5;185m the\u001b[48;5;77m b\u001b[48;5;80myte\u001b[48;5;68m pa\u001b[48;5;134mir\u001b[48;5;167m \u001b[48;5;179men\u001b[48;5;185mco\u001b[48;5;77md\u001b[48;5;80ming\u001b[48;5;68m \u001b[48;5;134mal\u001b[48;5;167mg\u001b[48;5;179mor\u001b[48;5;185mi\u001b[48;5;77mt\u001b[48;5;80mh\u001b[48;5;68mm\u001b[48;5;134m.\u001b[48;5;167m\"\"\u001b[48;5;179m\"\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mr\u001b[48;5;68mo\u001b[48;5;134mm\u001b[48;5;167m \u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77mf\u001b[48;5;80mu\u001b[48;5;68mt\u001b[48;5;134mu\u001b[48;5;167mre\u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77m i\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m a\u001b[48;5;185mn\u001b[48;5;77mn\u001b[48;5;80mo\u001b[48;5;68mt\u001b[48;5;134mat\u001b[48;5;167mi\u001b[48;5;179mon\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mi\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m \u001b[48;5;80mco\u001b[48;5;68ml\u001b[48;5;134mle\u001b[48;5;167mc\u001b[48;5;179mt\u001b[48;5;185mi\u001b[48;5;77mon\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mi\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m i\u001b[48;5;68mte\u001b[48;5;134mr\u001b[48;5;167mt\u001b[48;5;179mo\u001b[48;5;185mo\u001b[48;5;77ml\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mr\u001b[48;5;179mo\u001b[48;5;185mm\u001b[48;5;77m t\u001b[48;5;80my\u001b[48;5;68mp\u001b[48;5;134ming\u001b[48;5;167m i\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m \u001b[48;5;134mO\u001b[48;5;167mp\u001b[48;5;179mt\u001b[48;5;185mi\u001b[48;5;77mon\u001b[48;5;80mal\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mi\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m re\u001b[48;5;134mge\u001b[48;5;167mx\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m t\u001b[48;5;185mi\u001b[48;5;77mk\u001b[48;5;80mtoken\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mc\u001b[48;5;185ml\u001b[48;5;77ma\u001b[48;5;80ms\u001b[48;5;68ms\u001b[48;5;134m \u001b[48;5;167mS\u001b[48;5;179mi\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80mle\u001b[48;5;68mB\u001b[48;5;134myte\u001b[48;5;167mP\u001b[48;5;179ma\u001b[48;5;185mir\u001b[48;5;77mE\u001b[48;5;80mn\u001b[48;5;68mco\u001b[48;5;134md\u001b[48;5;167ming\u001b[48;5;179m:\u001b[48;5;185m\n", + " \u001b[48;5;77m \u001b[48;5;80mde\u001b[48;5;68mf\u001b[48;5;134m \u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185min\u001b[48;5;77mi\u001b[48;5;80mt\u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'is' + b'e'\n", + "So we made b'ise' our 323th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\u001b[48;5;179m\"\u001b[48;5;185mT\u001b[48;5;77mh\u001b[48;5;80mis\u001b[48;5;68m \u001b[48;5;134mis\u001b[48;5;167m a\u001b[48;5;179mn\u001b[48;5;185m \u001b[48;5;77me\u001b[48;5;80md\u001b[48;5;68mu\u001b[48;5;134mc\u001b[48;5;167mat\u001b[48;5;179mi\u001b[48;5;185mon\u001b[48;5;77mal\u001b[48;5;80m i\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185men\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mi\u001b[48;5;134mon\u001b[48;5;167m o\u001b[48;5;179mf\u001b[48;5;185m the\u001b[48;5;77m b\u001b[48;5;80myte\u001b[48;5;68m pa\u001b[48;5;134mir\u001b[48;5;167m \u001b[48;5;179men\u001b[48;5;185mco\u001b[48;5;77md\u001b[48;5;80ming\u001b[48;5;68m \u001b[48;5;134mal\u001b[48;5;167mg\u001b[48;5;179mor\u001b[48;5;185mi\u001b[48;5;77mt\u001b[48;5;80mh\u001b[48;5;68mm\u001b[48;5;134m.\u001b[48;5;167m\"\"\u001b[48;5;179m\"\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mr\u001b[48;5;68mo\u001b[48;5;134mm\u001b[48;5;167m \u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77mf\u001b[48;5;80mu\u001b[48;5;68mt\u001b[48;5;134mu\u001b[48;5;167mre\u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77m i\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m a\u001b[48;5;185mn\u001b[48;5;77mn\u001b[48;5;80mo\u001b[48;5;68mt\u001b[48;5;134mat\u001b[48;5;167mi\u001b[48;5;179mon\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mi\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m \u001b[48;5;80mco\u001b[48;5;68ml\u001b[48;5;134mle\u001b[48;5;167mc\u001b[48;5;179mt\u001b[48;5;185mi\u001b[48;5;77mon\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mi\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m i\u001b[48;5;68mte\u001b[48;5;134mr\u001b[48;5;167mt\u001b[48;5;179mo\u001b[48;5;185mo\u001b[48;5;77ml\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mr\u001b[48;5;179mo\u001b[48;5;185mm\u001b[48;5;77m t\u001b[48;5;80my\u001b[48;5;68mp\u001b[48;5;134ming\u001b[48;5;167m i\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m \u001b[48;5;134mO\u001b[48;5;167mp\u001b[48;5;179mt\u001b[48;5;185mi\u001b[48;5;77mon\u001b[48;5;80mal\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mi\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m re\u001b[48;5;134mge\u001b[48;5;167mx\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m t\u001b[48;5;185mi\u001b[48;5;77mk\u001b[48;5;80mtoken\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mc\u001b[48;5;185ml\u001b[48;5;77ma\u001b[48;5;80ms\u001b[48;5;68ms\u001b[48;5;134m \u001b[48;5;167mS\u001b[48;5;179mi\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80mle\u001b[48;5;68mB\u001b[48;5;134myte\u001b[48;5;167mP\u001b[48;5;179ma\u001b[48;5;185mir\u001b[48;5;77mE\u001b[48;5;80mn\u001b[48;5;68mco\u001b[48;5;134md\u001b[48;5;167ming\u001b[48;5;179m:\u001b[48;5;185m\n", + " \u001b[48;5;77m \u001b[48;5;80mde\u001b[48;5;68mf\u001b[48;5;134m \u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185min\u001b[48;5;77mi\u001b[48;5;80mt\u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'\\n ' + b' '\n", + "So we made b'\\n ' our 324th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\u001b[48;5;179m\"\u001b[48;5;185mT\u001b[48;5;77mh\u001b[48;5;80mis\u001b[48;5;68m \u001b[48;5;134mis\u001b[48;5;167m a\u001b[48;5;179mn\u001b[48;5;185m \u001b[48;5;77me\u001b[48;5;80md\u001b[48;5;68mu\u001b[48;5;134mc\u001b[48;5;167mat\u001b[48;5;179mi\u001b[48;5;185mon\u001b[48;5;77mal\u001b[48;5;80m i\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185men\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mi\u001b[48;5;134mon\u001b[48;5;167m o\u001b[48;5;179mf\u001b[48;5;185m the\u001b[48;5;77m b\u001b[48;5;80myte\u001b[48;5;68m pa\u001b[48;5;134mir\u001b[48;5;167m \u001b[48;5;179men\u001b[48;5;185mco\u001b[48;5;77md\u001b[48;5;80ming\u001b[48;5;68m \u001b[48;5;134mal\u001b[48;5;167mg\u001b[48;5;179mor\u001b[48;5;185mi\u001b[48;5;77mt\u001b[48;5;80mh\u001b[48;5;68mm\u001b[48;5;134m.\u001b[48;5;167m\"\"\u001b[48;5;179m\"\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mr\u001b[48;5;68mo\u001b[48;5;134mm\u001b[48;5;167m \u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77mf\u001b[48;5;80mu\u001b[48;5;68mt\u001b[48;5;134mu\u001b[48;5;167mre\u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77m i\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m a\u001b[48;5;185mn\u001b[48;5;77mn\u001b[48;5;80mo\u001b[48;5;68mt\u001b[48;5;134mat\u001b[48;5;167mi\u001b[48;5;179mon\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mi\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m \u001b[48;5;80mco\u001b[48;5;68ml\u001b[48;5;134mle\u001b[48;5;167mc\u001b[48;5;179mt\u001b[48;5;185mi\u001b[48;5;77mon\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mi\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m i\u001b[48;5;68mte\u001b[48;5;134mr\u001b[48;5;167mt\u001b[48;5;179mo\u001b[48;5;185mo\u001b[48;5;77ml\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mr\u001b[48;5;179mo\u001b[48;5;185mm\u001b[48;5;77m t\u001b[48;5;80my\u001b[48;5;68mp\u001b[48;5;134ming\u001b[48;5;167m i\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m \u001b[48;5;134mO\u001b[48;5;167mp\u001b[48;5;179mt\u001b[48;5;185mi\u001b[48;5;77mon\u001b[48;5;80mal\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mi\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m re\u001b[48;5;134mge\u001b[48;5;167mx\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m t\u001b[48;5;185mi\u001b[48;5;77mk\u001b[48;5;80mtoken\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mc\u001b[48;5;185ml\u001b[48;5;77ma\u001b[48;5;80ms\u001b[48;5;68ms\u001b[48;5;134m \u001b[48;5;167mS\u001b[48;5;179mi\u001b[48;5;185mm\u001b[48;5;77mp\u001b[48;5;80mle\u001b[48;5;68mB\u001b[48;5;134myte\u001b[48;5;167mP\u001b[48;5;179ma\u001b[48;5;185mir\u001b[48;5;77mE\u001b[48;5;80mn\u001b[48;5;68mco\u001b[48;5;134md\u001b[48;5;167ming\u001b[48;5;179m:\u001b[48;5;185m\n", + " \u001b[48;5;77m \u001b[48;5;80mde\u001b[48;5;68mf\u001b[48;5;134m \u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185min\u001b[48;5;77mi\u001b[48;5;80mt\u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' ' + b'en'\n", + "So we made b' en' our 325th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\u001b[48;5;179m\"\u001b[48;5;185mT\u001b[48;5;77mh\u001b[48;5;80mis\u001b[48;5;68m \u001b[48;5;134mis\u001b[48;5;167m a\u001b[48;5;179mn\u001b[48;5;185m \u001b[48;5;77me\u001b[48;5;80md\u001b[48;5;68mu\u001b[48;5;134mc\u001b[48;5;167mat\u001b[48;5;179mi\u001b[48;5;185mon\u001b[48;5;77mal\u001b[48;5;80m i\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185men\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mi\u001b[48;5;134mon\u001b[48;5;167m o\u001b[48;5;179mf\u001b[48;5;185m the\u001b[48;5;77m b\u001b[48;5;80myte\u001b[48;5;68m pa\u001b[48;5;134mir\u001b[48;5;167m en\u001b[48;5;179mco\u001b[48;5;185md\u001b[48;5;77ming\u001b[48;5;80m \u001b[48;5;68mal\u001b[48;5;134mg\u001b[48;5;167mor\u001b[48;5;179mi\u001b[48;5;185mt\u001b[48;5;77mh\u001b[48;5;80mm\u001b[48;5;68m.\u001b[48;5;134m\"\"\u001b[48;5;167m\"\u001b[48;5;179m\n", + "\u001b[48;5;185mf\u001b[48;5;77mr\u001b[48;5;80mo\u001b[48;5;68mm\u001b[48;5;134m \u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185mf\u001b[48;5;77mu\u001b[48;5;80mt\u001b[48;5;68mu\u001b[48;5;134mre\u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185m i\u001b[48;5;77mm\u001b[48;5;80mp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m a\u001b[48;5;179mn\u001b[48;5;185mn\u001b[48;5;77mo\u001b[48;5;80mt\u001b[48;5;68mat\u001b[48;5;134mi\u001b[48;5;167mon\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mco\u001b[48;5;80ml\u001b[48;5;68mle\u001b[48;5;134mc\u001b[48;5;167mt\u001b[48;5;179mi\u001b[48;5;185mon\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68mi\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m i\u001b[48;5;80mte\u001b[48;5;68mr\u001b[48;5;134mt\u001b[48;5;167mo\u001b[48;5;179mo\u001b[48;5;185ml\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68mf\u001b[48;5;134mr\u001b[48;5;167mo\u001b[48;5;179mm\u001b[48;5;185m t\u001b[48;5;77my\u001b[48;5;80mp\u001b[48;5;68ming\u001b[48;5;134m i\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m \u001b[48;5;68mO\u001b[48;5;134mp\u001b[48;5;167mt\u001b[48;5;179mi\u001b[48;5;185mon\u001b[48;5;77mal\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mi\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m re\u001b[48;5;68mge\u001b[48;5;134mx\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mi\u001b[48;5;77mm\u001b[48;5;80mp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m t\u001b[48;5;179mi\u001b[48;5;185mk\u001b[48;5;77mtoken\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mc\u001b[48;5;179ml\u001b[48;5;185ma\u001b[48;5;77ms\u001b[48;5;80ms\u001b[48;5;68m \u001b[48;5;134mS\u001b[48;5;167mi\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mle\u001b[48;5;80mB\u001b[48;5;68myte\u001b[48;5;134mP\u001b[48;5;167ma\u001b[48;5;179mir\u001b[48;5;185mE\u001b[48;5;77mn\u001b[48;5;80mco\u001b[48;5;68md\u001b[48;5;134ming\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m \u001b[48;5;77mde\u001b[48;5;80mf\u001b[48;5;68m \u001b[48;5;134m_\u001b[48;5;167m_\u001b[48;5;179min\u001b[48;5;185mi\u001b[48;5;77mt\u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' m' + b'erge'\n", + "So we made b' merge' our 326th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\u001b[48;5;179m\"\u001b[48;5;185mT\u001b[48;5;77mh\u001b[48;5;80mis\u001b[48;5;68m \u001b[48;5;134mis\u001b[48;5;167m a\u001b[48;5;179mn\u001b[48;5;185m \u001b[48;5;77me\u001b[48;5;80md\u001b[48;5;68mu\u001b[48;5;134mc\u001b[48;5;167mat\u001b[48;5;179mi\u001b[48;5;185mon\u001b[48;5;77mal\u001b[48;5;80m i\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185men\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mi\u001b[48;5;134mon\u001b[48;5;167m o\u001b[48;5;179mf\u001b[48;5;185m the\u001b[48;5;77m b\u001b[48;5;80myte\u001b[48;5;68m pa\u001b[48;5;134mir\u001b[48;5;167m en\u001b[48;5;179mco\u001b[48;5;185md\u001b[48;5;77ming\u001b[48;5;80m \u001b[48;5;68mal\u001b[48;5;134mg\u001b[48;5;167mor\u001b[48;5;179mi\u001b[48;5;185mt\u001b[48;5;77mh\u001b[48;5;80mm\u001b[48;5;68m.\u001b[48;5;134m\"\"\u001b[48;5;167m\"\u001b[48;5;179m\n", + "\u001b[48;5;185mf\u001b[48;5;77mr\u001b[48;5;80mo\u001b[48;5;68mm\u001b[48;5;134m \u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185mf\u001b[48;5;77mu\u001b[48;5;80mt\u001b[48;5;68mu\u001b[48;5;134mre\u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185m i\u001b[48;5;77mm\u001b[48;5;80mp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m a\u001b[48;5;179mn\u001b[48;5;185mn\u001b[48;5;77mo\u001b[48;5;80mt\u001b[48;5;68mat\u001b[48;5;134mi\u001b[48;5;167mon\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mco\u001b[48;5;80ml\u001b[48;5;68mle\u001b[48;5;134mc\u001b[48;5;167mt\u001b[48;5;179mi\u001b[48;5;185mon\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68mi\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m i\u001b[48;5;80mte\u001b[48;5;68mr\u001b[48;5;134mt\u001b[48;5;167mo\u001b[48;5;179mo\u001b[48;5;185ml\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68mf\u001b[48;5;134mr\u001b[48;5;167mo\u001b[48;5;179mm\u001b[48;5;185m t\u001b[48;5;77my\u001b[48;5;80mp\u001b[48;5;68ming\u001b[48;5;134m i\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m \u001b[48;5;68mO\u001b[48;5;134mp\u001b[48;5;167mt\u001b[48;5;179mi\u001b[48;5;185mon\u001b[48;5;77mal\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mi\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m re\u001b[48;5;68mge\u001b[48;5;134mx\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mi\u001b[48;5;77mm\u001b[48;5;80mp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m t\u001b[48;5;179mi\u001b[48;5;185mk\u001b[48;5;77mtoken\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mc\u001b[48;5;179ml\u001b[48;5;185ma\u001b[48;5;77ms\u001b[48;5;80ms\u001b[48;5;68m \u001b[48;5;134mS\u001b[48;5;167mi\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mle\u001b[48;5;80mB\u001b[48;5;68myte\u001b[48;5;134mP\u001b[48;5;167ma\u001b[48;5;179mir\u001b[48;5;185mE\u001b[48;5;77mn\u001b[48;5;80mco\u001b[48;5;68md\u001b[48;5;134ming\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m \u001b[48;5;77mde\u001b[48;5;80mf\u001b[48;5;68m \u001b[48;5;134m_\u001b[48;5;167m_\u001b[48;5;179min\u001b[48;5;185mi\u001b[48;5;77mt\u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'u' + b'al'\n", + "So we made b'ual' our 327th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\u001b[48;5;179m\"\u001b[48;5;185mT\u001b[48;5;77mh\u001b[48;5;80mis\u001b[48;5;68m \u001b[48;5;134mis\u001b[48;5;167m a\u001b[48;5;179mn\u001b[48;5;185m \u001b[48;5;77me\u001b[48;5;80md\u001b[48;5;68mu\u001b[48;5;134mc\u001b[48;5;167mat\u001b[48;5;179mi\u001b[48;5;185mon\u001b[48;5;77mal\u001b[48;5;80m i\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185men\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mi\u001b[48;5;134mon\u001b[48;5;167m o\u001b[48;5;179mf\u001b[48;5;185m the\u001b[48;5;77m b\u001b[48;5;80myte\u001b[48;5;68m pa\u001b[48;5;134mir\u001b[48;5;167m en\u001b[48;5;179mco\u001b[48;5;185md\u001b[48;5;77ming\u001b[48;5;80m \u001b[48;5;68mal\u001b[48;5;134mg\u001b[48;5;167mor\u001b[48;5;179mi\u001b[48;5;185mt\u001b[48;5;77mh\u001b[48;5;80mm\u001b[48;5;68m.\u001b[48;5;134m\"\"\u001b[48;5;167m\"\u001b[48;5;179m\n", + "\u001b[48;5;185mf\u001b[48;5;77mr\u001b[48;5;80mo\u001b[48;5;68mm\u001b[48;5;134m \u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185mf\u001b[48;5;77mu\u001b[48;5;80mt\u001b[48;5;68mu\u001b[48;5;134mre\u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185m i\u001b[48;5;77mm\u001b[48;5;80mp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m a\u001b[48;5;179mn\u001b[48;5;185mn\u001b[48;5;77mo\u001b[48;5;80mt\u001b[48;5;68mat\u001b[48;5;134mi\u001b[48;5;167mon\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mco\u001b[48;5;80ml\u001b[48;5;68mle\u001b[48;5;134mc\u001b[48;5;167mt\u001b[48;5;179mi\u001b[48;5;185mon\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68mi\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m i\u001b[48;5;80mte\u001b[48;5;68mr\u001b[48;5;134mt\u001b[48;5;167mo\u001b[48;5;179mo\u001b[48;5;185ml\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68mf\u001b[48;5;134mr\u001b[48;5;167mo\u001b[48;5;179mm\u001b[48;5;185m t\u001b[48;5;77my\u001b[48;5;80mp\u001b[48;5;68ming\u001b[48;5;134m i\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m \u001b[48;5;68mO\u001b[48;5;134mp\u001b[48;5;167mt\u001b[48;5;179mi\u001b[48;5;185mon\u001b[48;5;77mal\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mi\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m re\u001b[48;5;68mge\u001b[48;5;134mx\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mi\u001b[48;5;77mm\u001b[48;5;80mp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m t\u001b[48;5;179mi\u001b[48;5;185mk\u001b[48;5;77mtoken\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mc\u001b[48;5;179ml\u001b[48;5;185ma\u001b[48;5;77ms\u001b[48;5;80ms\u001b[48;5;68m \u001b[48;5;134mS\u001b[48;5;167mi\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mle\u001b[48;5;80mB\u001b[48;5;68myte\u001b[48;5;134mP\u001b[48;5;167ma\u001b[48;5;179mir\u001b[48;5;185mE\u001b[48;5;77mn\u001b[48;5;80mco\u001b[48;5;68md\u001b[48;5;134ming\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m \u001b[48;5;77mde\u001b[48;5;80mf\u001b[48;5;68m \u001b[48;5;134m_\u001b[48;5;167m_\u001b[48;5;179min\u001b[48;5;185mi\u001b[48;5;77mt\u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' token' + b's'\n", + "So we made b' tokens' our 328th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\u001b[48;5;179m\"\u001b[48;5;185mT\u001b[48;5;77mh\u001b[48;5;80mis\u001b[48;5;68m \u001b[48;5;134mis\u001b[48;5;167m a\u001b[48;5;179mn\u001b[48;5;185m \u001b[48;5;77me\u001b[48;5;80md\u001b[48;5;68mu\u001b[48;5;134mc\u001b[48;5;167mat\u001b[48;5;179mi\u001b[48;5;185mon\u001b[48;5;77mal\u001b[48;5;80m i\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185men\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mi\u001b[48;5;134mon\u001b[48;5;167m o\u001b[48;5;179mf\u001b[48;5;185m the\u001b[48;5;77m b\u001b[48;5;80myte\u001b[48;5;68m pa\u001b[48;5;134mir\u001b[48;5;167m en\u001b[48;5;179mco\u001b[48;5;185md\u001b[48;5;77ming\u001b[48;5;80m \u001b[48;5;68mal\u001b[48;5;134mg\u001b[48;5;167mor\u001b[48;5;179mi\u001b[48;5;185mt\u001b[48;5;77mh\u001b[48;5;80mm\u001b[48;5;68m.\u001b[48;5;134m\"\"\u001b[48;5;167m\"\u001b[48;5;179m\n", + "\u001b[48;5;185mf\u001b[48;5;77mr\u001b[48;5;80mo\u001b[48;5;68mm\u001b[48;5;134m \u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185mf\u001b[48;5;77mu\u001b[48;5;80mt\u001b[48;5;68mu\u001b[48;5;134mre\u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185m i\u001b[48;5;77mm\u001b[48;5;80mp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m a\u001b[48;5;179mn\u001b[48;5;185mn\u001b[48;5;77mo\u001b[48;5;80mt\u001b[48;5;68mat\u001b[48;5;134mi\u001b[48;5;167mon\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mco\u001b[48;5;80ml\u001b[48;5;68mle\u001b[48;5;134mc\u001b[48;5;167mt\u001b[48;5;179mi\u001b[48;5;185mon\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68mi\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m i\u001b[48;5;80mte\u001b[48;5;68mr\u001b[48;5;134mt\u001b[48;5;167mo\u001b[48;5;179mo\u001b[48;5;185ml\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68mf\u001b[48;5;134mr\u001b[48;5;167mo\u001b[48;5;179mm\u001b[48;5;185m t\u001b[48;5;77my\u001b[48;5;80mp\u001b[48;5;68ming\u001b[48;5;134m i\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m \u001b[48;5;68mO\u001b[48;5;134mp\u001b[48;5;167mt\u001b[48;5;179mi\u001b[48;5;185mon\u001b[48;5;77mal\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mi\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m re\u001b[48;5;68mge\u001b[48;5;134mx\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mi\u001b[48;5;77mm\u001b[48;5;80mp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m t\u001b[48;5;179mi\u001b[48;5;185mk\u001b[48;5;77mtoken\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mc\u001b[48;5;179ml\u001b[48;5;185ma\u001b[48;5;77ms\u001b[48;5;80ms\u001b[48;5;68m \u001b[48;5;134mS\u001b[48;5;167mi\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mle\u001b[48;5;80mB\u001b[48;5;68myte\u001b[48;5;134mP\u001b[48;5;167ma\u001b[48;5;179mir\u001b[48;5;185mE\u001b[48;5;77mn\u001b[48;5;80mco\u001b[48;5;68md\u001b[48;5;134ming\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m \u001b[48;5;77mde\u001b[48;5;80mf\u001b[48;5;68m \u001b[48;5;134m_\u001b[48;5;167m_\u001b[48;5;179min\u001b[48;5;185mi\u001b[48;5;77mt\u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'\"\"' + b'\"'\n", + "So we made b'\"\"\"' our 329th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m \u001b[48;5;68mis\u001b[48;5;134m a\u001b[48;5;167mn\u001b[48;5;179m \u001b[48;5;185me\u001b[48;5;77md\u001b[48;5;80mu\u001b[48;5;68mc\u001b[48;5;134mat\u001b[48;5;167mi\u001b[48;5;179mon\u001b[48;5;185mal\u001b[48;5;77m i\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mle\u001b[48;5;167mm\u001b[48;5;179men\u001b[48;5;185mt\u001b[48;5;77mat\u001b[48;5;80mi\u001b[48;5;68mon\u001b[48;5;134m o\u001b[48;5;167mf\u001b[48;5;179m the\u001b[48;5;185m b\u001b[48;5;77myte\u001b[48;5;80m pa\u001b[48;5;68mir\u001b[48;5;134m en\u001b[48;5;167mco\u001b[48;5;179md\u001b[48;5;185ming\u001b[48;5;77m \u001b[48;5;80mal\u001b[48;5;68mg\u001b[48;5;134mor\u001b[48;5;167mi\u001b[48;5;179mt\u001b[48;5;185mh\u001b[48;5;77mm\u001b[48;5;80m.\u001b[48;5;68m\"\"\"\u001b[48;5;134m\n", + "\u001b[48;5;167mf\u001b[48;5;179mr\u001b[48;5;185mo\u001b[48;5;77mm\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167mf\u001b[48;5;179mu\u001b[48;5;185mt\u001b[48;5;77mu\u001b[48;5;80mre\u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167m i\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m a\u001b[48;5;134mn\u001b[48;5;167mn\u001b[48;5;179mo\u001b[48;5;185mt\u001b[48;5;77mat\u001b[48;5;80mi\u001b[48;5;68mon\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mi\u001b[48;5;77mm\u001b[48;5;80mp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m \u001b[48;5;179mco\u001b[48;5;185ml\u001b[48;5;77mle\u001b[48;5;80mc\u001b[48;5;68mt\u001b[48;5;134mi\u001b[48;5;167mon\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m i\u001b[48;5;185mte\u001b[48;5;77mr\u001b[48;5;80mt\u001b[48;5;68mo\u001b[48;5;134mo\u001b[48;5;167ml\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mr\u001b[48;5;68mo\u001b[48;5;134mm\u001b[48;5;167m t\u001b[48;5;179my\u001b[48;5;185mp\u001b[48;5;77ming\u001b[48;5;80m i\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mO\u001b[48;5;80mp\u001b[48;5;68mt\u001b[48;5;134mi\u001b[48;5;167mon\u001b[48;5;179mal\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m re\u001b[48;5;77mge\u001b[48;5;80mx\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mi\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m t\u001b[48;5;134mi\u001b[48;5;167mk\u001b[48;5;179mtoken\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mc\u001b[48;5;134ml\u001b[48;5;167ma\u001b[48;5;179ms\u001b[48;5;185ms\u001b[48;5;77m \u001b[48;5;80mS\u001b[48;5;68mi\u001b[48;5;134mm\u001b[48;5;167mp\u001b[48;5;179mle\u001b[48;5;185mB\u001b[48;5;77myte\u001b[48;5;80mP\u001b[48;5;68ma\u001b[48;5;134mir\u001b[48;5;167mE\u001b[48;5;179mn\u001b[48;5;185mco\u001b[48;5;77md\u001b[48;5;80ming\u001b[48;5;68m:\u001b[48;5;134m\n", + " \u001b[48;5;167m \u001b[48;5;179mde\u001b[48;5;185mf\u001b[48;5;77m \u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134min\u001b[48;5;167mi\u001b[48;5;179mt\u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'r' + b't'\n", + "So we made b'rt' our 330th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m \u001b[48;5;68mis\u001b[48;5;134m a\u001b[48;5;167mn\u001b[48;5;179m \u001b[48;5;185me\u001b[48;5;77md\u001b[48;5;80mu\u001b[48;5;68mc\u001b[48;5;134mat\u001b[48;5;167mi\u001b[48;5;179mon\u001b[48;5;185mal\u001b[48;5;77m i\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mle\u001b[48;5;167mm\u001b[48;5;179men\u001b[48;5;185mt\u001b[48;5;77mat\u001b[48;5;80mi\u001b[48;5;68mon\u001b[48;5;134m o\u001b[48;5;167mf\u001b[48;5;179m the\u001b[48;5;185m b\u001b[48;5;77myte\u001b[48;5;80m pa\u001b[48;5;68mir\u001b[48;5;134m en\u001b[48;5;167mco\u001b[48;5;179md\u001b[48;5;185ming\u001b[48;5;77m \u001b[48;5;80mal\u001b[48;5;68mg\u001b[48;5;134mor\u001b[48;5;167mi\u001b[48;5;179mt\u001b[48;5;185mh\u001b[48;5;77mm\u001b[48;5;80m.\u001b[48;5;68m\"\"\"\u001b[48;5;134m\n", + "\u001b[48;5;167mf\u001b[48;5;179mr\u001b[48;5;185mo\u001b[48;5;77mm\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167mf\u001b[48;5;179mu\u001b[48;5;185mt\u001b[48;5;77mu\u001b[48;5;80mre\u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167m i\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m a\u001b[48;5;134mn\u001b[48;5;167mn\u001b[48;5;179mo\u001b[48;5;185mt\u001b[48;5;77mat\u001b[48;5;80mi\u001b[48;5;68mon\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mi\u001b[48;5;77mm\u001b[48;5;80mp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m \u001b[48;5;179mco\u001b[48;5;185ml\u001b[48;5;77mle\u001b[48;5;80mc\u001b[48;5;68mt\u001b[48;5;134mi\u001b[48;5;167mon\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m i\u001b[48;5;185mte\u001b[48;5;77mrt\u001b[48;5;80mo\u001b[48;5;68mo\u001b[48;5;134ml\u001b[48;5;167ms\u001b[48;5;179m\n", + "\u001b[48;5;185mf\u001b[48;5;77mr\u001b[48;5;80mo\u001b[48;5;68mm\u001b[48;5;134m t\u001b[48;5;167my\u001b[48;5;179mp\u001b[48;5;185ming\u001b[48;5;77m i\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mO\u001b[48;5;77mp\u001b[48;5;80mt\u001b[48;5;68mi\u001b[48;5;134mon\u001b[48;5;167mal\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m re\u001b[48;5;185mge\u001b[48;5;77mx\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mi\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mc\u001b[48;5;68ml\u001b[48;5;134ma\u001b[48;5;167ms\u001b[48;5;179ms\u001b[48;5;185m \u001b[48;5;77mS\u001b[48;5;80mi\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mle\u001b[48;5;179mB\u001b[48;5;185myte\u001b[48;5;77mP\u001b[48;5;80ma\u001b[48;5;68mir\u001b[48;5;134mE\u001b[48;5;167mn\u001b[48;5;179mco\u001b[48;5;185md\u001b[48;5;77ming\u001b[48;5;80m:\u001b[48;5;68m\n", + " \u001b[48;5;134m \u001b[48;5;167mde\u001b[48;5;179mf\u001b[48;5;185m \u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68min\u001b[48;5;134mi\u001b[48;5;167mt\u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' ' + b'p'\n", + "So we made b' p' our 331th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m \u001b[48;5;68mis\u001b[48;5;134m a\u001b[48;5;167mn\u001b[48;5;179m \u001b[48;5;185me\u001b[48;5;77md\u001b[48;5;80mu\u001b[48;5;68mc\u001b[48;5;134mat\u001b[48;5;167mi\u001b[48;5;179mon\u001b[48;5;185mal\u001b[48;5;77m i\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mle\u001b[48;5;167mm\u001b[48;5;179men\u001b[48;5;185mt\u001b[48;5;77mat\u001b[48;5;80mi\u001b[48;5;68mon\u001b[48;5;134m o\u001b[48;5;167mf\u001b[48;5;179m the\u001b[48;5;185m b\u001b[48;5;77myte\u001b[48;5;80m pa\u001b[48;5;68mir\u001b[48;5;134m en\u001b[48;5;167mco\u001b[48;5;179md\u001b[48;5;185ming\u001b[48;5;77m \u001b[48;5;80mal\u001b[48;5;68mg\u001b[48;5;134mor\u001b[48;5;167mi\u001b[48;5;179mt\u001b[48;5;185mh\u001b[48;5;77mm\u001b[48;5;80m.\u001b[48;5;68m\"\"\"\u001b[48;5;134m\n", + "\u001b[48;5;167mf\u001b[48;5;179mr\u001b[48;5;185mo\u001b[48;5;77mm\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167mf\u001b[48;5;179mu\u001b[48;5;185mt\u001b[48;5;77mu\u001b[48;5;80mre\u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167m i\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m a\u001b[48;5;134mn\u001b[48;5;167mn\u001b[48;5;179mo\u001b[48;5;185mt\u001b[48;5;77mat\u001b[48;5;80mi\u001b[48;5;68mon\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mi\u001b[48;5;77mm\u001b[48;5;80mp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m \u001b[48;5;179mco\u001b[48;5;185ml\u001b[48;5;77mle\u001b[48;5;80mc\u001b[48;5;68mt\u001b[48;5;134mi\u001b[48;5;167mon\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m i\u001b[48;5;185mte\u001b[48;5;77mrt\u001b[48;5;80mo\u001b[48;5;68mo\u001b[48;5;134ml\u001b[48;5;167ms\u001b[48;5;179m\n", + "\u001b[48;5;185mf\u001b[48;5;77mr\u001b[48;5;80mo\u001b[48;5;68mm\u001b[48;5;134m t\u001b[48;5;167my\u001b[48;5;179mp\u001b[48;5;185ming\u001b[48;5;77m i\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mO\u001b[48;5;77mp\u001b[48;5;80mt\u001b[48;5;68mi\u001b[48;5;134mon\u001b[48;5;167mal\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m re\u001b[48;5;185mge\u001b[48;5;77mx\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mi\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mc\u001b[48;5;68ml\u001b[48;5;134ma\u001b[48;5;167ms\u001b[48;5;179ms\u001b[48;5;185m \u001b[48;5;77mS\u001b[48;5;80mi\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mle\u001b[48;5;179mB\u001b[48;5;185myte\u001b[48;5;77mP\u001b[48;5;80ma\u001b[48;5;68mir\u001b[48;5;134mE\u001b[48;5;167mn\u001b[48;5;179mco\u001b[48;5;185md\u001b[48;5;77ming\u001b[48;5;80m:\u001b[48;5;68m\n", + " \u001b[48;5;134m \u001b[48;5;167mde\u001b[48;5;179mf\u001b[48;5;185m \u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68min\u001b[48;5;134mi\u001b[48;5;167mt\u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'is' + b'ual'\n", + "So we made b'isual' our 332th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m \u001b[48;5;68mis\u001b[48;5;134m a\u001b[48;5;167mn\u001b[48;5;179m \u001b[48;5;185me\u001b[48;5;77md\u001b[48;5;80mu\u001b[48;5;68mc\u001b[48;5;134mat\u001b[48;5;167mi\u001b[48;5;179mon\u001b[48;5;185mal\u001b[48;5;77m i\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mle\u001b[48;5;167mm\u001b[48;5;179men\u001b[48;5;185mt\u001b[48;5;77mat\u001b[48;5;80mi\u001b[48;5;68mon\u001b[48;5;134m o\u001b[48;5;167mf\u001b[48;5;179m the\u001b[48;5;185m b\u001b[48;5;77myte\u001b[48;5;80m pa\u001b[48;5;68mir\u001b[48;5;134m en\u001b[48;5;167mco\u001b[48;5;179md\u001b[48;5;185ming\u001b[48;5;77m \u001b[48;5;80mal\u001b[48;5;68mg\u001b[48;5;134mor\u001b[48;5;167mi\u001b[48;5;179mt\u001b[48;5;185mh\u001b[48;5;77mm\u001b[48;5;80m.\u001b[48;5;68m\"\"\"\u001b[48;5;134m\n", + "\u001b[48;5;167mf\u001b[48;5;179mr\u001b[48;5;185mo\u001b[48;5;77mm\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167mf\u001b[48;5;179mu\u001b[48;5;185mt\u001b[48;5;77mu\u001b[48;5;80mre\u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167m i\u001b[48;5;179mm\u001b[48;5;185mp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m a\u001b[48;5;134mn\u001b[48;5;167mn\u001b[48;5;179mo\u001b[48;5;185mt\u001b[48;5;77mat\u001b[48;5;80mi\u001b[48;5;68mon\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mi\u001b[48;5;77mm\u001b[48;5;80mp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m \u001b[48;5;179mco\u001b[48;5;185ml\u001b[48;5;77mle\u001b[48;5;80mc\u001b[48;5;68mt\u001b[48;5;134mi\u001b[48;5;167mon\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m i\u001b[48;5;185mte\u001b[48;5;77mrt\u001b[48;5;80mo\u001b[48;5;68mo\u001b[48;5;134ml\u001b[48;5;167ms\u001b[48;5;179m\n", + "\u001b[48;5;185mf\u001b[48;5;77mr\u001b[48;5;80mo\u001b[48;5;68mm\u001b[48;5;134m t\u001b[48;5;167my\u001b[48;5;179mp\u001b[48;5;185ming\u001b[48;5;77m i\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mO\u001b[48;5;77mp\u001b[48;5;80mt\u001b[48;5;68mi\u001b[48;5;134mon\u001b[48;5;167mal\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mi\u001b[48;5;80mm\u001b[48;5;68mp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m re\u001b[48;5;185mge\u001b[48;5;77mx\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mi\u001b[48;5;167mm\u001b[48;5;179mp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mc\u001b[48;5;68ml\u001b[48;5;134ma\u001b[48;5;167ms\u001b[48;5;179ms\u001b[48;5;185m \u001b[48;5;77mS\u001b[48;5;80mi\u001b[48;5;68mm\u001b[48;5;134mp\u001b[48;5;167mle\u001b[48;5;179mB\u001b[48;5;185myte\u001b[48;5;77mP\u001b[48;5;80ma\u001b[48;5;68mir\u001b[48;5;134mE\u001b[48;5;167mn\u001b[48;5;179mco\u001b[48;5;185md\u001b[48;5;77ming\u001b[48;5;80m:\u001b[48;5;68m\n", + " \u001b[48;5;134m \u001b[48;5;167mde\u001b[48;5;179mf\u001b[48;5;185m \u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68min\u001b[48;5;134mi\u001b[48;5;167mt\u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'm' + b'p'\n", + "So we made b'mp' our 333th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m \u001b[48;5;68mis\u001b[48;5;134m a\u001b[48;5;167mn\u001b[48;5;179m \u001b[48;5;185me\u001b[48;5;77md\u001b[48;5;80mu\u001b[48;5;68mc\u001b[48;5;134mat\u001b[48;5;167mi\u001b[48;5;179mon\u001b[48;5;185mal\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167men\u001b[48;5;179mt\u001b[48;5;185mat\u001b[48;5;77mi\u001b[48;5;80mon\u001b[48;5;68m o\u001b[48;5;134mf\u001b[48;5;167m the\u001b[48;5;179m b\u001b[48;5;185myte\u001b[48;5;77m pa\u001b[48;5;80mir\u001b[48;5;68m en\u001b[48;5;134mco\u001b[48;5;167md\u001b[48;5;179ming\u001b[48;5;185m \u001b[48;5;77mal\u001b[48;5;80mg\u001b[48;5;68mor\u001b[48;5;134mi\u001b[48;5;167mt\u001b[48;5;179mh\u001b[48;5;185mm\u001b[48;5;77m.\u001b[48;5;80m\"\"\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mr\u001b[48;5;179mo\u001b[48;5;185mm\u001b[48;5;77m \u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134mf\u001b[48;5;167mu\u001b[48;5;179mt\u001b[48;5;185mu\u001b[48;5;77mre\u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m a\u001b[48;5;80mn\u001b[48;5;68mn\u001b[48;5;134mo\u001b[48;5;167mt\u001b[48;5;179mat\u001b[48;5;185mi\u001b[48;5;77mon\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mi\u001b[48;5;179mmp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m \u001b[48;5;68mco\u001b[48;5;134ml\u001b[48;5;167mle\u001b[48;5;179mc\u001b[48;5;185mt\u001b[48;5;77mi\u001b[48;5;80mon\u001b[48;5;68ms\u001b[48;5;134m\n", + "\u001b[48;5;167mi\u001b[48;5;179mmp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m i\u001b[48;5;68mte\u001b[48;5;134mrt\u001b[48;5;167mo\u001b[48;5;179mo\u001b[48;5;185ml\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68mf\u001b[48;5;134mr\u001b[48;5;167mo\u001b[48;5;179mm\u001b[48;5;185m t\u001b[48;5;77my\u001b[48;5;80mp\u001b[48;5;68ming\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m \u001b[48;5;80mO\u001b[48;5;68mp\u001b[48;5;134mt\u001b[48;5;167mi\u001b[48;5;179mon\u001b[48;5;185mal\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mi\u001b[48;5;134mmp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m re\u001b[48;5;77mge\u001b[48;5;80mx\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mi\u001b[48;5;179mmp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mc\u001b[48;5;68ml\u001b[48;5;134ma\u001b[48;5;167ms\u001b[48;5;179ms\u001b[48;5;185m \u001b[48;5;77mS\u001b[48;5;80mi\u001b[48;5;68mmp\u001b[48;5;134mle\u001b[48;5;167mB\u001b[48;5;179myte\u001b[48;5;185mP\u001b[48;5;77ma\u001b[48;5;80mir\u001b[48;5;68mE\u001b[48;5;134mn\u001b[48;5;167mco\u001b[48;5;179md\u001b[48;5;185ming\u001b[48;5;77m:\u001b[48;5;80m\n", + " \u001b[48;5;68m \u001b[48;5;134mde\u001b[48;5;167mf\u001b[48;5;179m \u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80min\u001b[48;5;68mi\u001b[48;5;134mt\u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'co' + b'd'\n", + "So we made b'cod' our 334th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m \u001b[48;5;68mis\u001b[48;5;134m a\u001b[48;5;167mn\u001b[48;5;179m \u001b[48;5;185me\u001b[48;5;77md\u001b[48;5;80mu\u001b[48;5;68mc\u001b[48;5;134mat\u001b[48;5;167mi\u001b[48;5;179mon\u001b[48;5;185mal\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167men\u001b[48;5;179mt\u001b[48;5;185mat\u001b[48;5;77mi\u001b[48;5;80mon\u001b[48;5;68m o\u001b[48;5;134mf\u001b[48;5;167m the\u001b[48;5;179m b\u001b[48;5;185myte\u001b[48;5;77m pa\u001b[48;5;80mir\u001b[48;5;68m en\u001b[48;5;134mcod\u001b[48;5;167ming\u001b[48;5;179m \u001b[48;5;185mal\u001b[48;5;77mg\u001b[48;5;80mor\u001b[48;5;68mi\u001b[48;5;134mt\u001b[48;5;167mh\u001b[48;5;179mm\u001b[48;5;185m.\u001b[48;5;77m\"\"\"\u001b[48;5;80m\n", + "\u001b[48;5;68mf\u001b[48;5;134mr\u001b[48;5;167mo\u001b[48;5;179mm\u001b[48;5;185m \u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68mf\u001b[48;5;134mu\u001b[48;5;167mt\u001b[48;5;179mu\u001b[48;5;185mre\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m a\u001b[48;5;77mn\u001b[48;5;80mn\u001b[48;5;68mo\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mi\u001b[48;5;185mon\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mi\u001b[48;5;167mmp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m \u001b[48;5;80mco\u001b[48;5;68ml\u001b[48;5;134mle\u001b[48;5;167mc\u001b[48;5;179mt\u001b[48;5;185mi\u001b[48;5;77mon\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mi\u001b[48;5;167mmp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m i\u001b[48;5;80mte\u001b[48;5;68mrt\u001b[48;5;134mo\u001b[48;5;167mo\u001b[48;5;179ml\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mf\u001b[48;5;68mr\u001b[48;5;134mo\u001b[48;5;167mm\u001b[48;5;179m t\u001b[48;5;185my\u001b[48;5;77mp\u001b[48;5;80ming\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mO\u001b[48;5;80mp\u001b[48;5;68mt\u001b[48;5;134mi\u001b[48;5;167mon\u001b[48;5;179mal\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mmp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m re\u001b[48;5;185mge\u001b[48;5;77mx\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mi\u001b[48;5;167mmp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m t\u001b[48;5;80mi\u001b[48;5;68mk\u001b[48;5;134mtoken\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mc\u001b[48;5;80ml\u001b[48;5;68ma\u001b[48;5;134ms\u001b[48;5;167ms\u001b[48;5;179m \u001b[48;5;185mS\u001b[48;5;77mi\u001b[48;5;80mmp\u001b[48;5;68mle\u001b[48;5;134mB\u001b[48;5;167myte\u001b[48;5;179mP\u001b[48;5;185ma\u001b[48;5;77mir\u001b[48;5;80mE\u001b[48;5;68mn\u001b[48;5;134mcod\u001b[48;5;167ming\u001b[48;5;179m:\u001b[48;5;185m\n", + " \u001b[48;5;77m \u001b[48;5;80mde\u001b[48;5;68mf\u001b[48;5;134m \u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185min\u001b[48;5;77mi\u001b[48;5;80mt\u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'cod' + b'ing'\n", + "So we made b'coding' our 335th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m \u001b[48;5;68mis\u001b[48;5;134m a\u001b[48;5;167mn\u001b[48;5;179m \u001b[48;5;185me\u001b[48;5;77md\u001b[48;5;80mu\u001b[48;5;68mc\u001b[48;5;134mat\u001b[48;5;167mi\u001b[48;5;179mon\u001b[48;5;185mal\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167men\u001b[48;5;179mt\u001b[48;5;185mat\u001b[48;5;77mi\u001b[48;5;80mon\u001b[48;5;68m o\u001b[48;5;134mf\u001b[48;5;167m the\u001b[48;5;179m b\u001b[48;5;185myte\u001b[48;5;77m pa\u001b[48;5;80mir\u001b[48;5;68m en\u001b[48;5;134mcoding\u001b[48;5;167m \u001b[48;5;179mal\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mi\u001b[48;5;68mt\u001b[48;5;134mh\u001b[48;5;167mm\u001b[48;5;179m.\u001b[48;5;185m\"\"\"\u001b[48;5;77m\n", + "\u001b[48;5;80mf\u001b[48;5;68mr\u001b[48;5;134mo\u001b[48;5;167mm\u001b[48;5;179m \u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80mf\u001b[48;5;68mu\u001b[48;5;134mt\u001b[48;5;167mu\u001b[48;5;179mre\u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80m i\u001b[48;5;68mmp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m a\u001b[48;5;185mn\u001b[48;5;77mn\u001b[48;5;80mo\u001b[48;5;68mt\u001b[48;5;134mat\u001b[48;5;167mi\u001b[48;5;179mon\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mi\u001b[48;5;134mmp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mco\u001b[48;5;80ml\u001b[48;5;68mle\u001b[48;5;134mc\u001b[48;5;167mt\u001b[48;5;179mi\u001b[48;5;185mon\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68mi\u001b[48;5;134mmp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m i\u001b[48;5;77mte\u001b[48;5;80mrt\u001b[48;5;68mo\u001b[48;5;134mo\u001b[48;5;167ml\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mr\u001b[48;5;68mo\u001b[48;5;134mm\u001b[48;5;167m t\u001b[48;5;179my\u001b[48;5;185mp\u001b[48;5;77ming\u001b[48;5;80m i\u001b[48;5;68mmp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mO\u001b[48;5;77mp\u001b[48;5;80mt\u001b[48;5;68mi\u001b[48;5;134mon\u001b[48;5;167mal\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mi\u001b[48;5;80mmp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m re\u001b[48;5;179mge\u001b[48;5;185mx\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mi\u001b[48;5;134mmp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m t\u001b[48;5;77mi\u001b[48;5;80mk\u001b[48;5;68mtoken\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mc\u001b[48;5;77ml\u001b[48;5;80ma\u001b[48;5;68ms\u001b[48;5;134ms\u001b[48;5;167m \u001b[48;5;179mS\u001b[48;5;185mi\u001b[48;5;77mmp\u001b[48;5;80mle\u001b[48;5;68mB\u001b[48;5;134myte\u001b[48;5;167mP\u001b[48;5;179ma\u001b[48;5;185mir\u001b[48;5;77mE\u001b[48;5;80mn\u001b[48;5;68mcoding\u001b[48;5;134m:\u001b[48;5;167m\n", + " \u001b[48;5;179m \u001b[48;5;185mde\u001b[48;5;77mf\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167min\u001b[48;5;179mi\u001b[48;5;185mt\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' ' + b'd'\n", + "So we made b' d' our 336th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m \u001b[48;5;68mis\u001b[48;5;134m a\u001b[48;5;167mn\u001b[48;5;179m \u001b[48;5;185me\u001b[48;5;77md\u001b[48;5;80mu\u001b[48;5;68mc\u001b[48;5;134mat\u001b[48;5;167mi\u001b[48;5;179mon\u001b[48;5;185mal\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167men\u001b[48;5;179mt\u001b[48;5;185mat\u001b[48;5;77mi\u001b[48;5;80mon\u001b[48;5;68m o\u001b[48;5;134mf\u001b[48;5;167m the\u001b[48;5;179m b\u001b[48;5;185myte\u001b[48;5;77m pa\u001b[48;5;80mir\u001b[48;5;68m en\u001b[48;5;134mcoding\u001b[48;5;167m \u001b[48;5;179mal\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mi\u001b[48;5;68mt\u001b[48;5;134mh\u001b[48;5;167mm\u001b[48;5;179m.\u001b[48;5;185m\"\"\"\u001b[48;5;77m\n", + "\u001b[48;5;80mf\u001b[48;5;68mr\u001b[48;5;134mo\u001b[48;5;167mm\u001b[48;5;179m \u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80mf\u001b[48;5;68mu\u001b[48;5;134mt\u001b[48;5;167mu\u001b[48;5;179mre\u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80m i\u001b[48;5;68mmp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m a\u001b[48;5;185mn\u001b[48;5;77mn\u001b[48;5;80mo\u001b[48;5;68mt\u001b[48;5;134mat\u001b[48;5;167mi\u001b[48;5;179mon\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mi\u001b[48;5;134mmp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mco\u001b[48;5;80ml\u001b[48;5;68mle\u001b[48;5;134mc\u001b[48;5;167mt\u001b[48;5;179mi\u001b[48;5;185mon\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68mi\u001b[48;5;134mmp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m i\u001b[48;5;77mte\u001b[48;5;80mrt\u001b[48;5;68mo\u001b[48;5;134mo\u001b[48;5;167ml\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mr\u001b[48;5;68mo\u001b[48;5;134mm\u001b[48;5;167m t\u001b[48;5;179my\u001b[48;5;185mp\u001b[48;5;77ming\u001b[48;5;80m i\u001b[48;5;68mmp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mO\u001b[48;5;77mp\u001b[48;5;80mt\u001b[48;5;68mi\u001b[48;5;134mon\u001b[48;5;167mal\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mi\u001b[48;5;80mmp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m re\u001b[48;5;179mge\u001b[48;5;185mx\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mi\u001b[48;5;134mmp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m t\u001b[48;5;77mi\u001b[48;5;80mk\u001b[48;5;68mtoken\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mc\u001b[48;5;77ml\u001b[48;5;80ma\u001b[48;5;68ms\u001b[48;5;134ms\u001b[48;5;167m \u001b[48;5;179mS\u001b[48;5;185mi\u001b[48;5;77mmp\u001b[48;5;80mle\u001b[48;5;68mB\u001b[48;5;134myte\u001b[48;5;167mP\u001b[48;5;179ma\u001b[48;5;185mir\u001b[48;5;77mE\u001b[48;5;80mn\u001b[48;5;68mcoding\u001b[48;5;134m:\u001b[48;5;167m\n", + " \u001b[48;5;179m \u001b[48;5;185mde\u001b[48;5;77mf\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167min\u001b[48;5;179mi\u001b[48;5;185mt\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'de' + b'code'\n", + "So we made b'decode' our 337th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m \u001b[48;5;68mis\u001b[48;5;134m a\u001b[48;5;167mn\u001b[48;5;179m \u001b[48;5;185me\u001b[48;5;77md\u001b[48;5;80mu\u001b[48;5;68mc\u001b[48;5;134mat\u001b[48;5;167mi\u001b[48;5;179mon\u001b[48;5;185mal\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167men\u001b[48;5;179mt\u001b[48;5;185mat\u001b[48;5;77mi\u001b[48;5;80mon\u001b[48;5;68m o\u001b[48;5;134mf\u001b[48;5;167m the\u001b[48;5;179m b\u001b[48;5;185myte\u001b[48;5;77m pa\u001b[48;5;80mir\u001b[48;5;68m en\u001b[48;5;134mcoding\u001b[48;5;167m \u001b[48;5;179mal\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mi\u001b[48;5;68mt\u001b[48;5;134mh\u001b[48;5;167mm\u001b[48;5;179m.\u001b[48;5;185m\"\"\"\u001b[48;5;77m\n", + "\u001b[48;5;80mf\u001b[48;5;68mr\u001b[48;5;134mo\u001b[48;5;167mm\u001b[48;5;179m \u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80mf\u001b[48;5;68mu\u001b[48;5;134mt\u001b[48;5;167mu\u001b[48;5;179mre\u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80m i\u001b[48;5;68mmp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m a\u001b[48;5;185mn\u001b[48;5;77mn\u001b[48;5;80mo\u001b[48;5;68mt\u001b[48;5;134mat\u001b[48;5;167mi\u001b[48;5;179mon\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mi\u001b[48;5;134mmp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mco\u001b[48;5;80ml\u001b[48;5;68mle\u001b[48;5;134mc\u001b[48;5;167mt\u001b[48;5;179mi\u001b[48;5;185mon\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68mi\u001b[48;5;134mmp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m i\u001b[48;5;77mte\u001b[48;5;80mrt\u001b[48;5;68mo\u001b[48;5;134mo\u001b[48;5;167ml\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mr\u001b[48;5;68mo\u001b[48;5;134mm\u001b[48;5;167m t\u001b[48;5;179my\u001b[48;5;185mp\u001b[48;5;77ming\u001b[48;5;80m i\u001b[48;5;68mmp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mO\u001b[48;5;77mp\u001b[48;5;80mt\u001b[48;5;68mi\u001b[48;5;134mon\u001b[48;5;167mal\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mi\u001b[48;5;80mmp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m re\u001b[48;5;179mge\u001b[48;5;185mx\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mi\u001b[48;5;134mmp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m t\u001b[48;5;77mi\u001b[48;5;80mk\u001b[48;5;68mtoken\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mc\u001b[48;5;77ml\u001b[48;5;80ma\u001b[48;5;68ms\u001b[48;5;134ms\u001b[48;5;167m \u001b[48;5;179mS\u001b[48;5;185mi\u001b[48;5;77mmp\u001b[48;5;80mle\u001b[48;5;68mB\u001b[48;5;134myte\u001b[48;5;167mP\u001b[48;5;179ma\u001b[48;5;185mir\u001b[48;5;77mE\u001b[48;5;80mn\u001b[48;5;68mcoding\u001b[48;5;134m:\u001b[48;5;167m\n", + " \u001b[48;5;179m \u001b[48;5;185mde\u001b[48;5;77mf\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167min\u001b[48;5;179mi\u001b[48;5;185mt\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' v' + b'isual'\n", + "So we made b' visual' our 338th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m \u001b[48;5;68mis\u001b[48;5;134m a\u001b[48;5;167mn\u001b[48;5;179m \u001b[48;5;185me\u001b[48;5;77md\u001b[48;5;80mu\u001b[48;5;68mc\u001b[48;5;134mat\u001b[48;5;167mi\u001b[48;5;179mon\u001b[48;5;185mal\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167men\u001b[48;5;179mt\u001b[48;5;185mat\u001b[48;5;77mi\u001b[48;5;80mon\u001b[48;5;68m o\u001b[48;5;134mf\u001b[48;5;167m the\u001b[48;5;179m b\u001b[48;5;185myte\u001b[48;5;77m pa\u001b[48;5;80mir\u001b[48;5;68m en\u001b[48;5;134mcoding\u001b[48;5;167m \u001b[48;5;179mal\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mi\u001b[48;5;68mt\u001b[48;5;134mh\u001b[48;5;167mm\u001b[48;5;179m.\u001b[48;5;185m\"\"\"\u001b[48;5;77m\n", + "\u001b[48;5;80mf\u001b[48;5;68mr\u001b[48;5;134mo\u001b[48;5;167mm\u001b[48;5;179m \u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80mf\u001b[48;5;68mu\u001b[48;5;134mt\u001b[48;5;167mu\u001b[48;5;179mre\u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80m i\u001b[48;5;68mmp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m a\u001b[48;5;185mn\u001b[48;5;77mn\u001b[48;5;80mo\u001b[48;5;68mt\u001b[48;5;134mat\u001b[48;5;167mi\u001b[48;5;179mon\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mi\u001b[48;5;134mmp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mco\u001b[48;5;80ml\u001b[48;5;68mle\u001b[48;5;134mc\u001b[48;5;167mt\u001b[48;5;179mi\u001b[48;5;185mon\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68mi\u001b[48;5;134mmp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m i\u001b[48;5;77mte\u001b[48;5;80mrt\u001b[48;5;68mo\u001b[48;5;134mo\u001b[48;5;167ml\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mr\u001b[48;5;68mo\u001b[48;5;134mm\u001b[48;5;167m t\u001b[48;5;179my\u001b[48;5;185mp\u001b[48;5;77ming\u001b[48;5;80m i\u001b[48;5;68mmp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mO\u001b[48;5;77mp\u001b[48;5;80mt\u001b[48;5;68mi\u001b[48;5;134mon\u001b[48;5;167mal\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mi\u001b[48;5;80mmp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m re\u001b[48;5;179mge\u001b[48;5;185mx\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mi\u001b[48;5;134mmp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m t\u001b[48;5;77mi\u001b[48;5;80mk\u001b[48;5;68mtoken\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mc\u001b[48;5;77ml\u001b[48;5;80ma\u001b[48;5;68ms\u001b[48;5;134ms\u001b[48;5;167m \u001b[48;5;179mS\u001b[48;5;185mi\u001b[48;5;77mmp\u001b[48;5;80mle\u001b[48;5;68mB\u001b[48;5;134myte\u001b[48;5;167mP\u001b[48;5;179ma\u001b[48;5;185mir\u001b[48;5;77mE\u001b[48;5;80mn\u001b[48;5;68mcoding\u001b[48;5;134m:\u001b[48;5;167m\n", + " \u001b[48;5;179m \u001b[48;5;185mde\u001b[48;5;77mf\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167min\u001b[48;5;179mi\u001b[48;5;185mt\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'l' + b'o'\n", + "So we made b'lo' our 339th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m \u001b[48;5;68mis\u001b[48;5;134m a\u001b[48;5;167mn\u001b[48;5;179m \u001b[48;5;185me\u001b[48;5;77md\u001b[48;5;80mu\u001b[48;5;68mc\u001b[48;5;134mat\u001b[48;5;167mi\u001b[48;5;179mon\u001b[48;5;185mal\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167men\u001b[48;5;179mt\u001b[48;5;185mat\u001b[48;5;77mi\u001b[48;5;80mon\u001b[48;5;68m o\u001b[48;5;134mf\u001b[48;5;167m the\u001b[48;5;179m b\u001b[48;5;185myte\u001b[48;5;77m pa\u001b[48;5;80mir\u001b[48;5;68m en\u001b[48;5;134mcoding\u001b[48;5;167m \u001b[48;5;179mal\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mi\u001b[48;5;68mt\u001b[48;5;134mh\u001b[48;5;167mm\u001b[48;5;179m.\u001b[48;5;185m\"\"\"\u001b[48;5;77m\n", + "\u001b[48;5;80mf\u001b[48;5;68mr\u001b[48;5;134mo\u001b[48;5;167mm\u001b[48;5;179m \u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80mf\u001b[48;5;68mu\u001b[48;5;134mt\u001b[48;5;167mu\u001b[48;5;179mre\u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80m i\u001b[48;5;68mmp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m a\u001b[48;5;185mn\u001b[48;5;77mn\u001b[48;5;80mo\u001b[48;5;68mt\u001b[48;5;134mat\u001b[48;5;167mi\u001b[48;5;179mon\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mi\u001b[48;5;134mmp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mco\u001b[48;5;80ml\u001b[48;5;68mle\u001b[48;5;134mc\u001b[48;5;167mt\u001b[48;5;179mi\u001b[48;5;185mon\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68mi\u001b[48;5;134mmp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m i\u001b[48;5;77mte\u001b[48;5;80mrt\u001b[48;5;68mo\u001b[48;5;134mo\u001b[48;5;167ml\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mr\u001b[48;5;68mo\u001b[48;5;134mm\u001b[48;5;167m t\u001b[48;5;179my\u001b[48;5;185mp\u001b[48;5;77ming\u001b[48;5;80m i\u001b[48;5;68mmp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mO\u001b[48;5;77mp\u001b[48;5;80mt\u001b[48;5;68mi\u001b[48;5;134mon\u001b[48;5;167mal\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mi\u001b[48;5;80mmp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m re\u001b[48;5;179mge\u001b[48;5;185mx\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mi\u001b[48;5;134mmp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m t\u001b[48;5;77mi\u001b[48;5;80mk\u001b[48;5;68mtoken\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mc\u001b[48;5;77ml\u001b[48;5;80ma\u001b[48;5;68ms\u001b[48;5;134ms\u001b[48;5;167m \u001b[48;5;179mS\u001b[48;5;185mi\u001b[48;5;77mmp\u001b[48;5;80mle\u001b[48;5;68mB\u001b[48;5;134myte\u001b[48;5;167mP\u001b[48;5;179ma\u001b[48;5;185mir\u001b[48;5;77mE\u001b[48;5;80mn\u001b[48;5;68mcoding\u001b[48;5;134m:\u001b[48;5;167m\n", + " \u001b[48;5;179m \u001b[48;5;185mde\u001b[48;5;77mf\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167min\u001b[48;5;179mi\u001b[48;5;185mt\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'\"' + b')'\n", + "So we made b'\")' our 340th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m \u001b[48;5;68mis\u001b[48;5;134m a\u001b[48;5;167mn\u001b[48;5;179m \u001b[48;5;185me\u001b[48;5;77md\u001b[48;5;80mu\u001b[48;5;68mc\u001b[48;5;134mat\u001b[48;5;167mi\u001b[48;5;179mon\u001b[48;5;185mal\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167men\u001b[48;5;179mt\u001b[48;5;185mat\u001b[48;5;77mi\u001b[48;5;80mon\u001b[48;5;68m o\u001b[48;5;134mf\u001b[48;5;167m the\u001b[48;5;179m b\u001b[48;5;185myte\u001b[48;5;77m pa\u001b[48;5;80mir\u001b[48;5;68m en\u001b[48;5;134mcoding\u001b[48;5;167m \u001b[48;5;179mal\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mi\u001b[48;5;68mt\u001b[48;5;134mh\u001b[48;5;167mm\u001b[48;5;179m.\u001b[48;5;185m\"\"\"\u001b[48;5;77m\n", + "\u001b[48;5;80mf\u001b[48;5;68mr\u001b[48;5;134mo\u001b[48;5;167mm\u001b[48;5;179m \u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80mf\u001b[48;5;68mu\u001b[48;5;134mt\u001b[48;5;167mu\u001b[48;5;179mre\u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80m i\u001b[48;5;68mmp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m a\u001b[48;5;185mn\u001b[48;5;77mn\u001b[48;5;80mo\u001b[48;5;68mt\u001b[48;5;134mat\u001b[48;5;167mi\u001b[48;5;179mon\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mi\u001b[48;5;134mmp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mco\u001b[48;5;80ml\u001b[48;5;68mle\u001b[48;5;134mc\u001b[48;5;167mt\u001b[48;5;179mi\u001b[48;5;185mon\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68mi\u001b[48;5;134mmp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m i\u001b[48;5;77mte\u001b[48;5;80mrt\u001b[48;5;68mo\u001b[48;5;134mo\u001b[48;5;167ml\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mr\u001b[48;5;68mo\u001b[48;5;134mm\u001b[48;5;167m t\u001b[48;5;179my\u001b[48;5;185mp\u001b[48;5;77ming\u001b[48;5;80m i\u001b[48;5;68mmp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mO\u001b[48;5;77mp\u001b[48;5;80mt\u001b[48;5;68mi\u001b[48;5;134mon\u001b[48;5;167mal\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mi\u001b[48;5;80mmp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m re\u001b[48;5;179mge\u001b[48;5;185mx\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mi\u001b[48;5;134mmp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m t\u001b[48;5;77mi\u001b[48;5;80mk\u001b[48;5;68mtoken\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mc\u001b[48;5;77ml\u001b[48;5;80ma\u001b[48;5;68ms\u001b[48;5;134ms\u001b[48;5;167m \u001b[48;5;179mS\u001b[48;5;185mi\u001b[48;5;77mmp\u001b[48;5;80mle\u001b[48;5;68mB\u001b[48;5;134myte\u001b[48;5;167mP\u001b[48;5;179ma\u001b[48;5;185mir\u001b[48;5;77mE\u001b[48;5;80mn\u001b[48;5;68mcoding\u001b[48;5;134m:\u001b[48;5;167m\n", + " \u001b[48;5;179m \u001b[48;5;185mde\u001b[48;5;77mf\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167min\u001b[48;5;179mi\u001b[48;5;185mt\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' l' + b'i'\n", + "So we made b' li' our 341th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m \u001b[48;5;68mis\u001b[48;5;134m a\u001b[48;5;167mn\u001b[48;5;179m \u001b[48;5;185me\u001b[48;5;77md\u001b[48;5;80mu\u001b[48;5;68mc\u001b[48;5;134mat\u001b[48;5;167mi\u001b[48;5;179mon\u001b[48;5;185mal\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167men\u001b[48;5;179mt\u001b[48;5;185mat\u001b[48;5;77mi\u001b[48;5;80mon\u001b[48;5;68m o\u001b[48;5;134mf\u001b[48;5;167m the\u001b[48;5;179m b\u001b[48;5;185myte\u001b[48;5;77m pa\u001b[48;5;80mir\u001b[48;5;68m en\u001b[48;5;134mcoding\u001b[48;5;167m \u001b[48;5;179mal\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mi\u001b[48;5;68mt\u001b[48;5;134mh\u001b[48;5;167mm\u001b[48;5;179m.\u001b[48;5;185m\"\"\"\u001b[48;5;77m\n", + "\u001b[48;5;80mf\u001b[48;5;68mr\u001b[48;5;134mo\u001b[48;5;167mm\u001b[48;5;179m \u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80mf\u001b[48;5;68mu\u001b[48;5;134mt\u001b[48;5;167mu\u001b[48;5;179mre\u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80m i\u001b[48;5;68mmp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m a\u001b[48;5;185mn\u001b[48;5;77mn\u001b[48;5;80mo\u001b[48;5;68mt\u001b[48;5;134mat\u001b[48;5;167mi\u001b[48;5;179mon\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mi\u001b[48;5;134mmp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mco\u001b[48;5;80ml\u001b[48;5;68mle\u001b[48;5;134mc\u001b[48;5;167mt\u001b[48;5;179mi\u001b[48;5;185mon\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68mi\u001b[48;5;134mmp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m i\u001b[48;5;77mte\u001b[48;5;80mrt\u001b[48;5;68mo\u001b[48;5;134mo\u001b[48;5;167ml\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mr\u001b[48;5;68mo\u001b[48;5;134mm\u001b[48;5;167m t\u001b[48;5;179my\u001b[48;5;185mp\u001b[48;5;77ming\u001b[48;5;80m i\u001b[48;5;68mmp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mO\u001b[48;5;77mp\u001b[48;5;80mt\u001b[48;5;68mi\u001b[48;5;134mon\u001b[48;5;167mal\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mi\u001b[48;5;80mmp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m re\u001b[48;5;179mge\u001b[48;5;185mx\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mi\u001b[48;5;134mmp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m t\u001b[48;5;77mi\u001b[48;5;80mk\u001b[48;5;68mtoken\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mc\u001b[48;5;77ml\u001b[48;5;80ma\u001b[48;5;68ms\u001b[48;5;134ms\u001b[48;5;167m \u001b[48;5;179mS\u001b[48;5;185mi\u001b[48;5;77mmp\u001b[48;5;80mle\u001b[48;5;68mB\u001b[48;5;134myte\u001b[48;5;167mP\u001b[48;5;179ma\u001b[48;5;185mir\u001b[48;5;77mE\u001b[48;5;80mn\u001b[48;5;68mcoding\u001b[48;5;134m:\u001b[48;5;167m\n", + " \u001b[48;5;179m \u001b[48;5;185mde\u001b[48;5;77mf\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167min\u001b[48;5;179mi\u001b[48;5;185mt\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'in' + b't'\n", + "So we made b'int' our 342th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m \u001b[48;5;68mis\u001b[48;5;134m a\u001b[48;5;167mn\u001b[48;5;179m \u001b[48;5;185me\u001b[48;5;77md\u001b[48;5;80mu\u001b[48;5;68mc\u001b[48;5;134mat\u001b[48;5;167mi\u001b[48;5;179mon\u001b[48;5;185mal\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167men\u001b[48;5;179mt\u001b[48;5;185mat\u001b[48;5;77mi\u001b[48;5;80mon\u001b[48;5;68m o\u001b[48;5;134mf\u001b[48;5;167m the\u001b[48;5;179m b\u001b[48;5;185myte\u001b[48;5;77m pa\u001b[48;5;80mir\u001b[48;5;68m en\u001b[48;5;134mcoding\u001b[48;5;167m \u001b[48;5;179mal\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mi\u001b[48;5;68mt\u001b[48;5;134mh\u001b[48;5;167mm\u001b[48;5;179m.\u001b[48;5;185m\"\"\"\u001b[48;5;77m\n", + "\u001b[48;5;80mf\u001b[48;5;68mr\u001b[48;5;134mo\u001b[48;5;167mm\u001b[48;5;179m \u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80mf\u001b[48;5;68mu\u001b[48;5;134mt\u001b[48;5;167mu\u001b[48;5;179mre\u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80m i\u001b[48;5;68mmp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m a\u001b[48;5;185mn\u001b[48;5;77mn\u001b[48;5;80mo\u001b[48;5;68mt\u001b[48;5;134mat\u001b[48;5;167mi\u001b[48;5;179mon\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mi\u001b[48;5;134mmp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mco\u001b[48;5;80ml\u001b[48;5;68mle\u001b[48;5;134mc\u001b[48;5;167mt\u001b[48;5;179mi\u001b[48;5;185mon\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68mi\u001b[48;5;134mmp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m i\u001b[48;5;77mte\u001b[48;5;80mrt\u001b[48;5;68mo\u001b[48;5;134mo\u001b[48;5;167ml\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mr\u001b[48;5;68mo\u001b[48;5;134mm\u001b[48;5;167m t\u001b[48;5;179my\u001b[48;5;185mp\u001b[48;5;77ming\u001b[48;5;80m i\u001b[48;5;68mmp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mO\u001b[48;5;77mp\u001b[48;5;80mt\u001b[48;5;68mi\u001b[48;5;134mon\u001b[48;5;167mal\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mi\u001b[48;5;80mmp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m re\u001b[48;5;179mge\u001b[48;5;185mx\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mi\u001b[48;5;134mmp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m t\u001b[48;5;77mi\u001b[48;5;80mk\u001b[48;5;68mtoken\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mc\u001b[48;5;77ml\u001b[48;5;80ma\u001b[48;5;68ms\u001b[48;5;134ms\u001b[48;5;167m \u001b[48;5;179mS\u001b[48;5;185mi\u001b[48;5;77mmp\u001b[48;5;80mle\u001b[48;5;68mB\u001b[48;5;134myte\u001b[48;5;167mP\u001b[48;5;179ma\u001b[48;5;185mir\u001b[48;5;77mE\u001b[48;5;80mn\u001b[48;5;68mcoding\u001b[48;5;134m:\u001b[48;5;167m\n", + " \u001b[48;5;179m \u001b[48;5;185mde\u001b[48;5;77mf\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167min\u001b[48;5;179mi\u001b[48;5;185mt\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'w' + b'ord'\n", + "So we made b'word' our 343th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m \u001b[48;5;68mis\u001b[48;5;134m a\u001b[48;5;167mn\u001b[48;5;179m \u001b[48;5;185me\u001b[48;5;77md\u001b[48;5;80mu\u001b[48;5;68mc\u001b[48;5;134mat\u001b[48;5;167mi\u001b[48;5;179mon\u001b[48;5;185mal\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167men\u001b[48;5;179mt\u001b[48;5;185mat\u001b[48;5;77mi\u001b[48;5;80mon\u001b[48;5;68m o\u001b[48;5;134mf\u001b[48;5;167m the\u001b[48;5;179m b\u001b[48;5;185myte\u001b[48;5;77m pa\u001b[48;5;80mir\u001b[48;5;68m en\u001b[48;5;134mcoding\u001b[48;5;167m \u001b[48;5;179mal\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mi\u001b[48;5;68mt\u001b[48;5;134mh\u001b[48;5;167mm\u001b[48;5;179m.\u001b[48;5;185m\"\"\"\u001b[48;5;77m\n", + "\u001b[48;5;80mf\u001b[48;5;68mr\u001b[48;5;134mo\u001b[48;5;167mm\u001b[48;5;179m \u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80mf\u001b[48;5;68mu\u001b[48;5;134mt\u001b[48;5;167mu\u001b[48;5;179mre\u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80m i\u001b[48;5;68mmp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m a\u001b[48;5;185mn\u001b[48;5;77mn\u001b[48;5;80mo\u001b[48;5;68mt\u001b[48;5;134mat\u001b[48;5;167mi\u001b[48;5;179mon\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mi\u001b[48;5;134mmp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mco\u001b[48;5;80ml\u001b[48;5;68mle\u001b[48;5;134mc\u001b[48;5;167mt\u001b[48;5;179mi\u001b[48;5;185mon\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68mi\u001b[48;5;134mmp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m i\u001b[48;5;77mte\u001b[48;5;80mrt\u001b[48;5;68mo\u001b[48;5;134mo\u001b[48;5;167ml\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mr\u001b[48;5;68mo\u001b[48;5;134mm\u001b[48;5;167m t\u001b[48;5;179my\u001b[48;5;185mp\u001b[48;5;77ming\u001b[48;5;80m i\u001b[48;5;68mmp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mO\u001b[48;5;77mp\u001b[48;5;80mt\u001b[48;5;68mi\u001b[48;5;134mon\u001b[48;5;167mal\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mi\u001b[48;5;80mmp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m re\u001b[48;5;179mge\u001b[48;5;185mx\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mi\u001b[48;5;134mmp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m t\u001b[48;5;77mi\u001b[48;5;80mk\u001b[48;5;68mtoken\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mc\u001b[48;5;77ml\u001b[48;5;80ma\u001b[48;5;68ms\u001b[48;5;134ms\u001b[48;5;167m \u001b[48;5;179mS\u001b[48;5;185mi\u001b[48;5;77mmp\u001b[48;5;80mle\u001b[48;5;68mB\u001b[48;5;134myte\u001b[48;5;167mP\u001b[48;5;179ma\u001b[48;5;185mir\u001b[48;5;77mE\u001b[48;5;80mn\u001b[48;5;68mcoding\u001b[48;5;134m:\u001b[48;5;167m\n", + " \u001b[48;5;179m \u001b[48;5;185mde\u001b[48;5;77mf\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167min\u001b[48;5;179mi\u001b[48;5;185mt\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' pa' + b'ir'\n", + "So we made b' pair' our 344th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m \u001b[48;5;68mis\u001b[48;5;134m a\u001b[48;5;167mn\u001b[48;5;179m \u001b[48;5;185me\u001b[48;5;77md\u001b[48;5;80mu\u001b[48;5;68mc\u001b[48;5;134mat\u001b[48;5;167mi\u001b[48;5;179mon\u001b[48;5;185mal\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167men\u001b[48;5;179mt\u001b[48;5;185mat\u001b[48;5;77mi\u001b[48;5;80mon\u001b[48;5;68m o\u001b[48;5;134mf\u001b[48;5;167m the\u001b[48;5;179m b\u001b[48;5;185myte\u001b[48;5;77m pair\u001b[48;5;80m en\u001b[48;5;68mcoding\u001b[48;5;134m \u001b[48;5;167mal\u001b[48;5;179mg\u001b[48;5;185mor\u001b[48;5;77mi\u001b[48;5;80mt\u001b[48;5;68mh\u001b[48;5;134mm\u001b[48;5;167m.\u001b[48;5;179m\"\"\"\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mr\u001b[48;5;68mo\u001b[48;5;134mm\u001b[48;5;167m \u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77mf\u001b[48;5;80mu\u001b[48;5;68mt\u001b[48;5;134mu\u001b[48;5;167mre\u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m a\u001b[48;5;179mn\u001b[48;5;185mn\u001b[48;5;77mo\u001b[48;5;80mt\u001b[48;5;68mat\u001b[48;5;134mi\u001b[48;5;167mon\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mmp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mco\u001b[48;5;77ml\u001b[48;5;80mle\u001b[48;5;68mc\u001b[48;5;134mt\u001b[48;5;167mi\u001b[48;5;179mon\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mmp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m i\u001b[48;5;185mte\u001b[48;5;77mrt\u001b[48;5;80mo\u001b[48;5;68mo\u001b[48;5;134ml\u001b[48;5;167ms\u001b[48;5;179m\n", + "\u001b[48;5;185mf\u001b[48;5;77mr\u001b[48;5;80mo\u001b[48;5;68mm\u001b[48;5;134m t\u001b[48;5;167my\u001b[48;5;179mp\u001b[48;5;185ming\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m \u001b[48;5;179mO\u001b[48;5;185mp\u001b[48;5;77mt\u001b[48;5;80mi\u001b[48;5;68mon\u001b[48;5;134mal\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mi\u001b[48;5;77mmp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m re\u001b[48;5;167mge\u001b[48;5;179mx\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mmp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m t\u001b[48;5;185mi\u001b[48;5;77mk\u001b[48;5;80mtoken\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mc\u001b[48;5;185ml\u001b[48;5;77ma\u001b[48;5;80ms\u001b[48;5;68ms\u001b[48;5;134m \u001b[48;5;167mS\u001b[48;5;179mi\u001b[48;5;185mmp\u001b[48;5;77mle\u001b[48;5;80mB\u001b[48;5;68myte\u001b[48;5;134mP\u001b[48;5;167ma\u001b[48;5;179mir\u001b[48;5;185mE\u001b[48;5;77mn\u001b[48;5;80mcoding\u001b[48;5;68m:\u001b[48;5;134m\n", + " \u001b[48;5;167m \u001b[48;5;179mde\u001b[48;5;185mf\u001b[48;5;77m \u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134min\u001b[48;5;167mi\u001b[48;5;179mt\u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'se' + b'l'\n", + "So we made b'sel' our 345th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m \u001b[48;5;68mis\u001b[48;5;134m a\u001b[48;5;167mn\u001b[48;5;179m \u001b[48;5;185me\u001b[48;5;77md\u001b[48;5;80mu\u001b[48;5;68mc\u001b[48;5;134mat\u001b[48;5;167mi\u001b[48;5;179mon\u001b[48;5;185mal\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167men\u001b[48;5;179mt\u001b[48;5;185mat\u001b[48;5;77mi\u001b[48;5;80mon\u001b[48;5;68m o\u001b[48;5;134mf\u001b[48;5;167m the\u001b[48;5;179m b\u001b[48;5;185myte\u001b[48;5;77m pair\u001b[48;5;80m en\u001b[48;5;68mcoding\u001b[48;5;134m \u001b[48;5;167mal\u001b[48;5;179mg\u001b[48;5;185mor\u001b[48;5;77mi\u001b[48;5;80mt\u001b[48;5;68mh\u001b[48;5;134mm\u001b[48;5;167m.\u001b[48;5;179m\"\"\"\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mr\u001b[48;5;68mo\u001b[48;5;134mm\u001b[48;5;167m \u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77mf\u001b[48;5;80mu\u001b[48;5;68mt\u001b[48;5;134mu\u001b[48;5;167mre\u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m a\u001b[48;5;179mn\u001b[48;5;185mn\u001b[48;5;77mo\u001b[48;5;80mt\u001b[48;5;68mat\u001b[48;5;134mi\u001b[48;5;167mon\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mmp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mco\u001b[48;5;77ml\u001b[48;5;80mle\u001b[48;5;68mc\u001b[48;5;134mt\u001b[48;5;167mi\u001b[48;5;179mon\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mmp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m i\u001b[48;5;185mte\u001b[48;5;77mrt\u001b[48;5;80mo\u001b[48;5;68mo\u001b[48;5;134ml\u001b[48;5;167ms\u001b[48;5;179m\n", + "\u001b[48;5;185mf\u001b[48;5;77mr\u001b[48;5;80mo\u001b[48;5;68mm\u001b[48;5;134m t\u001b[48;5;167my\u001b[48;5;179mp\u001b[48;5;185ming\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m \u001b[48;5;179mO\u001b[48;5;185mp\u001b[48;5;77mt\u001b[48;5;80mi\u001b[48;5;68mon\u001b[48;5;134mal\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mi\u001b[48;5;77mmp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m re\u001b[48;5;167mge\u001b[48;5;179mx\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mmp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m t\u001b[48;5;185mi\u001b[48;5;77mk\u001b[48;5;80mtoken\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mc\u001b[48;5;185ml\u001b[48;5;77ma\u001b[48;5;80ms\u001b[48;5;68ms\u001b[48;5;134m \u001b[48;5;167mS\u001b[48;5;179mi\u001b[48;5;185mmp\u001b[48;5;77mle\u001b[48;5;80mB\u001b[48;5;68myte\u001b[48;5;134mP\u001b[48;5;167ma\u001b[48;5;179mir\u001b[48;5;185mE\u001b[48;5;77mn\u001b[48;5;80mcoding\u001b[48;5;68m:\u001b[48;5;134m\n", + " \u001b[48;5;167m \u001b[48;5;179mde\u001b[48;5;185mf\u001b[48;5;77m \u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134min\u001b[48;5;167mi\u001b[48;5;179mt\u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'sel' + b'f'\n", + "So we made b'self' our 346th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m \u001b[48;5;68mis\u001b[48;5;134m a\u001b[48;5;167mn\u001b[48;5;179m \u001b[48;5;185me\u001b[48;5;77md\u001b[48;5;80mu\u001b[48;5;68mc\u001b[48;5;134mat\u001b[48;5;167mi\u001b[48;5;179mon\u001b[48;5;185mal\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167men\u001b[48;5;179mt\u001b[48;5;185mat\u001b[48;5;77mi\u001b[48;5;80mon\u001b[48;5;68m o\u001b[48;5;134mf\u001b[48;5;167m the\u001b[48;5;179m b\u001b[48;5;185myte\u001b[48;5;77m pair\u001b[48;5;80m en\u001b[48;5;68mcoding\u001b[48;5;134m \u001b[48;5;167mal\u001b[48;5;179mg\u001b[48;5;185mor\u001b[48;5;77mi\u001b[48;5;80mt\u001b[48;5;68mh\u001b[48;5;134mm\u001b[48;5;167m.\u001b[48;5;179m\"\"\"\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mr\u001b[48;5;68mo\u001b[48;5;134mm\u001b[48;5;167m \u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77mf\u001b[48;5;80mu\u001b[48;5;68mt\u001b[48;5;134mu\u001b[48;5;167mre\u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m a\u001b[48;5;179mn\u001b[48;5;185mn\u001b[48;5;77mo\u001b[48;5;80mt\u001b[48;5;68mat\u001b[48;5;134mi\u001b[48;5;167mon\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mmp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mco\u001b[48;5;77ml\u001b[48;5;80mle\u001b[48;5;68mc\u001b[48;5;134mt\u001b[48;5;167mi\u001b[48;5;179mon\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mmp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m i\u001b[48;5;185mte\u001b[48;5;77mrt\u001b[48;5;80mo\u001b[48;5;68mo\u001b[48;5;134ml\u001b[48;5;167ms\u001b[48;5;179m\n", + "\u001b[48;5;185mf\u001b[48;5;77mr\u001b[48;5;80mo\u001b[48;5;68mm\u001b[48;5;134m t\u001b[48;5;167my\u001b[48;5;179mp\u001b[48;5;185ming\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m \u001b[48;5;179mO\u001b[48;5;185mp\u001b[48;5;77mt\u001b[48;5;80mi\u001b[48;5;68mon\u001b[48;5;134mal\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mi\u001b[48;5;77mmp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m re\u001b[48;5;167mge\u001b[48;5;179mx\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mmp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m t\u001b[48;5;185mi\u001b[48;5;77mk\u001b[48;5;80mtoken\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mc\u001b[48;5;185ml\u001b[48;5;77ma\u001b[48;5;80ms\u001b[48;5;68ms\u001b[48;5;134m \u001b[48;5;167mS\u001b[48;5;179mi\u001b[48;5;185mmp\u001b[48;5;77mle\u001b[48;5;80mB\u001b[48;5;68myte\u001b[48;5;134mP\u001b[48;5;167ma\u001b[48;5;179mir\u001b[48;5;185mE\u001b[48;5;77mn\u001b[48;5;80mcoding\u001b[48;5;68m:\u001b[48;5;134m\n", + " \u001b[48;5;167m \u001b[48;5;179mde\u001b[48;5;185mf\u001b[48;5;77m \u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134min\u001b[48;5;167mi\u001b[48;5;179mt\u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'\\n' + b'\\n '\n", + "So we made b'\\n\\n ' our 347th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m \u001b[48;5;68mis\u001b[48;5;134m a\u001b[48;5;167mn\u001b[48;5;179m \u001b[48;5;185me\u001b[48;5;77md\u001b[48;5;80mu\u001b[48;5;68mc\u001b[48;5;134mat\u001b[48;5;167mi\u001b[48;5;179mon\u001b[48;5;185mal\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167men\u001b[48;5;179mt\u001b[48;5;185mat\u001b[48;5;77mi\u001b[48;5;80mon\u001b[48;5;68m o\u001b[48;5;134mf\u001b[48;5;167m the\u001b[48;5;179m b\u001b[48;5;185myte\u001b[48;5;77m pair\u001b[48;5;80m en\u001b[48;5;68mcoding\u001b[48;5;134m \u001b[48;5;167mal\u001b[48;5;179mg\u001b[48;5;185mor\u001b[48;5;77mi\u001b[48;5;80mt\u001b[48;5;68mh\u001b[48;5;134mm\u001b[48;5;167m.\u001b[48;5;179m\"\"\"\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mr\u001b[48;5;68mo\u001b[48;5;134mm\u001b[48;5;167m \u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77mf\u001b[48;5;80mu\u001b[48;5;68mt\u001b[48;5;134mu\u001b[48;5;167mre\u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m a\u001b[48;5;179mn\u001b[48;5;185mn\u001b[48;5;77mo\u001b[48;5;80mt\u001b[48;5;68mat\u001b[48;5;134mi\u001b[48;5;167mon\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mmp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mco\u001b[48;5;77ml\u001b[48;5;80mle\u001b[48;5;68mc\u001b[48;5;134mt\u001b[48;5;167mi\u001b[48;5;179mon\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mmp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m i\u001b[48;5;185mte\u001b[48;5;77mrt\u001b[48;5;80mo\u001b[48;5;68mo\u001b[48;5;134ml\u001b[48;5;167ms\u001b[48;5;179m\n", + "\u001b[48;5;185mf\u001b[48;5;77mr\u001b[48;5;80mo\u001b[48;5;68mm\u001b[48;5;134m t\u001b[48;5;167my\u001b[48;5;179mp\u001b[48;5;185ming\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m \u001b[48;5;179mO\u001b[48;5;185mp\u001b[48;5;77mt\u001b[48;5;80mi\u001b[48;5;68mon\u001b[48;5;134mal\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mi\u001b[48;5;77mmp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m re\u001b[48;5;167mge\u001b[48;5;179mx\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mmp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m t\u001b[48;5;185mi\u001b[48;5;77mk\u001b[48;5;80mtoken\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mc\u001b[48;5;185ml\u001b[48;5;77ma\u001b[48;5;80ms\u001b[48;5;68ms\u001b[48;5;134m \u001b[48;5;167mS\u001b[48;5;179mi\u001b[48;5;185mmp\u001b[48;5;77mle\u001b[48;5;80mB\u001b[48;5;68myte\u001b[48;5;134mP\u001b[48;5;167ma\u001b[48;5;179mir\u001b[48;5;185mE\u001b[48;5;77mn\u001b[48;5;80mcoding\u001b[48;5;68m:\u001b[48;5;134m\n", + " \u001b[48;5;167m \u001b[48;5;179mde\u001b[48;5;185mf\u001b[48;5;77m \u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134min\u001b[48;5;167mi\u001b[48;5;179mt\u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' visual' + b'ise'\n", + "So we made b' visualise' our 348th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m \u001b[48;5;68mis\u001b[48;5;134m a\u001b[48;5;167mn\u001b[48;5;179m \u001b[48;5;185me\u001b[48;5;77md\u001b[48;5;80mu\u001b[48;5;68mc\u001b[48;5;134mat\u001b[48;5;167mi\u001b[48;5;179mon\u001b[48;5;185mal\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167men\u001b[48;5;179mt\u001b[48;5;185mat\u001b[48;5;77mi\u001b[48;5;80mon\u001b[48;5;68m o\u001b[48;5;134mf\u001b[48;5;167m the\u001b[48;5;179m b\u001b[48;5;185myte\u001b[48;5;77m pair\u001b[48;5;80m en\u001b[48;5;68mcoding\u001b[48;5;134m \u001b[48;5;167mal\u001b[48;5;179mg\u001b[48;5;185mor\u001b[48;5;77mi\u001b[48;5;80mt\u001b[48;5;68mh\u001b[48;5;134mm\u001b[48;5;167m.\u001b[48;5;179m\"\"\"\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mr\u001b[48;5;68mo\u001b[48;5;134mm\u001b[48;5;167m \u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77mf\u001b[48;5;80mu\u001b[48;5;68mt\u001b[48;5;134mu\u001b[48;5;167mre\u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m a\u001b[48;5;179mn\u001b[48;5;185mn\u001b[48;5;77mo\u001b[48;5;80mt\u001b[48;5;68mat\u001b[48;5;134mi\u001b[48;5;167mon\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mmp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mco\u001b[48;5;77ml\u001b[48;5;80mle\u001b[48;5;68mc\u001b[48;5;134mt\u001b[48;5;167mi\u001b[48;5;179mon\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mmp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m i\u001b[48;5;185mte\u001b[48;5;77mrt\u001b[48;5;80mo\u001b[48;5;68mo\u001b[48;5;134ml\u001b[48;5;167ms\u001b[48;5;179m\n", + "\u001b[48;5;185mf\u001b[48;5;77mr\u001b[48;5;80mo\u001b[48;5;68mm\u001b[48;5;134m t\u001b[48;5;167my\u001b[48;5;179mp\u001b[48;5;185ming\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m \u001b[48;5;179mO\u001b[48;5;185mp\u001b[48;5;77mt\u001b[48;5;80mi\u001b[48;5;68mon\u001b[48;5;134mal\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mi\u001b[48;5;77mmp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m re\u001b[48;5;167mge\u001b[48;5;179mx\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mmp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m t\u001b[48;5;185mi\u001b[48;5;77mk\u001b[48;5;80mtoken\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mc\u001b[48;5;185ml\u001b[48;5;77ma\u001b[48;5;80ms\u001b[48;5;68ms\u001b[48;5;134m \u001b[48;5;167mS\u001b[48;5;179mi\u001b[48;5;185mmp\u001b[48;5;77mle\u001b[48;5;80mB\u001b[48;5;68myte\u001b[48;5;134mP\u001b[48;5;167ma\u001b[48;5;179mir\u001b[48;5;185mE\u001b[48;5;77mn\u001b[48;5;80mcoding\u001b[48;5;68m:\u001b[48;5;134m\n", + " \u001b[48;5;167m \u001b[48;5;179mde\u001b[48;5;185mf\u001b[48;5;77m \u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134min\u001b[48;5;167mi\u001b[48;5;179mt\u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' ' + b'n'\n", + "So we made b' n' our 349th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m \u001b[48;5;68mis\u001b[48;5;134m a\u001b[48;5;167mn\u001b[48;5;179m \u001b[48;5;185me\u001b[48;5;77md\u001b[48;5;80mu\u001b[48;5;68mc\u001b[48;5;134mat\u001b[48;5;167mi\u001b[48;5;179mon\u001b[48;5;185mal\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167men\u001b[48;5;179mt\u001b[48;5;185mat\u001b[48;5;77mi\u001b[48;5;80mon\u001b[48;5;68m o\u001b[48;5;134mf\u001b[48;5;167m the\u001b[48;5;179m b\u001b[48;5;185myte\u001b[48;5;77m pair\u001b[48;5;80m en\u001b[48;5;68mcoding\u001b[48;5;134m \u001b[48;5;167mal\u001b[48;5;179mg\u001b[48;5;185mor\u001b[48;5;77mi\u001b[48;5;80mt\u001b[48;5;68mh\u001b[48;5;134mm\u001b[48;5;167m.\u001b[48;5;179m\"\"\"\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mr\u001b[48;5;68mo\u001b[48;5;134mm\u001b[48;5;167m \u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77mf\u001b[48;5;80mu\u001b[48;5;68mt\u001b[48;5;134mu\u001b[48;5;167mre\u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m a\u001b[48;5;179mn\u001b[48;5;185mn\u001b[48;5;77mo\u001b[48;5;80mt\u001b[48;5;68mat\u001b[48;5;134mi\u001b[48;5;167mon\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mmp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mco\u001b[48;5;77ml\u001b[48;5;80mle\u001b[48;5;68mc\u001b[48;5;134mt\u001b[48;5;167mi\u001b[48;5;179mon\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mmp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m i\u001b[48;5;185mte\u001b[48;5;77mrt\u001b[48;5;80mo\u001b[48;5;68mo\u001b[48;5;134ml\u001b[48;5;167ms\u001b[48;5;179m\n", + "\u001b[48;5;185mf\u001b[48;5;77mr\u001b[48;5;80mo\u001b[48;5;68mm\u001b[48;5;134m t\u001b[48;5;167my\u001b[48;5;179mp\u001b[48;5;185ming\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m \u001b[48;5;179mO\u001b[48;5;185mp\u001b[48;5;77mt\u001b[48;5;80mi\u001b[48;5;68mon\u001b[48;5;134mal\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mi\u001b[48;5;77mmp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m re\u001b[48;5;167mge\u001b[48;5;179mx\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mmp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m t\u001b[48;5;185mi\u001b[48;5;77mk\u001b[48;5;80mtoken\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mc\u001b[48;5;185ml\u001b[48;5;77ma\u001b[48;5;80ms\u001b[48;5;68ms\u001b[48;5;134m \u001b[48;5;167mS\u001b[48;5;179mi\u001b[48;5;185mmp\u001b[48;5;77mle\u001b[48;5;80mB\u001b[48;5;68myte\u001b[48;5;134mP\u001b[48;5;167ma\u001b[48;5;179mir\u001b[48;5;185mE\u001b[48;5;77mn\u001b[48;5;80mcoding\u001b[48;5;68m:\u001b[48;5;134m\n", + " \u001b[48;5;167m \u001b[48;5;179mde\u001b[48;5;185mf\u001b[48;5;77m \u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134min\u001b[48;5;167mi\u001b[48;5;179mt\u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'at' + b'a'\n", + "So we made b'ata' our 350th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m \u001b[48;5;68mis\u001b[48;5;134m a\u001b[48;5;167mn\u001b[48;5;179m \u001b[48;5;185me\u001b[48;5;77md\u001b[48;5;80mu\u001b[48;5;68mc\u001b[48;5;134mat\u001b[48;5;167mi\u001b[48;5;179mon\u001b[48;5;185mal\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167men\u001b[48;5;179mt\u001b[48;5;185mat\u001b[48;5;77mi\u001b[48;5;80mon\u001b[48;5;68m o\u001b[48;5;134mf\u001b[48;5;167m the\u001b[48;5;179m b\u001b[48;5;185myte\u001b[48;5;77m pair\u001b[48;5;80m en\u001b[48;5;68mcoding\u001b[48;5;134m \u001b[48;5;167mal\u001b[48;5;179mg\u001b[48;5;185mor\u001b[48;5;77mi\u001b[48;5;80mt\u001b[48;5;68mh\u001b[48;5;134mm\u001b[48;5;167m.\u001b[48;5;179m\"\"\"\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mr\u001b[48;5;68mo\u001b[48;5;134mm\u001b[48;5;167m \u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77mf\u001b[48;5;80mu\u001b[48;5;68mt\u001b[48;5;134mu\u001b[48;5;167mre\u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m a\u001b[48;5;179mn\u001b[48;5;185mn\u001b[48;5;77mo\u001b[48;5;80mt\u001b[48;5;68mat\u001b[48;5;134mi\u001b[48;5;167mon\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mmp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mco\u001b[48;5;77ml\u001b[48;5;80mle\u001b[48;5;68mc\u001b[48;5;134mt\u001b[48;5;167mi\u001b[48;5;179mon\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mmp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m i\u001b[48;5;185mte\u001b[48;5;77mrt\u001b[48;5;80mo\u001b[48;5;68mo\u001b[48;5;134ml\u001b[48;5;167ms\u001b[48;5;179m\n", + "\u001b[48;5;185mf\u001b[48;5;77mr\u001b[48;5;80mo\u001b[48;5;68mm\u001b[48;5;134m t\u001b[48;5;167my\u001b[48;5;179mp\u001b[48;5;185ming\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m \u001b[48;5;179mO\u001b[48;5;185mp\u001b[48;5;77mt\u001b[48;5;80mi\u001b[48;5;68mon\u001b[48;5;134mal\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mi\u001b[48;5;77mmp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m re\u001b[48;5;167mge\u001b[48;5;179mx\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mmp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m t\u001b[48;5;185mi\u001b[48;5;77mk\u001b[48;5;80mtoken\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mc\u001b[48;5;185ml\u001b[48;5;77ma\u001b[48;5;80ms\u001b[48;5;68ms\u001b[48;5;134m \u001b[48;5;167mS\u001b[48;5;179mi\u001b[48;5;185mmp\u001b[48;5;77mle\u001b[48;5;80mB\u001b[48;5;68myte\u001b[48;5;134mP\u001b[48;5;167ma\u001b[48;5;179mir\u001b[48;5;185mE\u001b[48;5;77mn\u001b[48;5;80mcoding\u001b[48;5;68m:\u001b[48;5;134m\n", + " \u001b[48;5;167m \u001b[48;5;179mde\u001b[48;5;185mf\u001b[48;5;77m \u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134min\u001b[48;5;167mi\u001b[48;5;179mt\u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'ab' + b'le'\n", + "So we made b'able' our 351th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m \u001b[48;5;68mis\u001b[48;5;134m a\u001b[48;5;167mn\u001b[48;5;179m \u001b[48;5;185me\u001b[48;5;77md\u001b[48;5;80mu\u001b[48;5;68mc\u001b[48;5;134mat\u001b[48;5;167mi\u001b[48;5;179mon\u001b[48;5;185mal\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167men\u001b[48;5;179mt\u001b[48;5;185mat\u001b[48;5;77mi\u001b[48;5;80mon\u001b[48;5;68m o\u001b[48;5;134mf\u001b[48;5;167m the\u001b[48;5;179m b\u001b[48;5;185myte\u001b[48;5;77m pair\u001b[48;5;80m en\u001b[48;5;68mcoding\u001b[48;5;134m \u001b[48;5;167mal\u001b[48;5;179mg\u001b[48;5;185mor\u001b[48;5;77mi\u001b[48;5;80mt\u001b[48;5;68mh\u001b[48;5;134mm\u001b[48;5;167m.\u001b[48;5;179m\"\"\"\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mr\u001b[48;5;68mo\u001b[48;5;134mm\u001b[48;5;167m \u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77mf\u001b[48;5;80mu\u001b[48;5;68mt\u001b[48;5;134mu\u001b[48;5;167mre\u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m a\u001b[48;5;179mn\u001b[48;5;185mn\u001b[48;5;77mo\u001b[48;5;80mt\u001b[48;5;68mat\u001b[48;5;134mi\u001b[48;5;167mon\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mmp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mco\u001b[48;5;77ml\u001b[48;5;80mle\u001b[48;5;68mc\u001b[48;5;134mt\u001b[48;5;167mi\u001b[48;5;179mon\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mmp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m i\u001b[48;5;185mte\u001b[48;5;77mrt\u001b[48;5;80mo\u001b[48;5;68mo\u001b[48;5;134ml\u001b[48;5;167ms\u001b[48;5;179m\n", + "\u001b[48;5;185mf\u001b[48;5;77mr\u001b[48;5;80mo\u001b[48;5;68mm\u001b[48;5;134m t\u001b[48;5;167my\u001b[48;5;179mp\u001b[48;5;185ming\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m \u001b[48;5;179mO\u001b[48;5;185mp\u001b[48;5;77mt\u001b[48;5;80mi\u001b[48;5;68mon\u001b[48;5;134mal\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mi\u001b[48;5;77mmp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m re\u001b[48;5;167mge\u001b[48;5;179mx\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mmp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m t\u001b[48;5;185mi\u001b[48;5;77mk\u001b[48;5;80mtoken\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mc\u001b[48;5;185ml\u001b[48;5;77ma\u001b[48;5;80ms\u001b[48;5;68ms\u001b[48;5;134m \u001b[48;5;167mS\u001b[48;5;179mi\u001b[48;5;185mmp\u001b[48;5;77mle\u001b[48;5;80mB\u001b[48;5;68myte\u001b[48;5;134mP\u001b[48;5;167ma\u001b[48;5;179mir\u001b[48;5;185mE\u001b[48;5;77mn\u001b[48;5;80mcoding\u001b[48;5;68m:\u001b[48;5;134m\n", + " \u001b[48;5;167m \u001b[48;5;179mde\u001b[48;5;185mf\u001b[48;5;77m \u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134min\u001b[48;5;167mi\u001b[48;5;179mt\u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' in' + b't'\n", + "So we made b' int' our 352th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m \u001b[48;5;68mis\u001b[48;5;134m a\u001b[48;5;167mn\u001b[48;5;179m \u001b[48;5;185me\u001b[48;5;77md\u001b[48;5;80mu\u001b[48;5;68mc\u001b[48;5;134mat\u001b[48;5;167mi\u001b[48;5;179mon\u001b[48;5;185mal\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167men\u001b[48;5;179mt\u001b[48;5;185mat\u001b[48;5;77mi\u001b[48;5;80mon\u001b[48;5;68m o\u001b[48;5;134mf\u001b[48;5;167m the\u001b[48;5;179m b\u001b[48;5;185myte\u001b[48;5;77m pair\u001b[48;5;80m en\u001b[48;5;68mcoding\u001b[48;5;134m \u001b[48;5;167mal\u001b[48;5;179mg\u001b[48;5;185mor\u001b[48;5;77mi\u001b[48;5;80mt\u001b[48;5;68mh\u001b[48;5;134mm\u001b[48;5;167m.\u001b[48;5;179m\"\"\"\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mr\u001b[48;5;68mo\u001b[48;5;134mm\u001b[48;5;167m \u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77mf\u001b[48;5;80mu\u001b[48;5;68mt\u001b[48;5;134mu\u001b[48;5;167mre\u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m a\u001b[48;5;179mn\u001b[48;5;185mn\u001b[48;5;77mo\u001b[48;5;80mt\u001b[48;5;68mat\u001b[48;5;134mi\u001b[48;5;167mon\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mmp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mco\u001b[48;5;77ml\u001b[48;5;80mle\u001b[48;5;68mc\u001b[48;5;134mt\u001b[48;5;167mi\u001b[48;5;179mon\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mmp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m i\u001b[48;5;185mte\u001b[48;5;77mrt\u001b[48;5;80mo\u001b[48;5;68mo\u001b[48;5;134ml\u001b[48;5;167ms\u001b[48;5;179m\n", + "\u001b[48;5;185mf\u001b[48;5;77mr\u001b[48;5;80mo\u001b[48;5;68mm\u001b[48;5;134m t\u001b[48;5;167my\u001b[48;5;179mp\u001b[48;5;185ming\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m \u001b[48;5;179mO\u001b[48;5;185mp\u001b[48;5;77mt\u001b[48;5;80mi\u001b[48;5;68mon\u001b[48;5;134mal\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mi\u001b[48;5;77mmp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m re\u001b[48;5;167mge\u001b[48;5;179mx\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mmp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m t\u001b[48;5;185mi\u001b[48;5;77mk\u001b[48;5;80mtoken\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mc\u001b[48;5;185ml\u001b[48;5;77ma\u001b[48;5;80ms\u001b[48;5;68ms\u001b[48;5;134m \u001b[48;5;167mS\u001b[48;5;179mi\u001b[48;5;185mmp\u001b[48;5;77mle\u001b[48;5;80mB\u001b[48;5;68myte\u001b[48;5;134mP\u001b[48;5;167ma\u001b[48;5;179mir\u001b[48;5;185mE\u001b[48;5;77mn\u001b[48;5;80mcoding\u001b[48;5;68m:\u001b[48;5;134m\n", + " \u001b[48;5;167m \u001b[48;5;179mde\u001b[48;5;185mf\u001b[48;5;77m \u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134min\u001b[48;5;167mi\u001b[48;5;179mt\u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'\\n' + b'\\n '\n", + "So we made b'\\n\\n ' our 353th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m \u001b[48;5;68mis\u001b[48;5;134m a\u001b[48;5;167mn\u001b[48;5;179m \u001b[48;5;185me\u001b[48;5;77md\u001b[48;5;80mu\u001b[48;5;68mc\u001b[48;5;134mat\u001b[48;5;167mi\u001b[48;5;179mon\u001b[48;5;185mal\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167men\u001b[48;5;179mt\u001b[48;5;185mat\u001b[48;5;77mi\u001b[48;5;80mon\u001b[48;5;68m o\u001b[48;5;134mf\u001b[48;5;167m the\u001b[48;5;179m b\u001b[48;5;185myte\u001b[48;5;77m pair\u001b[48;5;80m en\u001b[48;5;68mcoding\u001b[48;5;134m \u001b[48;5;167mal\u001b[48;5;179mg\u001b[48;5;185mor\u001b[48;5;77mi\u001b[48;5;80mt\u001b[48;5;68mh\u001b[48;5;134mm\u001b[48;5;167m.\u001b[48;5;179m\"\"\"\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mr\u001b[48;5;68mo\u001b[48;5;134mm\u001b[48;5;167m \u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77mf\u001b[48;5;80mu\u001b[48;5;68mt\u001b[48;5;134mu\u001b[48;5;167mre\u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m a\u001b[48;5;179mn\u001b[48;5;185mn\u001b[48;5;77mo\u001b[48;5;80mt\u001b[48;5;68mat\u001b[48;5;134mi\u001b[48;5;167mon\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mmp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mco\u001b[48;5;77ml\u001b[48;5;80mle\u001b[48;5;68mc\u001b[48;5;134mt\u001b[48;5;167mi\u001b[48;5;179mon\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mmp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m i\u001b[48;5;185mte\u001b[48;5;77mrt\u001b[48;5;80mo\u001b[48;5;68mo\u001b[48;5;134ml\u001b[48;5;167ms\u001b[48;5;179m\n", + "\u001b[48;5;185mf\u001b[48;5;77mr\u001b[48;5;80mo\u001b[48;5;68mm\u001b[48;5;134m t\u001b[48;5;167my\u001b[48;5;179mp\u001b[48;5;185ming\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m \u001b[48;5;179mO\u001b[48;5;185mp\u001b[48;5;77mt\u001b[48;5;80mi\u001b[48;5;68mon\u001b[48;5;134mal\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mi\u001b[48;5;77mmp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m re\u001b[48;5;167mge\u001b[48;5;179mx\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mmp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m t\u001b[48;5;185mi\u001b[48;5;77mk\u001b[48;5;80mtoken\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mc\u001b[48;5;185ml\u001b[48;5;77ma\u001b[48;5;80ms\u001b[48;5;68ms\u001b[48;5;134m \u001b[48;5;167mS\u001b[48;5;179mi\u001b[48;5;185mmp\u001b[48;5;77mle\u001b[48;5;80mB\u001b[48;5;68myte\u001b[48;5;134mP\u001b[48;5;167ma\u001b[48;5;179mir\u001b[48;5;185mE\u001b[48;5;77mn\u001b[48;5;80mcoding\u001b[48;5;68m:\u001b[48;5;134m\n", + " \u001b[48;5;167m \u001b[48;5;179mde\u001b[48;5;185mf\u001b[48;5;77m \u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134min\u001b[48;5;167mi\u001b[48;5;179mt\u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' li' + b'st'\n", + "So we made b' list' our 354th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m \u001b[48;5;68mis\u001b[48;5;134m a\u001b[48;5;167mn\u001b[48;5;179m \u001b[48;5;185me\u001b[48;5;77md\u001b[48;5;80mu\u001b[48;5;68mc\u001b[48;5;134mat\u001b[48;5;167mi\u001b[48;5;179mon\u001b[48;5;185mal\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167men\u001b[48;5;179mt\u001b[48;5;185mat\u001b[48;5;77mi\u001b[48;5;80mon\u001b[48;5;68m o\u001b[48;5;134mf\u001b[48;5;167m the\u001b[48;5;179m b\u001b[48;5;185myte\u001b[48;5;77m pair\u001b[48;5;80m en\u001b[48;5;68mcoding\u001b[48;5;134m \u001b[48;5;167mal\u001b[48;5;179mg\u001b[48;5;185mor\u001b[48;5;77mi\u001b[48;5;80mt\u001b[48;5;68mh\u001b[48;5;134mm\u001b[48;5;167m.\u001b[48;5;179m\"\"\"\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mr\u001b[48;5;68mo\u001b[48;5;134mm\u001b[48;5;167m \u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77mf\u001b[48;5;80mu\u001b[48;5;68mt\u001b[48;5;134mu\u001b[48;5;167mre\u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m a\u001b[48;5;179mn\u001b[48;5;185mn\u001b[48;5;77mo\u001b[48;5;80mt\u001b[48;5;68mat\u001b[48;5;134mi\u001b[48;5;167mon\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mmp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mco\u001b[48;5;77ml\u001b[48;5;80mle\u001b[48;5;68mc\u001b[48;5;134mt\u001b[48;5;167mi\u001b[48;5;179mon\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mmp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m i\u001b[48;5;185mte\u001b[48;5;77mrt\u001b[48;5;80mo\u001b[48;5;68mo\u001b[48;5;134ml\u001b[48;5;167ms\u001b[48;5;179m\n", + "\u001b[48;5;185mf\u001b[48;5;77mr\u001b[48;5;80mo\u001b[48;5;68mm\u001b[48;5;134m t\u001b[48;5;167my\u001b[48;5;179mp\u001b[48;5;185ming\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m \u001b[48;5;179mO\u001b[48;5;185mp\u001b[48;5;77mt\u001b[48;5;80mi\u001b[48;5;68mon\u001b[48;5;134mal\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mi\u001b[48;5;77mmp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m re\u001b[48;5;167mge\u001b[48;5;179mx\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mmp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m t\u001b[48;5;185mi\u001b[48;5;77mk\u001b[48;5;80mtoken\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mc\u001b[48;5;185ml\u001b[48;5;77ma\u001b[48;5;80ms\u001b[48;5;68ms\u001b[48;5;134m \u001b[48;5;167mS\u001b[48;5;179mi\u001b[48;5;185mmp\u001b[48;5;77mle\u001b[48;5;80mB\u001b[48;5;68myte\u001b[48;5;134mP\u001b[48;5;167ma\u001b[48;5;179mir\u001b[48;5;185mE\u001b[48;5;77mn\u001b[48;5;80mcoding\u001b[48;5;68m:\u001b[48;5;134m\n", + " \u001b[48;5;167m \u001b[48;5;179mde\u001b[48;5;185mf\u001b[48;5;77m \u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134min\u001b[48;5;167mi\u001b[48;5;179mt\u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' word' + b's'\n", + "So we made b' words' our 355th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m \u001b[48;5;68mis\u001b[48;5;134m a\u001b[48;5;167mn\u001b[48;5;179m \u001b[48;5;185me\u001b[48;5;77md\u001b[48;5;80mu\u001b[48;5;68mc\u001b[48;5;134mat\u001b[48;5;167mi\u001b[48;5;179mon\u001b[48;5;185mal\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167men\u001b[48;5;179mt\u001b[48;5;185mat\u001b[48;5;77mi\u001b[48;5;80mon\u001b[48;5;68m o\u001b[48;5;134mf\u001b[48;5;167m the\u001b[48;5;179m b\u001b[48;5;185myte\u001b[48;5;77m pair\u001b[48;5;80m en\u001b[48;5;68mcoding\u001b[48;5;134m \u001b[48;5;167mal\u001b[48;5;179mg\u001b[48;5;185mor\u001b[48;5;77mi\u001b[48;5;80mt\u001b[48;5;68mh\u001b[48;5;134mm\u001b[48;5;167m.\u001b[48;5;179m\"\"\"\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mr\u001b[48;5;68mo\u001b[48;5;134mm\u001b[48;5;167m \u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77mf\u001b[48;5;80mu\u001b[48;5;68mt\u001b[48;5;134mu\u001b[48;5;167mre\u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m a\u001b[48;5;179mn\u001b[48;5;185mn\u001b[48;5;77mo\u001b[48;5;80mt\u001b[48;5;68mat\u001b[48;5;134mi\u001b[48;5;167mon\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mmp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mco\u001b[48;5;77ml\u001b[48;5;80mle\u001b[48;5;68mc\u001b[48;5;134mt\u001b[48;5;167mi\u001b[48;5;179mon\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mmp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m i\u001b[48;5;185mte\u001b[48;5;77mrt\u001b[48;5;80mo\u001b[48;5;68mo\u001b[48;5;134ml\u001b[48;5;167ms\u001b[48;5;179m\n", + "\u001b[48;5;185mf\u001b[48;5;77mr\u001b[48;5;80mo\u001b[48;5;68mm\u001b[48;5;134m t\u001b[48;5;167my\u001b[48;5;179mp\u001b[48;5;185ming\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m \u001b[48;5;179mO\u001b[48;5;185mp\u001b[48;5;77mt\u001b[48;5;80mi\u001b[48;5;68mon\u001b[48;5;134mal\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mi\u001b[48;5;77mmp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m re\u001b[48;5;167mge\u001b[48;5;179mx\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mmp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m t\u001b[48;5;185mi\u001b[48;5;77mk\u001b[48;5;80mtoken\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mc\u001b[48;5;185ml\u001b[48;5;77ma\u001b[48;5;80ms\u001b[48;5;68ms\u001b[48;5;134m \u001b[48;5;167mS\u001b[48;5;179mi\u001b[48;5;185mmp\u001b[48;5;77mle\u001b[48;5;80mB\u001b[48;5;68myte\u001b[48;5;134mP\u001b[48;5;167ma\u001b[48;5;179mir\u001b[48;5;185mE\u001b[48;5;77mn\u001b[48;5;80mcoding\u001b[48;5;68m:\u001b[48;5;134m\n", + " \u001b[48;5;167m \u001b[48;5;179mde\u001b[48;5;185mf\u001b[48;5;77m \u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134min\u001b[48;5;167mi\u001b[48;5;179mt\u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' ' + b'+'\n", + "So we made b' +' our 356th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m \u001b[48;5;68mis\u001b[48;5;134m a\u001b[48;5;167mn\u001b[48;5;179m \u001b[48;5;185me\u001b[48;5;77md\u001b[48;5;80mu\u001b[48;5;68mc\u001b[48;5;134mat\u001b[48;5;167mi\u001b[48;5;179mon\u001b[48;5;185mal\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167men\u001b[48;5;179mt\u001b[48;5;185mat\u001b[48;5;77mi\u001b[48;5;80mon\u001b[48;5;68m o\u001b[48;5;134mf\u001b[48;5;167m the\u001b[48;5;179m b\u001b[48;5;185myte\u001b[48;5;77m pair\u001b[48;5;80m en\u001b[48;5;68mcoding\u001b[48;5;134m \u001b[48;5;167mal\u001b[48;5;179mg\u001b[48;5;185mor\u001b[48;5;77mi\u001b[48;5;80mt\u001b[48;5;68mh\u001b[48;5;134mm\u001b[48;5;167m.\u001b[48;5;179m\"\"\"\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mr\u001b[48;5;68mo\u001b[48;5;134mm\u001b[48;5;167m \u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77mf\u001b[48;5;80mu\u001b[48;5;68mt\u001b[48;5;134mu\u001b[48;5;167mre\u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m a\u001b[48;5;179mn\u001b[48;5;185mn\u001b[48;5;77mo\u001b[48;5;80mt\u001b[48;5;68mat\u001b[48;5;134mi\u001b[48;5;167mon\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mmp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mco\u001b[48;5;77ml\u001b[48;5;80mle\u001b[48;5;68mc\u001b[48;5;134mt\u001b[48;5;167mi\u001b[48;5;179mon\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mmp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m i\u001b[48;5;185mte\u001b[48;5;77mrt\u001b[48;5;80mo\u001b[48;5;68mo\u001b[48;5;134ml\u001b[48;5;167ms\u001b[48;5;179m\n", + "\u001b[48;5;185mf\u001b[48;5;77mr\u001b[48;5;80mo\u001b[48;5;68mm\u001b[48;5;134m t\u001b[48;5;167my\u001b[48;5;179mp\u001b[48;5;185ming\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m \u001b[48;5;179mO\u001b[48;5;185mp\u001b[48;5;77mt\u001b[48;5;80mi\u001b[48;5;68mon\u001b[48;5;134mal\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mi\u001b[48;5;77mmp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m re\u001b[48;5;167mge\u001b[48;5;179mx\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mmp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m t\u001b[48;5;185mi\u001b[48;5;77mk\u001b[48;5;80mtoken\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mc\u001b[48;5;185ml\u001b[48;5;77ma\u001b[48;5;80ms\u001b[48;5;68ms\u001b[48;5;134m \u001b[48;5;167mS\u001b[48;5;179mi\u001b[48;5;185mmp\u001b[48;5;77mle\u001b[48;5;80mB\u001b[48;5;68myte\u001b[48;5;134mP\u001b[48;5;167ma\u001b[48;5;179mir\u001b[48;5;185mE\u001b[48;5;77mn\u001b[48;5;80mcoding\u001b[48;5;68m:\u001b[48;5;134m\n", + " \u001b[48;5;167m \u001b[48;5;179mde\u001b[48;5;185mf\u001b[48;5;77m \u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134min\u001b[48;5;167mi\u001b[48;5;179mt\u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' ' + b'str'\n", + "So we made b' str' our 357th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m \u001b[48;5;68mis\u001b[48;5;134m a\u001b[48;5;167mn\u001b[48;5;179m \u001b[48;5;185me\u001b[48;5;77md\u001b[48;5;80mu\u001b[48;5;68mc\u001b[48;5;134mat\u001b[48;5;167mi\u001b[48;5;179mon\u001b[48;5;185mal\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167men\u001b[48;5;179mt\u001b[48;5;185mat\u001b[48;5;77mi\u001b[48;5;80mon\u001b[48;5;68m o\u001b[48;5;134mf\u001b[48;5;167m the\u001b[48;5;179m b\u001b[48;5;185myte\u001b[48;5;77m pair\u001b[48;5;80m en\u001b[48;5;68mcoding\u001b[48;5;134m \u001b[48;5;167mal\u001b[48;5;179mg\u001b[48;5;185mor\u001b[48;5;77mi\u001b[48;5;80mt\u001b[48;5;68mh\u001b[48;5;134mm\u001b[48;5;167m.\u001b[48;5;179m\"\"\"\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mr\u001b[48;5;68mo\u001b[48;5;134mm\u001b[48;5;167m \u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77mf\u001b[48;5;80mu\u001b[48;5;68mt\u001b[48;5;134mu\u001b[48;5;167mre\u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m a\u001b[48;5;179mn\u001b[48;5;185mn\u001b[48;5;77mo\u001b[48;5;80mt\u001b[48;5;68mat\u001b[48;5;134mi\u001b[48;5;167mon\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mmp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mco\u001b[48;5;77ml\u001b[48;5;80mle\u001b[48;5;68mc\u001b[48;5;134mt\u001b[48;5;167mi\u001b[48;5;179mon\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mmp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m i\u001b[48;5;185mte\u001b[48;5;77mrt\u001b[48;5;80mo\u001b[48;5;68mo\u001b[48;5;134ml\u001b[48;5;167ms\u001b[48;5;179m\n", + "\u001b[48;5;185mf\u001b[48;5;77mr\u001b[48;5;80mo\u001b[48;5;68mm\u001b[48;5;134m t\u001b[48;5;167my\u001b[48;5;179mp\u001b[48;5;185ming\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m \u001b[48;5;179mO\u001b[48;5;185mp\u001b[48;5;77mt\u001b[48;5;80mi\u001b[48;5;68mon\u001b[48;5;134mal\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mi\u001b[48;5;77mmp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m re\u001b[48;5;167mge\u001b[48;5;179mx\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mmp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m t\u001b[48;5;185mi\u001b[48;5;77mk\u001b[48;5;80mtoken\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mc\u001b[48;5;185ml\u001b[48;5;77ma\u001b[48;5;80ms\u001b[48;5;68ms\u001b[48;5;134m \u001b[48;5;167mS\u001b[48;5;179mi\u001b[48;5;185mmp\u001b[48;5;77mle\u001b[48;5;80mB\u001b[48;5;68myte\u001b[48;5;134mP\u001b[48;5;167ma\u001b[48;5;179mir\u001b[48;5;185mE\u001b[48;5;77mn\u001b[48;5;80mcoding\u001b[48;5;68m:\u001b[48;5;134m\n", + " \u001b[48;5;167m \u001b[48;5;179mde\u001b[48;5;185mf\u001b[48;5;77m \u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134min\u001b[48;5;167mi\u001b[48;5;179mt\u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' ' + b'\"'\n", + "So we made b' \"' our 358th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m \u001b[48;5;68mis\u001b[48;5;134m a\u001b[48;5;167mn\u001b[48;5;179m \u001b[48;5;185me\u001b[48;5;77md\u001b[48;5;80mu\u001b[48;5;68mc\u001b[48;5;134mat\u001b[48;5;167mi\u001b[48;5;179mon\u001b[48;5;185mal\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167men\u001b[48;5;179mt\u001b[48;5;185mat\u001b[48;5;77mi\u001b[48;5;80mon\u001b[48;5;68m o\u001b[48;5;134mf\u001b[48;5;167m the\u001b[48;5;179m b\u001b[48;5;185myte\u001b[48;5;77m pair\u001b[48;5;80m en\u001b[48;5;68mcoding\u001b[48;5;134m \u001b[48;5;167mal\u001b[48;5;179mg\u001b[48;5;185mor\u001b[48;5;77mi\u001b[48;5;80mt\u001b[48;5;68mh\u001b[48;5;134mm\u001b[48;5;167m.\u001b[48;5;179m\"\"\"\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mr\u001b[48;5;68mo\u001b[48;5;134mm\u001b[48;5;167m \u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77mf\u001b[48;5;80mu\u001b[48;5;68mt\u001b[48;5;134mu\u001b[48;5;167mre\u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m a\u001b[48;5;179mn\u001b[48;5;185mn\u001b[48;5;77mo\u001b[48;5;80mt\u001b[48;5;68mat\u001b[48;5;134mi\u001b[48;5;167mon\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mmp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mco\u001b[48;5;77ml\u001b[48;5;80mle\u001b[48;5;68mc\u001b[48;5;134mt\u001b[48;5;167mi\u001b[48;5;179mon\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mmp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m i\u001b[48;5;185mte\u001b[48;5;77mrt\u001b[48;5;80mo\u001b[48;5;68mo\u001b[48;5;134ml\u001b[48;5;167ms\u001b[48;5;179m\n", + "\u001b[48;5;185mf\u001b[48;5;77mr\u001b[48;5;80mo\u001b[48;5;68mm\u001b[48;5;134m t\u001b[48;5;167my\u001b[48;5;179mp\u001b[48;5;185ming\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m \u001b[48;5;179mO\u001b[48;5;185mp\u001b[48;5;77mt\u001b[48;5;80mi\u001b[48;5;68mon\u001b[48;5;134mal\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mi\u001b[48;5;77mmp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m re\u001b[48;5;167mge\u001b[48;5;179mx\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mmp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m t\u001b[48;5;185mi\u001b[48;5;77mk\u001b[48;5;80mtoken\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mc\u001b[48;5;185ml\u001b[48;5;77ma\u001b[48;5;80ms\u001b[48;5;68ms\u001b[48;5;134m \u001b[48;5;167mS\u001b[48;5;179mi\u001b[48;5;185mmp\u001b[48;5;77mle\u001b[48;5;80mB\u001b[48;5;68myte\u001b[48;5;134mP\u001b[48;5;167ma\u001b[48;5;179mir\u001b[48;5;185mE\u001b[48;5;77mn\u001b[48;5;80mcoding\u001b[48;5;68m:\u001b[48;5;134m\n", + " \u001b[48;5;167m \u001b[48;5;179mde\u001b[48;5;185mf\u001b[48;5;77m \u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134min\u001b[48;5;167mi\u001b[48;5;179mt\u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'l' + b'd'\n", + "So we made b'ld' our 359th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m \u001b[48;5;68mis\u001b[48;5;134m a\u001b[48;5;167mn\u001b[48;5;179m \u001b[48;5;185me\u001b[48;5;77md\u001b[48;5;80mu\u001b[48;5;68mc\u001b[48;5;134mat\u001b[48;5;167mi\u001b[48;5;179mon\u001b[48;5;185mal\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167men\u001b[48;5;179mt\u001b[48;5;185mat\u001b[48;5;77mi\u001b[48;5;80mon\u001b[48;5;68m o\u001b[48;5;134mf\u001b[48;5;167m the\u001b[48;5;179m b\u001b[48;5;185myte\u001b[48;5;77m pair\u001b[48;5;80m en\u001b[48;5;68mcoding\u001b[48;5;134m \u001b[48;5;167mal\u001b[48;5;179mg\u001b[48;5;185mor\u001b[48;5;77mi\u001b[48;5;80mt\u001b[48;5;68mh\u001b[48;5;134mm\u001b[48;5;167m.\u001b[48;5;179m\"\"\"\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mr\u001b[48;5;68mo\u001b[48;5;134mm\u001b[48;5;167m \u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77mf\u001b[48;5;80mu\u001b[48;5;68mt\u001b[48;5;134mu\u001b[48;5;167mre\u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m a\u001b[48;5;179mn\u001b[48;5;185mn\u001b[48;5;77mo\u001b[48;5;80mt\u001b[48;5;68mat\u001b[48;5;134mi\u001b[48;5;167mon\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mmp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mco\u001b[48;5;77ml\u001b[48;5;80mle\u001b[48;5;68mc\u001b[48;5;134mt\u001b[48;5;167mi\u001b[48;5;179mon\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mmp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m i\u001b[48;5;185mte\u001b[48;5;77mrt\u001b[48;5;80mo\u001b[48;5;68mo\u001b[48;5;134ml\u001b[48;5;167ms\u001b[48;5;179m\n", + "\u001b[48;5;185mf\u001b[48;5;77mr\u001b[48;5;80mo\u001b[48;5;68mm\u001b[48;5;134m t\u001b[48;5;167my\u001b[48;5;179mp\u001b[48;5;185ming\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m \u001b[48;5;179mO\u001b[48;5;185mp\u001b[48;5;77mt\u001b[48;5;80mi\u001b[48;5;68mon\u001b[48;5;134mal\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mi\u001b[48;5;77mmp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m re\u001b[48;5;167mge\u001b[48;5;179mx\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mmp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m t\u001b[48;5;185mi\u001b[48;5;77mk\u001b[48;5;80mtoken\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mc\u001b[48;5;185ml\u001b[48;5;77ma\u001b[48;5;80ms\u001b[48;5;68ms\u001b[48;5;134m \u001b[48;5;167mS\u001b[48;5;179mi\u001b[48;5;185mmp\u001b[48;5;77mle\u001b[48;5;80mB\u001b[48;5;68myte\u001b[48;5;134mP\u001b[48;5;167ma\u001b[48;5;179mir\u001b[48;5;185mE\u001b[48;5;77mn\u001b[48;5;80mcoding\u001b[48;5;68m:\u001b[48;5;134m\n", + " \u001b[48;5;167m \u001b[48;5;179mde\u001b[48;5;185mf\u001b[48;5;77m \u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134min\u001b[48;5;167mi\u001b[48;5;179mt\u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'token' + b's'\n", + "So we made b'tokens' our 360th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m \u001b[48;5;68mis\u001b[48;5;134m a\u001b[48;5;167mn\u001b[48;5;179m \u001b[48;5;185me\u001b[48;5;77md\u001b[48;5;80mu\u001b[48;5;68mc\u001b[48;5;134mat\u001b[48;5;167mi\u001b[48;5;179mon\u001b[48;5;185mal\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167men\u001b[48;5;179mt\u001b[48;5;185mat\u001b[48;5;77mi\u001b[48;5;80mon\u001b[48;5;68m o\u001b[48;5;134mf\u001b[48;5;167m the\u001b[48;5;179m b\u001b[48;5;185myte\u001b[48;5;77m pair\u001b[48;5;80m en\u001b[48;5;68mcoding\u001b[48;5;134m \u001b[48;5;167mal\u001b[48;5;179mg\u001b[48;5;185mor\u001b[48;5;77mi\u001b[48;5;80mt\u001b[48;5;68mh\u001b[48;5;134mm\u001b[48;5;167m.\u001b[48;5;179m\"\"\"\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mr\u001b[48;5;68mo\u001b[48;5;134mm\u001b[48;5;167m \u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77mf\u001b[48;5;80mu\u001b[48;5;68mt\u001b[48;5;134mu\u001b[48;5;167mre\u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m a\u001b[48;5;179mn\u001b[48;5;185mn\u001b[48;5;77mo\u001b[48;5;80mt\u001b[48;5;68mat\u001b[48;5;134mi\u001b[48;5;167mon\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mmp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mco\u001b[48;5;77ml\u001b[48;5;80mle\u001b[48;5;68mc\u001b[48;5;134mt\u001b[48;5;167mi\u001b[48;5;179mon\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mmp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m i\u001b[48;5;185mte\u001b[48;5;77mrt\u001b[48;5;80mo\u001b[48;5;68mo\u001b[48;5;134ml\u001b[48;5;167ms\u001b[48;5;179m\n", + "\u001b[48;5;185mf\u001b[48;5;77mr\u001b[48;5;80mo\u001b[48;5;68mm\u001b[48;5;134m t\u001b[48;5;167my\u001b[48;5;179mp\u001b[48;5;185ming\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m \u001b[48;5;179mO\u001b[48;5;185mp\u001b[48;5;77mt\u001b[48;5;80mi\u001b[48;5;68mon\u001b[48;5;134mal\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mi\u001b[48;5;77mmp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m re\u001b[48;5;167mge\u001b[48;5;179mx\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mmp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m t\u001b[48;5;185mi\u001b[48;5;77mk\u001b[48;5;80mtoken\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mc\u001b[48;5;185ml\u001b[48;5;77ma\u001b[48;5;80ms\u001b[48;5;68ms\u001b[48;5;134m \u001b[48;5;167mS\u001b[48;5;179mi\u001b[48;5;185mmp\u001b[48;5;77mle\u001b[48;5;80mB\u001b[48;5;68myte\u001b[48;5;134mP\u001b[48;5;167ma\u001b[48;5;179mir\u001b[48;5;185mE\u001b[48;5;77mn\u001b[48;5;80mcoding\u001b[48;5;68m:\u001b[48;5;134m\n", + " \u001b[48;5;167m \u001b[48;5;179mde\u001b[48;5;185mf\u001b[48;5;77m \u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134min\u001b[48;5;167mi\u001b[48;5;179mt\u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'\\n ' + b' '\n", + "So we made b'\\n ' our 361th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m \u001b[48;5;68mis\u001b[48;5;134m a\u001b[48;5;167mn\u001b[48;5;179m \u001b[48;5;185me\u001b[48;5;77md\u001b[48;5;80mu\u001b[48;5;68mc\u001b[48;5;134mat\u001b[48;5;167mi\u001b[48;5;179mon\u001b[48;5;185mal\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167men\u001b[48;5;179mt\u001b[48;5;185mat\u001b[48;5;77mi\u001b[48;5;80mon\u001b[48;5;68m o\u001b[48;5;134mf\u001b[48;5;167m the\u001b[48;5;179m b\u001b[48;5;185myte\u001b[48;5;77m pair\u001b[48;5;80m en\u001b[48;5;68mcoding\u001b[48;5;134m \u001b[48;5;167mal\u001b[48;5;179mg\u001b[48;5;185mor\u001b[48;5;77mi\u001b[48;5;80mt\u001b[48;5;68mh\u001b[48;5;134mm\u001b[48;5;167m.\u001b[48;5;179m\"\"\"\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mr\u001b[48;5;68mo\u001b[48;5;134mm\u001b[48;5;167m \u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77mf\u001b[48;5;80mu\u001b[48;5;68mt\u001b[48;5;134mu\u001b[48;5;167mre\u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m a\u001b[48;5;179mn\u001b[48;5;185mn\u001b[48;5;77mo\u001b[48;5;80mt\u001b[48;5;68mat\u001b[48;5;134mi\u001b[48;5;167mon\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mmp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mco\u001b[48;5;77ml\u001b[48;5;80mle\u001b[48;5;68mc\u001b[48;5;134mt\u001b[48;5;167mi\u001b[48;5;179mon\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mmp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m i\u001b[48;5;185mte\u001b[48;5;77mrt\u001b[48;5;80mo\u001b[48;5;68mo\u001b[48;5;134ml\u001b[48;5;167ms\u001b[48;5;179m\n", + "\u001b[48;5;185mf\u001b[48;5;77mr\u001b[48;5;80mo\u001b[48;5;68mm\u001b[48;5;134m t\u001b[48;5;167my\u001b[48;5;179mp\u001b[48;5;185ming\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m \u001b[48;5;179mO\u001b[48;5;185mp\u001b[48;5;77mt\u001b[48;5;80mi\u001b[48;5;68mon\u001b[48;5;134mal\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mi\u001b[48;5;77mmp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m re\u001b[48;5;167mge\u001b[48;5;179mx\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mmp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m t\u001b[48;5;185mi\u001b[48;5;77mk\u001b[48;5;80mtoken\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mc\u001b[48;5;185ml\u001b[48;5;77ma\u001b[48;5;80ms\u001b[48;5;68ms\u001b[48;5;134m \u001b[48;5;167mS\u001b[48;5;179mi\u001b[48;5;185mmp\u001b[48;5;77mle\u001b[48;5;80mB\u001b[48;5;68myte\u001b[48;5;134mP\u001b[48;5;167ma\u001b[48;5;179mir\u001b[48;5;185mE\u001b[48;5;77mn\u001b[48;5;80mcoding\u001b[48;5;68m:\u001b[48;5;134m\n", + " \u001b[48;5;167m \u001b[48;5;179mde\u001b[48;5;185mf\u001b[48;5;77m \u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134min\u001b[48;5;167mi\u001b[48;5;179mt\u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' ' + b'is'\n", + "So we made b' is' our 362th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m a\u001b[48;5;134mn\u001b[48;5;167m \u001b[48;5;179me\u001b[48;5;185md\u001b[48;5;77mu\u001b[48;5;80mc\u001b[48;5;68mat\u001b[48;5;134mi\u001b[48;5;167mon\u001b[48;5;179mal\u001b[48;5;185m i\u001b[48;5;77mmp\u001b[48;5;80mle\u001b[48;5;68mm\u001b[48;5;134men\u001b[48;5;167mt\u001b[48;5;179mat\u001b[48;5;185mi\u001b[48;5;77mon\u001b[48;5;80m o\u001b[48;5;68mf\u001b[48;5;134m the\u001b[48;5;167m b\u001b[48;5;179myte\u001b[48;5;185m pair\u001b[48;5;77m en\u001b[48;5;80mcoding\u001b[48;5;68m \u001b[48;5;134mal\u001b[48;5;167mg\u001b[48;5;179mor\u001b[48;5;185mi\u001b[48;5;77mt\u001b[48;5;80mh\u001b[48;5;68mm\u001b[48;5;134m.\u001b[48;5;167m\"\"\"\u001b[48;5;179m\n", + "\u001b[48;5;185mf\u001b[48;5;77mr\u001b[48;5;80mo\u001b[48;5;68mm\u001b[48;5;134m \u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185mf\u001b[48;5;77mu\u001b[48;5;80mt\u001b[48;5;68mu\u001b[48;5;134mre\u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185m i\u001b[48;5;77mmp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m a\u001b[48;5;167mn\u001b[48;5;179mn\u001b[48;5;185mo\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mi\u001b[48;5;134mon\u001b[48;5;167ms\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mi\u001b[48;5;80mmp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m \u001b[48;5;179mco\u001b[48;5;185ml\u001b[48;5;77mle\u001b[48;5;80mc\u001b[48;5;68mt\u001b[48;5;134mi\u001b[48;5;167mon\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mi\u001b[48;5;80mmp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mr\u001b[48;5;77mo\u001b[48;5;80mm\u001b[48;5;68m t\u001b[48;5;134my\u001b[48;5;167mp\u001b[48;5;179ming\u001b[48;5;185m i\u001b[48;5;77mmp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mO\u001b[48;5;179mp\u001b[48;5;185mt\u001b[48;5;77mi\u001b[48;5;80mon\u001b[48;5;68mal\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mi\u001b[48;5;185mmp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m re\u001b[48;5;134mge\u001b[48;5;167mx\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mi\u001b[48;5;80mmp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m t\u001b[48;5;179mi\u001b[48;5;185mk\u001b[48;5;77mtoken\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mc\u001b[48;5;179ml\u001b[48;5;185ma\u001b[48;5;77ms\u001b[48;5;80ms\u001b[48;5;68m \u001b[48;5;134mS\u001b[48;5;167mi\u001b[48;5;179mmp\u001b[48;5;185mle\u001b[48;5;77mB\u001b[48;5;80myte\u001b[48;5;68mP\u001b[48;5;134ma\u001b[48;5;167mir\u001b[48;5;179mE\u001b[48;5;185mn\u001b[48;5;77mcoding\u001b[48;5;80m:\u001b[48;5;68m\n", + " \u001b[48;5;134m \u001b[48;5;167mde\u001b[48;5;179mf\u001b[48;5;185m \u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68min\u001b[48;5;134mi\u001b[48;5;167mt\u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'i' + b'on'\n", + "So we made b'ion' our 363th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m a\u001b[48;5;134mn\u001b[48;5;167m \u001b[48;5;179me\u001b[48;5;185md\u001b[48;5;77mu\u001b[48;5;80mc\u001b[48;5;68mat\u001b[48;5;134mion\u001b[48;5;167mal\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mle\u001b[48;5;80mm\u001b[48;5;68men\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185m o\u001b[48;5;77mf\u001b[48;5;80m the\u001b[48;5;68m b\u001b[48;5;134myte\u001b[48;5;167m pair\u001b[48;5;179m en\u001b[48;5;185mcoding\u001b[48;5;77m \u001b[48;5;80mal\u001b[48;5;68mg\u001b[48;5;134mor\u001b[48;5;167mi\u001b[48;5;179mt\u001b[48;5;185mh\u001b[48;5;77mm\u001b[48;5;80m.\u001b[48;5;68m\"\"\"\u001b[48;5;134m\n", + "\u001b[48;5;167mf\u001b[48;5;179mr\u001b[48;5;185mo\u001b[48;5;77mm\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167mf\u001b[48;5;179mu\u001b[48;5;185mt\u001b[48;5;77mu\u001b[48;5;80mre\u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m a\u001b[48;5;68mn\u001b[48;5;134mn\u001b[48;5;167mo\u001b[48;5;179mt\u001b[48;5;185mat\u001b[48;5;77mion\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mi\u001b[48;5;179mmp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m \u001b[48;5;68mco\u001b[48;5;134ml\u001b[48;5;167mle\u001b[48;5;179mc\u001b[48;5;185mt\u001b[48;5;77mion\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mi\u001b[48;5;167mmp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m i\u001b[48;5;80mte\u001b[48;5;68mrt\u001b[48;5;134mo\u001b[48;5;167mo\u001b[48;5;179ml\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mf\u001b[48;5;68mr\u001b[48;5;134mo\u001b[48;5;167mm\u001b[48;5;179m t\u001b[48;5;185my\u001b[48;5;77mp\u001b[48;5;80ming\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mO\u001b[48;5;80mp\u001b[48;5;68mt\u001b[48;5;134mion\u001b[48;5;167mal\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mi\u001b[48;5;80mmp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m re\u001b[48;5;179mge\u001b[48;5;185mx\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mi\u001b[48;5;134mmp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m t\u001b[48;5;77mi\u001b[48;5;80mk\u001b[48;5;68mtoken\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mc\u001b[48;5;77ml\u001b[48;5;80ma\u001b[48;5;68ms\u001b[48;5;134ms\u001b[48;5;167m \u001b[48;5;179mS\u001b[48;5;185mi\u001b[48;5;77mmp\u001b[48;5;80mle\u001b[48;5;68mB\u001b[48;5;134myte\u001b[48;5;167mP\u001b[48;5;179ma\u001b[48;5;185mir\u001b[48;5;77mE\u001b[48;5;80mn\u001b[48;5;68mcoding\u001b[48;5;134m:\u001b[48;5;167m\n", + " \u001b[48;5;179m \u001b[48;5;185mde\u001b[48;5;77mf\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167min\u001b[48;5;179mi\u001b[48;5;185mt\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'u' + b't'\n", + "So we made b'ut' our 364th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m a\u001b[48;5;134mn\u001b[48;5;167m \u001b[48;5;179me\u001b[48;5;185md\u001b[48;5;77mu\u001b[48;5;80mc\u001b[48;5;68mat\u001b[48;5;134mion\u001b[48;5;167mal\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mle\u001b[48;5;80mm\u001b[48;5;68men\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185m o\u001b[48;5;77mf\u001b[48;5;80m the\u001b[48;5;68m b\u001b[48;5;134myte\u001b[48;5;167m pair\u001b[48;5;179m en\u001b[48;5;185mcoding\u001b[48;5;77m \u001b[48;5;80mal\u001b[48;5;68mg\u001b[48;5;134mor\u001b[48;5;167mi\u001b[48;5;179mt\u001b[48;5;185mh\u001b[48;5;77mm\u001b[48;5;80m.\u001b[48;5;68m\"\"\"\u001b[48;5;134m\n", + "\u001b[48;5;167mf\u001b[48;5;179mr\u001b[48;5;185mo\u001b[48;5;77mm\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167mf\u001b[48;5;179mut\u001b[48;5;185mu\u001b[48;5;77mre\u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m a\u001b[48;5;80mn\u001b[48;5;68mn\u001b[48;5;134mo\u001b[48;5;167mt\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mi\u001b[48;5;167mmp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m \u001b[48;5;80mco\u001b[48;5;68ml\u001b[48;5;134mle\u001b[48;5;167mc\u001b[48;5;179mt\u001b[48;5;185mion\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68mi\u001b[48;5;134mmp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m i\u001b[48;5;77mte\u001b[48;5;80mrt\u001b[48;5;68mo\u001b[48;5;134mo\u001b[48;5;167ml\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mr\u001b[48;5;68mo\u001b[48;5;134mm\u001b[48;5;167m t\u001b[48;5;179my\u001b[48;5;185mp\u001b[48;5;77ming\u001b[48;5;80m i\u001b[48;5;68mmp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mO\u001b[48;5;77mp\u001b[48;5;80mt\u001b[48;5;68mion\u001b[48;5;134mal\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mi\u001b[48;5;77mmp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m re\u001b[48;5;167mge\u001b[48;5;179mx\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mi\u001b[48;5;68mmp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m t\u001b[48;5;185mi\u001b[48;5;77mk\u001b[48;5;80mtoken\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mc\u001b[48;5;185ml\u001b[48;5;77ma\u001b[48;5;80ms\u001b[48;5;68ms\u001b[48;5;134m \u001b[48;5;167mS\u001b[48;5;179mi\u001b[48;5;185mmp\u001b[48;5;77mle\u001b[48;5;80mB\u001b[48;5;68myte\u001b[48;5;134mP\u001b[48;5;167ma\u001b[48;5;179mir\u001b[48;5;185mE\u001b[48;5;77mn\u001b[48;5;80mcoding\u001b[48;5;68m:\u001b[48;5;134m\n", + " \u001b[48;5;167m \u001b[48;5;179mde\u001b[48;5;185mf\u001b[48;5;77m \u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134min\u001b[48;5;167mi\u001b[48;5;179mt\u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'i' + b'mp'\n", + "So we made b'imp' our 365th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m a\u001b[48;5;134mn\u001b[48;5;167m \u001b[48;5;179me\u001b[48;5;185md\u001b[48;5;77mu\u001b[48;5;80mc\u001b[48;5;68mat\u001b[48;5;134mion\u001b[48;5;167mal\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mle\u001b[48;5;80mm\u001b[48;5;68men\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185m o\u001b[48;5;77mf\u001b[48;5;80m the\u001b[48;5;68m b\u001b[48;5;134myte\u001b[48;5;167m pair\u001b[48;5;179m en\u001b[48;5;185mcoding\u001b[48;5;77m \u001b[48;5;80mal\u001b[48;5;68mg\u001b[48;5;134mor\u001b[48;5;167mi\u001b[48;5;179mt\u001b[48;5;185mh\u001b[48;5;77mm\u001b[48;5;80m.\u001b[48;5;68m\"\"\"\u001b[48;5;134m\n", + "\u001b[48;5;167mf\u001b[48;5;179mr\u001b[48;5;185mo\u001b[48;5;77mm\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167mf\u001b[48;5;179mut\u001b[48;5;185mu\u001b[48;5;77mre\u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m a\u001b[48;5;80mn\u001b[48;5;68mn\u001b[48;5;134mo\u001b[48;5;167mt\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mco\u001b[48;5;80ml\u001b[48;5;68mle\u001b[48;5;134mc\u001b[48;5;167mt\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mimp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mr\u001b[48;5;77mo\u001b[48;5;80mm\u001b[48;5;68m t\u001b[48;5;134my\u001b[48;5;167mp\u001b[48;5;179ming\u001b[48;5;185m i\u001b[48;5;77mmp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mO\u001b[48;5;179mp\u001b[48;5;185mt\u001b[48;5;77mion\u001b[48;5;80mal\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m re\u001b[48;5;80mge\u001b[48;5;68mx\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mimp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mc\u001b[48;5;68ml\u001b[48;5;134ma\u001b[48;5;167ms\u001b[48;5;179ms\u001b[48;5;185m \u001b[48;5;77mS\u001b[48;5;80mimp\u001b[48;5;68mle\u001b[48;5;134mB\u001b[48;5;167myte\u001b[48;5;179mP\u001b[48;5;185ma\u001b[48;5;77mir\u001b[48;5;80mE\u001b[48;5;68mn\u001b[48;5;134mcoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m \u001b[48;5;77mde\u001b[48;5;80mf\u001b[48;5;68m \u001b[48;5;134m_\u001b[48;5;167m_\u001b[48;5;179min\u001b[48;5;185mi\u001b[48;5;77mt\u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'de' + b'f'\n", + "So we made b'def' our 366th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m a\u001b[48;5;134mn\u001b[48;5;167m \u001b[48;5;179me\u001b[48;5;185md\u001b[48;5;77mu\u001b[48;5;80mc\u001b[48;5;68mat\u001b[48;5;134mion\u001b[48;5;167mal\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mle\u001b[48;5;80mm\u001b[48;5;68men\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185m o\u001b[48;5;77mf\u001b[48;5;80m the\u001b[48;5;68m b\u001b[48;5;134myte\u001b[48;5;167m pair\u001b[48;5;179m en\u001b[48;5;185mcoding\u001b[48;5;77m \u001b[48;5;80mal\u001b[48;5;68mg\u001b[48;5;134mor\u001b[48;5;167mi\u001b[48;5;179mt\u001b[48;5;185mh\u001b[48;5;77mm\u001b[48;5;80m.\u001b[48;5;68m\"\"\"\u001b[48;5;134m\n", + "\u001b[48;5;167mf\u001b[48;5;179mr\u001b[48;5;185mo\u001b[48;5;77mm\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167mf\u001b[48;5;179mut\u001b[48;5;185mu\u001b[48;5;77mre\u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m a\u001b[48;5;80mn\u001b[48;5;68mn\u001b[48;5;134mo\u001b[48;5;167mt\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mco\u001b[48;5;80ml\u001b[48;5;68mle\u001b[48;5;134mc\u001b[48;5;167mt\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mimp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mr\u001b[48;5;77mo\u001b[48;5;80mm\u001b[48;5;68m t\u001b[48;5;134my\u001b[48;5;167mp\u001b[48;5;179ming\u001b[48;5;185m i\u001b[48;5;77mmp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mO\u001b[48;5;179mp\u001b[48;5;185mt\u001b[48;5;77mion\u001b[48;5;80mal\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m re\u001b[48;5;80mge\u001b[48;5;68mx\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mimp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mc\u001b[48;5;68ml\u001b[48;5;134ma\u001b[48;5;167ms\u001b[48;5;179ms\u001b[48;5;185m \u001b[48;5;77mS\u001b[48;5;80mimp\u001b[48;5;68mle\u001b[48;5;134mB\u001b[48;5;167myte\u001b[48;5;179mP\u001b[48;5;185ma\u001b[48;5;77mir\u001b[48;5;80mE\u001b[48;5;68mn\u001b[48;5;134mcoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m \u001b[48;5;77mdef\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167min\u001b[48;5;179mi\u001b[48;5;185mt\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'pa' + b't'\n", + "So we made b'pat' our 367th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m a\u001b[48;5;134mn\u001b[48;5;167m \u001b[48;5;179me\u001b[48;5;185md\u001b[48;5;77mu\u001b[48;5;80mc\u001b[48;5;68mat\u001b[48;5;134mion\u001b[48;5;167mal\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mle\u001b[48;5;80mm\u001b[48;5;68men\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185m o\u001b[48;5;77mf\u001b[48;5;80m the\u001b[48;5;68m b\u001b[48;5;134myte\u001b[48;5;167m pair\u001b[48;5;179m en\u001b[48;5;185mcoding\u001b[48;5;77m \u001b[48;5;80mal\u001b[48;5;68mg\u001b[48;5;134mor\u001b[48;5;167mi\u001b[48;5;179mt\u001b[48;5;185mh\u001b[48;5;77mm\u001b[48;5;80m.\u001b[48;5;68m\"\"\"\u001b[48;5;134m\n", + "\u001b[48;5;167mf\u001b[48;5;179mr\u001b[48;5;185mo\u001b[48;5;77mm\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167mf\u001b[48;5;179mut\u001b[48;5;185mu\u001b[48;5;77mre\u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m a\u001b[48;5;80mn\u001b[48;5;68mn\u001b[48;5;134mo\u001b[48;5;167mt\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mco\u001b[48;5;80ml\u001b[48;5;68mle\u001b[48;5;134mc\u001b[48;5;167mt\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mimp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mr\u001b[48;5;77mo\u001b[48;5;80mm\u001b[48;5;68m t\u001b[48;5;134my\u001b[48;5;167mp\u001b[48;5;179ming\u001b[48;5;185m i\u001b[48;5;77mmp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mO\u001b[48;5;179mp\u001b[48;5;185mt\u001b[48;5;77mion\u001b[48;5;80mal\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m re\u001b[48;5;80mge\u001b[48;5;68mx\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mimp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mc\u001b[48;5;68ml\u001b[48;5;134ma\u001b[48;5;167ms\u001b[48;5;179ms\u001b[48;5;185m \u001b[48;5;77mS\u001b[48;5;80mimp\u001b[48;5;68mle\u001b[48;5;134mB\u001b[48;5;167myte\u001b[48;5;179mP\u001b[48;5;185ma\u001b[48;5;77mir\u001b[48;5;80mE\u001b[48;5;68mn\u001b[48;5;134mcoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m \u001b[48;5;77mdef\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167min\u001b[48;5;179mi\u001b[48;5;185mt\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' p' + b'r'\n", + "So we made b' pr' our 368th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m a\u001b[48;5;134mn\u001b[48;5;167m \u001b[48;5;179me\u001b[48;5;185md\u001b[48;5;77mu\u001b[48;5;80mc\u001b[48;5;68mat\u001b[48;5;134mion\u001b[48;5;167mal\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mle\u001b[48;5;80mm\u001b[48;5;68men\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185m o\u001b[48;5;77mf\u001b[48;5;80m the\u001b[48;5;68m b\u001b[48;5;134myte\u001b[48;5;167m pair\u001b[48;5;179m en\u001b[48;5;185mcoding\u001b[48;5;77m \u001b[48;5;80mal\u001b[48;5;68mg\u001b[48;5;134mor\u001b[48;5;167mi\u001b[48;5;179mt\u001b[48;5;185mh\u001b[48;5;77mm\u001b[48;5;80m.\u001b[48;5;68m\"\"\"\u001b[48;5;134m\n", + "\u001b[48;5;167mf\u001b[48;5;179mr\u001b[48;5;185mo\u001b[48;5;77mm\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167mf\u001b[48;5;179mut\u001b[48;5;185mu\u001b[48;5;77mre\u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m a\u001b[48;5;80mn\u001b[48;5;68mn\u001b[48;5;134mo\u001b[48;5;167mt\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mco\u001b[48;5;80ml\u001b[48;5;68mle\u001b[48;5;134mc\u001b[48;5;167mt\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mimp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mr\u001b[48;5;77mo\u001b[48;5;80mm\u001b[48;5;68m t\u001b[48;5;134my\u001b[48;5;167mp\u001b[48;5;179ming\u001b[48;5;185m i\u001b[48;5;77mmp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mO\u001b[48;5;179mp\u001b[48;5;185mt\u001b[48;5;77mion\u001b[48;5;80mal\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m re\u001b[48;5;80mge\u001b[48;5;68mx\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mimp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mc\u001b[48;5;68ml\u001b[48;5;134ma\u001b[48;5;167ms\u001b[48;5;179ms\u001b[48;5;185m \u001b[48;5;77mS\u001b[48;5;80mimp\u001b[48;5;68mle\u001b[48;5;134mB\u001b[48;5;167myte\u001b[48;5;179mP\u001b[48;5;185ma\u001b[48;5;77mir\u001b[48;5;80mE\u001b[48;5;68mn\u001b[48;5;134mcoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m \u001b[48;5;77mdef\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167min\u001b[48;5;179mi\u001b[48;5;185mt\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'(' + b'\"'\n", + "So we made b'(\"' our 369th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m a\u001b[48;5;134mn\u001b[48;5;167m \u001b[48;5;179me\u001b[48;5;185md\u001b[48;5;77mu\u001b[48;5;80mc\u001b[48;5;68mat\u001b[48;5;134mion\u001b[48;5;167mal\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mle\u001b[48;5;80mm\u001b[48;5;68men\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185m o\u001b[48;5;77mf\u001b[48;5;80m the\u001b[48;5;68m b\u001b[48;5;134myte\u001b[48;5;167m pair\u001b[48;5;179m en\u001b[48;5;185mcoding\u001b[48;5;77m \u001b[48;5;80mal\u001b[48;5;68mg\u001b[48;5;134mor\u001b[48;5;167mi\u001b[48;5;179mt\u001b[48;5;185mh\u001b[48;5;77mm\u001b[48;5;80m.\u001b[48;5;68m\"\"\"\u001b[48;5;134m\n", + "\u001b[48;5;167mf\u001b[48;5;179mr\u001b[48;5;185mo\u001b[48;5;77mm\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167mf\u001b[48;5;179mut\u001b[48;5;185mu\u001b[48;5;77mre\u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m a\u001b[48;5;80mn\u001b[48;5;68mn\u001b[48;5;134mo\u001b[48;5;167mt\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mco\u001b[48;5;80ml\u001b[48;5;68mle\u001b[48;5;134mc\u001b[48;5;167mt\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mimp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mr\u001b[48;5;77mo\u001b[48;5;80mm\u001b[48;5;68m t\u001b[48;5;134my\u001b[48;5;167mp\u001b[48;5;179ming\u001b[48;5;185m i\u001b[48;5;77mmp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mO\u001b[48;5;179mp\u001b[48;5;185mt\u001b[48;5;77mion\u001b[48;5;80mal\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m re\u001b[48;5;80mge\u001b[48;5;68mx\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mimp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mc\u001b[48;5;68ml\u001b[48;5;134ma\u001b[48;5;167ms\u001b[48;5;179ms\u001b[48;5;185m \u001b[48;5;77mS\u001b[48;5;80mimp\u001b[48;5;68mle\u001b[48;5;134mB\u001b[48;5;167myte\u001b[48;5;179mP\u001b[48;5;185ma\u001b[48;5;77mir\u001b[48;5;80mE\u001b[48;5;68mn\u001b[48;5;134mcoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m \u001b[48;5;77mdef\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167min\u001b[48;5;179mi\u001b[48;5;185mt\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'ra' + b'in'\n", + "So we made b'rain' our 370th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m a\u001b[48;5;134mn\u001b[48;5;167m \u001b[48;5;179me\u001b[48;5;185md\u001b[48;5;77mu\u001b[48;5;80mc\u001b[48;5;68mat\u001b[48;5;134mion\u001b[48;5;167mal\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mle\u001b[48;5;80mm\u001b[48;5;68men\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185m o\u001b[48;5;77mf\u001b[48;5;80m the\u001b[48;5;68m b\u001b[48;5;134myte\u001b[48;5;167m pair\u001b[48;5;179m en\u001b[48;5;185mcoding\u001b[48;5;77m \u001b[48;5;80mal\u001b[48;5;68mg\u001b[48;5;134mor\u001b[48;5;167mi\u001b[48;5;179mt\u001b[48;5;185mh\u001b[48;5;77mm\u001b[48;5;80m.\u001b[48;5;68m\"\"\"\u001b[48;5;134m\n", + "\u001b[48;5;167mf\u001b[48;5;179mr\u001b[48;5;185mo\u001b[48;5;77mm\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167mf\u001b[48;5;179mut\u001b[48;5;185mu\u001b[48;5;77mre\u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m a\u001b[48;5;80mn\u001b[48;5;68mn\u001b[48;5;134mo\u001b[48;5;167mt\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mco\u001b[48;5;80ml\u001b[48;5;68mle\u001b[48;5;134mc\u001b[48;5;167mt\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mimp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mr\u001b[48;5;77mo\u001b[48;5;80mm\u001b[48;5;68m t\u001b[48;5;134my\u001b[48;5;167mp\u001b[48;5;179ming\u001b[48;5;185m i\u001b[48;5;77mmp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mO\u001b[48;5;179mp\u001b[48;5;185mt\u001b[48;5;77mion\u001b[48;5;80mal\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m re\u001b[48;5;80mge\u001b[48;5;68mx\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mimp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mc\u001b[48;5;68ml\u001b[48;5;134ma\u001b[48;5;167ms\u001b[48;5;179ms\u001b[48;5;185m \u001b[48;5;77mS\u001b[48;5;80mimp\u001b[48;5;68mle\u001b[48;5;134mB\u001b[48;5;167myte\u001b[48;5;179mP\u001b[48;5;185ma\u001b[48;5;77mir\u001b[48;5;80mE\u001b[48;5;68mn\u001b[48;5;134mcoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m \u001b[48;5;77mdef\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167min\u001b[48;5;179mi\u001b[48;5;185mt\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' i' + b'f'\n", + "So we made b' if' our 371th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m a\u001b[48;5;134mn\u001b[48;5;167m \u001b[48;5;179me\u001b[48;5;185md\u001b[48;5;77mu\u001b[48;5;80mc\u001b[48;5;68mat\u001b[48;5;134mion\u001b[48;5;167mal\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mle\u001b[48;5;80mm\u001b[48;5;68men\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185m o\u001b[48;5;77mf\u001b[48;5;80m the\u001b[48;5;68m b\u001b[48;5;134myte\u001b[48;5;167m pair\u001b[48;5;179m en\u001b[48;5;185mcoding\u001b[48;5;77m \u001b[48;5;80mal\u001b[48;5;68mg\u001b[48;5;134mor\u001b[48;5;167mi\u001b[48;5;179mt\u001b[48;5;185mh\u001b[48;5;77mm\u001b[48;5;80m.\u001b[48;5;68m\"\"\"\u001b[48;5;134m\n", + "\u001b[48;5;167mf\u001b[48;5;179mr\u001b[48;5;185mo\u001b[48;5;77mm\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167mf\u001b[48;5;179mut\u001b[48;5;185mu\u001b[48;5;77mre\u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m a\u001b[48;5;80mn\u001b[48;5;68mn\u001b[48;5;134mo\u001b[48;5;167mt\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mco\u001b[48;5;80ml\u001b[48;5;68mle\u001b[48;5;134mc\u001b[48;5;167mt\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mimp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mr\u001b[48;5;77mo\u001b[48;5;80mm\u001b[48;5;68m t\u001b[48;5;134my\u001b[48;5;167mp\u001b[48;5;179ming\u001b[48;5;185m i\u001b[48;5;77mmp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mO\u001b[48;5;179mp\u001b[48;5;185mt\u001b[48;5;77mion\u001b[48;5;80mal\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m re\u001b[48;5;80mge\u001b[48;5;68mx\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mimp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mc\u001b[48;5;68ml\u001b[48;5;134ma\u001b[48;5;167ms\u001b[48;5;179ms\u001b[48;5;185m \u001b[48;5;77mS\u001b[48;5;80mimp\u001b[48;5;68mle\u001b[48;5;134mB\u001b[48;5;167myte\u001b[48;5;179mP\u001b[48;5;185ma\u001b[48;5;77mir\u001b[48;5;80mE\u001b[48;5;68mn\u001b[48;5;134mcoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m \u001b[48;5;77mdef\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167min\u001b[48;5;179mi\u001b[48;5;185mt\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'rt' + b's'\n", + "So we made b'rts' our 372th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m a\u001b[48;5;134mn\u001b[48;5;167m \u001b[48;5;179me\u001b[48;5;185md\u001b[48;5;77mu\u001b[48;5;80mc\u001b[48;5;68mat\u001b[48;5;134mion\u001b[48;5;167mal\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mle\u001b[48;5;80mm\u001b[48;5;68men\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185m o\u001b[48;5;77mf\u001b[48;5;80m the\u001b[48;5;68m b\u001b[48;5;134myte\u001b[48;5;167m pair\u001b[48;5;179m en\u001b[48;5;185mcoding\u001b[48;5;77m \u001b[48;5;80mal\u001b[48;5;68mg\u001b[48;5;134mor\u001b[48;5;167mi\u001b[48;5;179mt\u001b[48;5;185mh\u001b[48;5;77mm\u001b[48;5;80m.\u001b[48;5;68m\"\"\"\u001b[48;5;134m\n", + "\u001b[48;5;167mf\u001b[48;5;179mr\u001b[48;5;185mo\u001b[48;5;77mm\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167mf\u001b[48;5;179mut\u001b[48;5;185mu\u001b[48;5;77mre\u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m a\u001b[48;5;80mn\u001b[48;5;68mn\u001b[48;5;134mo\u001b[48;5;167mt\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mco\u001b[48;5;80ml\u001b[48;5;68mle\u001b[48;5;134mc\u001b[48;5;167mt\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mimp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mr\u001b[48;5;77mo\u001b[48;5;80mm\u001b[48;5;68m t\u001b[48;5;134my\u001b[48;5;167mp\u001b[48;5;179ming\u001b[48;5;185m i\u001b[48;5;77mmp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mO\u001b[48;5;179mp\u001b[48;5;185mt\u001b[48;5;77mion\u001b[48;5;80mal\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m re\u001b[48;5;80mge\u001b[48;5;68mx\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mimp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mc\u001b[48;5;68ml\u001b[48;5;134ma\u001b[48;5;167ms\u001b[48;5;179ms\u001b[48;5;185m \u001b[48;5;77mS\u001b[48;5;80mimp\u001b[48;5;68mle\u001b[48;5;134mB\u001b[48;5;167myte\u001b[48;5;179mP\u001b[48;5;185ma\u001b[48;5;77mir\u001b[48;5;80mE\u001b[48;5;68mn\u001b[48;5;134mcoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m \u001b[48;5;77mdef\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167min\u001b[48;5;179mi\u001b[48;5;185mt\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' ' + b'-'\n", + "So we made b' -' our 373th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m a\u001b[48;5;134mn\u001b[48;5;167m \u001b[48;5;179me\u001b[48;5;185md\u001b[48;5;77mu\u001b[48;5;80mc\u001b[48;5;68mat\u001b[48;5;134mion\u001b[48;5;167mal\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mle\u001b[48;5;80mm\u001b[48;5;68men\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185m o\u001b[48;5;77mf\u001b[48;5;80m the\u001b[48;5;68m b\u001b[48;5;134myte\u001b[48;5;167m pair\u001b[48;5;179m en\u001b[48;5;185mcoding\u001b[48;5;77m \u001b[48;5;80mal\u001b[48;5;68mg\u001b[48;5;134mor\u001b[48;5;167mi\u001b[48;5;179mt\u001b[48;5;185mh\u001b[48;5;77mm\u001b[48;5;80m.\u001b[48;5;68m\"\"\"\u001b[48;5;134m\n", + "\u001b[48;5;167mf\u001b[48;5;179mr\u001b[48;5;185mo\u001b[48;5;77mm\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167mf\u001b[48;5;179mut\u001b[48;5;185mu\u001b[48;5;77mre\u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m a\u001b[48;5;80mn\u001b[48;5;68mn\u001b[48;5;134mo\u001b[48;5;167mt\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mco\u001b[48;5;80ml\u001b[48;5;68mle\u001b[48;5;134mc\u001b[48;5;167mt\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mimp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mr\u001b[48;5;77mo\u001b[48;5;80mm\u001b[48;5;68m t\u001b[48;5;134my\u001b[48;5;167mp\u001b[48;5;179ming\u001b[48;5;185m i\u001b[48;5;77mmp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mO\u001b[48;5;179mp\u001b[48;5;185mt\u001b[48;5;77mion\u001b[48;5;80mal\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m re\u001b[48;5;80mge\u001b[48;5;68mx\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mimp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mc\u001b[48;5;68ml\u001b[48;5;134ma\u001b[48;5;167ms\u001b[48;5;179ms\u001b[48;5;185m \u001b[48;5;77mS\u001b[48;5;80mimp\u001b[48;5;68mle\u001b[48;5;134mB\u001b[48;5;167myte\u001b[48;5;179mP\u001b[48;5;185ma\u001b[48;5;77mir\u001b[48;5;80mE\u001b[48;5;68mn\u001b[48;5;134mcoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m \u001b[48;5;77mdef\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167min\u001b[48;5;179mi\u001b[48;5;185mt\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' ' + b'N'\n", + "So we made b' N' our 374th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m a\u001b[48;5;134mn\u001b[48;5;167m \u001b[48;5;179me\u001b[48;5;185md\u001b[48;5;77mu\u001b[48;5;80mc\u001b[48;5;68mat\u001b[48;5;134mion\u001b[48;5;167mal\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mle\u001b[48;5;80mm\u001b[48;5;68men\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185m o\u001b[48;5;77mf\u001b[48;5;80m the\u001b[48;5;68m b\u001b[48;5;134myte\u001b[48;5;167m pair\u001b[48;5;179m en\u001b[48;5;185mcoding\u001b[48;5;77m \u001b[48;5;80mal\u001b[48;5;68mg\u001b[48;5;134mor\u001b[48;5;167mi\u001b[48;5;179mt\u001b[48;5;185mh\u001b[48;5;77mm\u001b[48;5;80m.\u001b[48;5;68m\"\"\"\u001b[48;5;134m\n", + "\u001b[48;5;167mf\u001b[48;5;179mr\u001b[48;5;185mo\u001b[48;5;77mm\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167mf\u001b[48;5;179mut\u001b[48;5;185mu\u001b[48;5;77mre\u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m a\u001b[48;5;80mn\u001b[48;5;68mn\u001b[48;5;134mo\u001b[48;5;167mt\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mco\u001b[48;5;80ml\u001b[48;5;68mle\u001b[48;5;134mc\u001b[48;5;167mt\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mimp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mr\u001b[48;5;77mo\u001b[48;5;80mm\u001b[48;5;68m t\u001b[48;5;134my\u001b[48;5;167mp\u001b[48;5;179ming\u001b[48;5;185m i\u001b[48;5;77mmp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mO\u001b[48;5;179mp\u001b[48;5;185mt\u001b[48;5;77mion\u001b[48;5;80mal\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m re\u001b[48;5;80mge\u001b[48;5;68mx\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mimp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mc\u001b[48;5;68ml\u001b[48;5;134ma\u001b[48;5;167ms\u001b[48;5;179ms\u001b[48;5;185m \u001b[48;5;77mS\u001b[48;5;80mimp\u001b[48;5;68mle\u001b[48;5;134mB\u001b[48;5;167myte\u001b[48;5;179mP\u001b[48;5;185ma\u001b[48;5;77mir\u001b[48;5;80mE\u001b[48;5;68mn\u001b[48;5;134mcoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m \u001b[48;5;77mdef\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167min\u001b[48;5;179mi\u001b[48;5;185mt\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' ' + b'\"\"\"'\n", + "So we made b' \"\"\"' our 375th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m a\u001b[48;5;134mn\u001b[48;5;167m \u001b[48;5;179me\u001b[48;5;185md\u001b[48;5;77mu\u001b[48;5;80mc\u001b[48;5;68mat\u001b[48;5;134mion\u001b[48;5;167mal\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mle\u001b[48;5;80mm\u001b[48;5;68men\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185m o\u001b[48;5;77mf\u001b[48;5;80m the\u001b[48;5;68m b\u001b[48;5;134myte\u001b[48;5;167m pair\u001b[48;5;179m en\u001b[48;5;185mcoding\u001b[48;5;77m \u001b[48;5;80mal\u001b[48;5;68mg\u001b[48;5;134mor\u001b[48;5;167mi\u001b[48;5;179mt\u001b[48;5;185mh\u001b[48;5;77mm\u001b[48;5;80m.\u001b[48;5;68m\"\"\"\u001b[48;5;134m\n", + "\u001b[48;5;167mf\u001b[48;5;179mr\u001b[48;5;185mo\u001b[48;5;77mm\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167mf\u001b[48;5;179mut\u001b[48;5;185mu\u001b[48;5;77mre\u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m a\u001b[48;5;80mn\u001b[48;5;68mn\u001b[48;5;134mo\u001b[48;5;167mt\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mco\u001b[48;5;80ml\u001b[48;5;68mle\u001b[48;5;134mc\u001b[48;5;167mt\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mimp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mr\u001b[48;5;77mo\u001b[48;5;80mm\u001b[48;5;68m t\u001b[48;5;134my\u001b[48;5;167mp\u001b[48;5;179ming\u001b[48;5;185m i\u001b[48;5;77mmp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mO\u001b[48;5;179mp\u001b[48;5;185mt\u001b[48;5;77mion\u001b[48;5;80mal\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m re\u001b[48;5;80mge\u001b[48;5;68mx\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mimp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mc\u001b[48;5;68ml\u001b[48;5;134ma\u001b[48;5;167ms\u001b[48;5;179ms\u001b[48;5;185m \u001b[48;5;77mS\u001b[48;5;80mimp\u001b[48;5;68mle\u001b[48;5;134mB\u001b[48;5;167myte\u001b[48;5;179mP\u001b[48;5;185ma\u001b[48;5;77mir\u001b[48;5;80mE\u001b[48;5;68mn\u001b[48;5;134mcoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m \u001b[48;5;77mdef\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167min\u001b[48;5;179mi\u001b[48;5;185mt\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'te' + b'r'\n", + "So we made b'ter' our 376th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m a\u001b[48;5;134mn\u001b[48;5;167m \u001b[48;5;179me\u001b[48;5;185md\u001b[48;5;77mu\u001b[48;5;80mc\u001b[48;5;68mat\u001b[48;5;134mion\u001b[48;5;167mal\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mle\u001b[48;5;80mm\u001b[48;5;68men\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185m o\u001b[48;5;77mf\u001b[48;5;80m the\u001b[48;5;68m b\u001b[48;5;134myte\u001b[48;5;167m pair\u001b[48;5;179m en\u001b[48;5;185mcoding\u001b[48;5;77m \u001b[48;5;80mal\u001b[48;5;68mg\u001b[48;5;134mor\u001b[48;5;167mi\u001b[48;5;179mt\u001b[48;5;185mh\u001b[48;5;77mm\u001b[48;5;80m.\u001b[48;5;68m\"\"\"\u001b[48;5;134m\n", + "\u001b[48;5;167mf\u001b[48;5;179mr\u001b[48;5;185mo\u001b[48;5;77mm\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167mf\u001b[48;5;179mut\u001b[48;5;185mu\u001b[48;5;77mre\u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m a\u001b[48;5;80mn\u001b[48;5;68mn\u001b[48;5;134mo\u001b[48;5;167mt\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mco\u001b[48;5;80ml\u001b[48;5;68mle\u001b[48;5;134mc\u001b[48;5;167mt\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mimp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mr\u001b[48;5;77mo\u001b[48;5;80mm\u001b[48;5;68m t\u001b[48;5;134my\u001b[48;5;167mp\u001b[48;5;179ming\u001b[48;5;185m i\u001b[48;5;77mmp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mO\u001b[48;5;179mp\u001b[48;5;185mt\u001b[48;5;77mion\u001b[48;5;80mal\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m re\u001b[48;5;80mge\u001b[48;5;68mx\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mimp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mc\u001b[48;5;68ml\u001b[48;5;134ma\u001b[48;5;167ms\u001b[48;5;179ms\u001b[48;5;185m \u001b[48;5;77mS\u001b[48;5;80mimp\u001b[48;5;68mle\u001b[48;5;134mB\u001b[48;5;167myte\u001b[48;5;179mP\u001b[48;5;185ma\u001b[48;5;77mir\u001b[48;5;80mE\u001b[48;5;68mn\u001b[48;5;134mcoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m \u001b[48;5;77mdef\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167min\u001b[48;5;179mi\u001b[48;5;185mt\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' t' + b'o'\n", + "So we made b' to' our 377th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m a\u001b[48;5;134mn\u001b[48;5;167m \u001b[48;5;179me\u001b[48;5;185md\u001b[48;5;77mu\u001b[48;5;80mc\u001b[48;5;68mat\u001b[48;5;134mion\u001b[48;5;167mal\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mle\u001b[48;5;80mm\u001b[48;5;68men\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185m o\u001b[48;5;77mf\u001b[48;5;80m the\u001b[48;5;68m b\u001b[48;5;134myte\u001b[48;5;167m pair\u001b[48;5;179m en\u001b[48;5;185mcoding\u001b[48;5;77m \u001b[48;5;80mal\u001b[48;5;68mg\u001b[48;5;134mor\u001b[48;5;167mi\u001b[48;5;179mt\u001b[48;5;185mh\u001b[48;5;77mm\u001b[48;5;80m.\u001b[48;5;68m\"\"\"\u001b[48;5;134m\n", + "\u001b[48;5;167mf\u001b[48;5;179mr\u001b[48;5;185mo\u001b[48;5;77mm\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167mf\u001b[48;5;179mut\u001b[48;5;185mu\u001b[48;5;77mre\u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m a\u001b[48;5;80mn\u001b[48;5;68mn\u001b[48;5;134mo\u001b[48;5;167mt\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mco\u001b[48;5;80ml\u001b[48;5;68mle\u001b[48;5;134mc\u001b[48;5;167mt\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mimp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mr\u001b[48;5;77mo\u001b[48;5;80mm\u001b[48;5;68m t\u001b[48;5;134my\u001b[48;5;167mp\u001b[48;5;179ming\u001b[48;5;185m i\u001b[48;5;77mmp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mO\u001b[48;5;179mp\u001b[48;5;185mt\u001b[48;5;77mion\u001b[48;5;80mal\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m re\u001b[48;5;80mge\u001b[48;5;68mx\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mimp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mc\u001b[48;5;68ml\u001b[48;5;134ma\u001b[48;5;167ms\u001b[48;5;179ms\u001b[48;5;185m \u001b[48;5;77mS\u001b[48;5;80mimp\u001b[48;5;68mle\u001b[48;5;134mB\u001b[48;5;167myte\u001b[48;5;179mP\u001b[48;5;185ma\u001b[48;5;77mir\u001b[48;5;80mE\u001b[48;5;68mn\u001b[48;5;134mcoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m \u001b[48;5;77mdef\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167min\u001b[48;5;179mi\u001b[48;5;185mt\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' en' + b'c'\n", + "So we made b' enc' our 378th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m a\u001b[48;5;134mn\u001b[48;5;167m \u001b[48;5;179me\u001b[48;5;185md\u001b[48;5;77mu\u001b[48;5;80mc\u001b[48;5;68mat\u001b[48;5;134mion\u001b[48;5;167mal\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mle\u001b[48;5;80mm\u001b[48;5;68men\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185m o\u001b[48;5;77mf\u001b[48;5;80m the\u001b[48;5;68m b\u001b[48;5;134myte\u001b[48;5;167m pair\u001b[48;5;179m en\u001b[48;5;185mcoding\u001b[48;5;77m \u001b[48;5;80mal\u001b[48;5;68mg\u001b[48;5;134mor\u001b[48;5;167mi\u001b[48;5;179mt\u001b[48;5;185mh\u001b[48;5;77mm\u001b[48;5;80m.\u001b[48;5;68m\"\"\"\u001b[48;5;134m\n", + "\u001b[48;5;167mf\u001b[48;5;179mr\u001b[48;5;185mo\u001b[48;5;77mm\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167mf\u001b[48;5;179mut\u001b[48;5;185mu\u001b[48;5;77mre\u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m a\u001b[48;5;80mn\u001b[48;5;68mn\u001b[48;5;134mo\u001b[48;5;167mt\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mco\u001b[48;5;80ml\u001b[48;5;68mle\u001b[48;5;134mc\u001b[48;5;167mt\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mimp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mr\u001b[48;5;77mo\u001b[48;5;80mm\u001b[48;5;68m t\u001b[48;5;134my\u001b[48;5;167mp\u001b[48;5;179ming\u001b[48;5;185m i\u001b[48;5;77mmp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mO\u001b[48;5;179mp\u001b[48;5;185mt\u001b[48;5;77mion\u001b[48;5;80mal\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m re\u001b[48;5;80mge\u001b[48;5;68mx\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mimp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mc\u001b[48;5;68ml\u001b[48;5;134ma\u001b[48;5;167ms\u001b[48;5;179ms\u001b[48;5;185m \u001b[48;5;77mS\u001b[48;5;80mimp\u001b[48;5;68mle\u001b[48;5;134mB\u001b[48;5;167myte\u001b[48;5;179mP\u001b[48;5;185ma\u001b[48;5;77mir\u001b[48;5;80mE\u001b[48;5;68mn\u001b[48;5;134mcoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m \u001b[48;5;77mdef\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167min\u001b[48;5;179mi\u001b[48;5;185mt\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'l' + b'lo'\n", + "So we made b'llo' our 379th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m a\u001b[48;5;134mn\u001b[48;5;167m \u001b[48;5;179me\u001b[48;5;185md\u001b[48;5;77mu\u001b[48;5;80mc\u001b[48;5;68mat\u001b[48;5;134mion\u001b[48;5;167mal\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mle\u001b[48;5;80mm\u001b[48;5;68men\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185m o\u001b[48;5;77mf\u001b[48;5;80m the\u001b[48;5;68m b\u001b[48;5;134myte\u001b[48;5;167m pair\u001b[48;5;179m en\u001b[48;5;185mcoding\u001b[48;5;77m \u001b[48;5;80mal\u001b[48;5;68mg\u001b[48;5;134mor\u001b[48;5;167mi\u001b[48;5;179mt\u001b[48;5;185mh\u001b[48;5;77mm\u001b[48;5;80m.\u001b[48;5;68m\"\"\"\u001b[48;5;134m\n", + "\u001b[48;5;167mf\u001b[48;5;179mr\u001b[48;5;185mo\u001b[48;5;77mm\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167mf\u001b[48;5;179mut\u001b[48;5;185mu\u001b[48;5;77mre\u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m a\u001b[48;5;80mn\u001b[48;5;68mn\u001b[48;5;134mo\u001b[48;5;167mt\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mco\u001b[48;5;80ml\u001b[48;5;68mle\u001b[48;5;134mc\u001b[48;5;167mt\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mimp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mr\u001b[48;5;77mo\u001b[48;5;80mm\u001b[48;5;68m t\u001b[48;5;134my\u001b[48;5;167mp\u001b[48;5;179ming\u001b[48;5;185m i\u001b[48;5;77mmp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mO\u001b[48;5;179mp\u001b[48;5;185mt\u001b[48;5;77mion\u001b[48;5;80mal\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m re\u001b[48;5;80mge\u001b[48;5;68mx\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mimp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mc\u001b[48;5;68ml\u001b[48;5;134ma\u001b[48;5;167ms\u001b[48;5;179ms\u001b[48;5;185m \u001b[48;5;77mS\u001b[48;5;80mimp\u001b[48;5;68mle\u001b[48;5;134mB\u001b[48;5;167myte\u001b[48;5;179mP\u001b[48;5;185ma\u001b[48;5;77mir\u001b[48;5;80mE\u001b[48;5;68mn\u001b[48;5;134mcoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m \u001b[48;5;77mdef\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167min\u001b[48;5;179mi\u001b[48;5;185mt\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' w' + b'or'\n", + "So we made b' wor' our 380th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m a\u001b[48;5;134mn\u001b[48;5;167m \u001b[48;5;179me\u001b[48;5;185md\u001b[48;5;77mu\u001b[48;5;80mc\u001b[48;5;68mat\u001b[48;5;134mion\u001b[48;5;167mal\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mle\u001b[48;5;80mm\u001b[48;5;68men\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185m o\u001b[48;5;77mf\u001b[48;5;80m the\u001b[48;5;68m b\u001b[48;5;134myte\u001b[48;5;167m pair\u001b[48;5;179m en\u001b[48;5;185mcoding\u001b[48;5;77m \u001b[48;5;80mal\u001b[48;5;68mg\u001b[48;5;134mor\u001b[48;5;167mi\u001b[48;5;179mt\u001b[48;5;185mh\u001b[48;5;77mm\u001b[48;5;80m.\u001b[48;5;68m\"\"\"\u001b[48;5;134m\n", + "\u001b[48;5;167mf\u001b[48;5;179mr\u001b[48;5;185mo\u001b[48;5;77mm\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167mf\u001b[48;5;179mut\u001b[48;5;185mu\u001b[48;5;77mre\u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m a\u001b[48;5;80mn\u001b[48;5;68mn\u001b[48;5;134mo\u001b[48;5;167mt\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mco\u001b[48;5;80ml\u001b[48;5;68mle\u001b[48;5;134mc\u001b[48;5;167mt\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mimp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mr\u001b[48;5;77mo\u001b[48;5;80mm\u001b[48;5;68m t\u001b[48;5;134my\u001b[48;5;167mp\u001b[48;5;179ming\u001b[48;5;185m i\u001b[48;5;77mmp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mO\u001b[48;5;179mp\u001b[48;5;185mt\u001b[48;5;77mion\u001b[48;5;80mal\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m re\u001b[48;5;80mge\u001b[48;5;68mx\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mimp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mc\u001b[48;5;68ml\u001b[48;5;134ma\u001b[48;5;167ms\u001b[48;5;179ms\u001b[48;5;185m \u001b[48;5;77mS\u001b[48;5;80mimp\u001b[48;5;68mle\u001b[48;5;134mB\u001b[48;5;167myte\u001b[48;5;179mP\u001b[48;5;185ma\u001b[48;5;77mir\u001b[48;5;80mE\u001b[48;5;68mn\u001b[48;5;134mcoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m \u001b[48;5;77mdef\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167min\u001b[48;5;179mi\u001b[48;5;185mt\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' wor' + b'ld'\n", + "So we made b' world' our 381th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m a\u001b[48;5;134mn\u001b[48;5;167m \u001b[48;5;179me\u001b[48;5;185md\u001b[48;5;77mu\u001b[48;5;80mc\u001b[48;5;68mat\u001b[48;5;134mion\u001b[48;5;167mal\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mle\u001b[48;5;80mm\u001b[48;5;68men\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185m o\u001b[48;5;77mf\u001b[48;5;80m the\u001b[48;5;68m b\u001b[48;5;134myte\u001b[48;5;167m pair\u001b[48;5;179m en\u001b[48;5;185mcoding\u001b[48;5;77m \u001b[48;5;80mal\u001b[48;5;68mg\u001b[48;5;134mor\u001b[48;5;167mi\u001b[48;5;179mt\u001b[48;5;185mh\u001b[48;5;77mm\u001b[48;5;80m.\u001b[48;5;68m\"\"\"\u001b[48;5;134m\n", + "\u001b[48;5;167mf\u001b[48;5;179mr\u001b[48;5;185mo\u001b[48;5;77mm\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167mf\u001b[48;5;179mut\u001b[48;5;185mu\u001b[48;5;77mre\u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m a\u001b[48;5;80mn\u001b[48;5;68mn\u001b[48;5;134mo\u001b[48;5;167mt\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mco\u001b[48;5;80ml\u001b[48;5;68mle\u001b[48;5;134mc\u001b[48;5;167mt\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mimp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mr\u001b[48;5;77mo\u001b[48;5;80mm\u001b[48;5;68m t\u001b[48;5;134my\u001b[48;5;167mp\u001b[48;5;179ming\u001b[48;5;185m i\u001b[48;5;77mmp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mO\u001b[48;5;179mp\u001b[48;5;185mt\u001b[48;5;77mion\u001b[48;5;80mal\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m re\u001b[48;5;80mge\u001b[48;5;68mx\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mimp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mc\u001b[48;5;68ml\u001b[48;5;134ma\u001b[48;5;167ms\u001b[48;5;179ms\u001b[48;5;185m \u001b[48;5;77mS\u001b[48;5;80mimp\u001b[48;5;68mle\u001b[48;5;134mB\u001b[48;5;167myte\u001b[48;5;179mP\u001b[48;5;185ma\u001b[48;5;77mir\u001b[48;5;80mE\u001b[48;5;68mn\u001b[48;5;134mcoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m \u001b[48;5;77mdef\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167min\u001b[48;5;179mi\u001b[48;5;185mt\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'ur' + b'n'\n", + "So we made b'urn' our 382th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m a\u001b[48;5;134mn\u001b[48;5;167m \u001b[48;5;179me\u001b[48;5;185md\u001b[48;5;77mu\u001b[48;5;80mc\u001b[48;5;68mat\u001b[48;5;134mion\u001b[48;5;167mal\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mle\u001b[48;5;80mm\u001b[48;5;68men\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185m o\u001b[48;5;77mf\u001b[48;5;80m the\u001b[48;5;68m b\u001b[48;5;134myte\u001b[48;5;167m pair\u001b[48;5;179m en\u001b[48;5;185mcoding\u001b[48;5;77m \u001b[48;5;80mal\u001b[48;5;68mg\u001b[48;5;134mor\u001b[48;5;167mi\u001b[48;5;179mt\u001b[48;5;185mh\u001b[48;5;77mm\u001b[48;5;80m.\u001b[48;5;68m\"\"\"\u001b[48;5;134m\n", + "\u001b[48;5;167mf\u001b[48;5;179mr\u001b[48;5;185mo\u001b[48;5;77mm\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167mf\u001b[48;5;179mut\u001b[48;5;185mu\u001b[48;5;77mre\u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m a\u001b[48;5;80mn\u001b[48;5;68mn\u001b[48;5;134mo\u001b[48;5;167mt\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mco\u001b[48;5;80ml\u001b[48;5;68mle\u001b[48;5;134mc\u001b[48;5;167mt\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mimp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mr\u001b[48;5;77mo\u001b[48;5;80mm\u001b[48;5;68m t\u001b[48;5;134my\u001b[48;5;167mp\u001b[48;5;179ming\u001b[48;5;185m i\u001b[48;5;77mmp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mO\u001b[48;5;179mp\u001b[48;5;185mt\u001b[48;5;77mion\u001b[48;5;80mal\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m re\u001b[48;5;80mge\u001b[48;5;68mx\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mimp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mc\u001b[48;5;68ml\u001b[48;5;134ma\u001b[48;5;167ms\u001b[48;5;179ms\u001b[48;5;185m \u001b[48;5;77mS\u001b[48;5;80mimp\u001b[48;5;68mle\u001b[48;5;134mB\u001b[48;5;167myte\u001b[48;5;179mP\u001b[48;5;185ma\u001b[48;5;77mir\u001b[48;5;80mE\u001b[48;5;68mn\u001b[48;5;134mcoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m \u001b[48;5;77mdef\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167min\u001b[48;5;179mi\u001b[48;5;185mt\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'i' + b'd'\n", + "So we made b'id' our 383th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m a\u001b[48;5;134mn\u001b[48;5;167m \u001b[48;5;179me\u001b[48;5;185md\u001b[48;5;77mu\u001b[48;5;80mc\u001b[48;5;68mat\u001b[48;5;134mion\u001b[48;5;167mal\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mle\u001b[48;5;80mm\u001b[48;5;68men\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185m o\u001b[48;5;77mf\u001b[48;5;80m the\u001b[48;5;68m b\u001b[48;5;134myte\u001b[48;5;167m pair\u001b[48;5;179m en\u001b[48;5;185mcoding\u001b[48;5;77m \u001b[48;5;80mal\u001b[48;5;68mg\u001b[48;5;134mor\u001b[48;5;167mi\u001b[48;5;179mt\u001b[48;5;185mh\u001b[48;5;77mm\u001b[48;5;80m.\u001b[48;5;68m\"\"\"\u001b[48;5;134m\n", + "\u001b[48;5;167mf\u001b[48;5;179mr\u001b[48;5;185mo\u001b[48;5;77mm\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167mf\u001b[48;5;179mut\u001b[48;5;185mu\u001b[48;5;77mre\u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m a\u001b[48;5;80mn\u001b[48;5;68mn\u001b[48;5;134mo\u001b[48;5;167mt\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mco\u001b[48;5;80ml\u001b[48;5;68mle\u001b[48;5;134mc\u001b[48;5;167mt\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mimp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mr\u001b[48;5;77mo\u001b[48;5;80mm\u001b[48;5;68m t\u001b[48;5;134my\u001b[48;5;167mp\u001b[48;5;179ming\u001b[48;5;185m i\u001b[48;5;77mmp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mO\u001b[48;5;179mp\u001b[48;5;185mt\u001b[48;5;77mion\u001b[48;5;80mal\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m re\u001b[48;5;80mge\u001b[48;5;68mx\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mimp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mc\u001b[48;5;68ml\u001b[48;5;134ma\u001b[48;5;167ms\u001b[48;5;179ms\u001b[48;5;185m \u001b[48;5;77mS\u001b[48;5;80mimp\u001b[48;5;68mle\u001b[48;5;134mB\u001b[48;5;167myte\u001b[48;5;179mP\u001b[48;5;185ma\u001b[48;5;77mir\u001b[48;5;80mE\u001b[48;5;68mn\u001b[48;5;134mcoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m \u001b[48;5;77mdef\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167min\u001b[48;5;179mi\u001b[48;5;185mt\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b\"'\" + b','\n", + "So we made b\"',\" our 384th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m a\u001b[48;5;134mn\u001b[48;5;167m \u001b[48;5;179me\u001b[48;5;185md\u001b[48;5;77mu\u001b[48;5;80mc\u001b[48;5;68mat\u001b[48;5;134mion\u001b[48;5;167mal\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mle\u001b[48;5;80mm\u001b[48;5;68men\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185m o\u001b[48;5;77mf\u001b[48;5;80m the\u001b[48;5;68m b\u001b[48;5;134myte\u001b[48;5;167m pair\u001b[48;5;179m en\u001b[48;5;185mcoding\u001b[48;5;77m \u001b[48;5;80mal\u001b[48;5;68mg\u001b[48;5;134mor\u001b[48;5;167mi\u001b[48;5;179mt\u001b[48;5;185mh\u001b[48;5;77mm\u001b[48;5;80m.\u001b[48;5;68m\"\"\"\u001b[48;5;134m\n", + "\u001b[48;5;167mf\u001b[48;5;179mr\u001b[48;5;185mo\u001b[48;5;77mm\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167mf\u001b[48;5;179mut\u001b[48;5;185mu\u001b[48;5;77mre\u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m a\u001b[48;5;80mn\u001b[48;5;68mn\u001b[48;5;134mo\u001b[48;5;167mt\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mco\u001b[48;5;80ml\u001b[48;5;68mle\u001b[48;5;134mc\u001b[48;5;167mt\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mimp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mr\u001b[48;5;77mo\u001b[48;5;80mm\u001b[48;5;68m t\u001b[48;5;134my\u001b[48;5;167mp\u001b[48;5;179ming\u001b[48;5;185m i\u001b[48;5;77mmp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mO\u001b[48;5;179mp\u001b[48;5;185mt\u001b[48;5;77mion\u001b[48;5;80mal\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m re\u001b[48;5;80mge\u001b[48;5;68mx\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mimp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mc\u001b[48;5;68ml\u001b[48;5;134ma\u001b[48;5;167ms\u001b[48;5;179ms\u001b[48;5;185m \u001b[48;5;77mS\u001b[48;5;80mimp\u001b[48;5;68mle\u001b[48;5;134mB\u001b[48;5;167myte\u001b[48;5;179mP\u001b[48;5;185ma\u001b[48;5;77mir\u001b[48;5;80mE\u001b[48;5;68mn\u001b[48;5;134mcoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m \u001b[48;5;77mdef\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167min\u001b[48;5;179mi\u001b[48;5;185mt\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' d' + b'ata'\n", + "So we made b' data' our 385th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m a\u001b[48;5;134mn\u001b[48;5;167m \u001b[48;5;179me\u001b[48;5;185md\u001b[48;5;77mu\u001b[48;5;80mc\u001b[48;5;68mat\u001b[48;5;134mion\u001b[48;5;167mal\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mle\u001b[48;5;80mm\u001b[48;5;68men\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185m o\u001b[48;5;77mf\u001b[48;5;80m the\u001b[48;5;68m b\u001b[48;5;134myte\u001b[48;5;167m pair\u001b[48;5;179m en\u001b[48;5;185mcoding\u001b[48;5;77m \u001b[48;5;80mal\u001b[48;5;68mg\u001b[48;5;134mor\u001b[48;5;167mi\u001b[48;5;179mt\u001b[48;5;185mh\u001b[48;5;77mm\u001b[48;5;80m.\u001b[48;5;68m\"\"\"\u001b[48;5;134m\n", + "\u001b[48;5;167mf\u001b[48;5;179mr\u001b[48;5;185mo\u001b[48;5;77mm\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167mf\u001b[48;5;179mut\u001b[48;5;185mu\u001b[48;5;77mre\u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m a\u001b[48;5;80mn\u001b[48;5;68mn\u001b[48;5;134mo\u001b[48;5;167mt\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mco\u001b[48;5;80ml\u001b[48;5;68mle\u001b[48;5;134mc\u001b[48;5;167mt\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mimp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mr\u001b[48;5;77mo\u001b[48;5;80mm\u001b[48;5;68m t\u001b[48;5;134my\u001b[48;5;167mp\u001b[48;5;179ming\u001b[48;5;185m i\u001b[48;5;77mmp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mO\u001b[48;5;179mp\u001b[48;5;185mt\u001b[48;5;77mion\u001b[48;5;80mal\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m re\u001b[48;5;80mge\u001b[48;5;68mx\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mimp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mc\u001b[48;5;68ml\u001b[48;5;134ma\u001b[48;5;167ms\u001b[48;5;179ms\u001b[48;5;185m \u001b[48;5;77mS\u001b[48;5;80mimp\u001b[48;5;68mle\u001b[48;5;134mB\u001b[48;5;167myte\u001b[48;5;179mP\u001b[48;5;185ma\u001b[48;5;77mir\u001b[48;5;80mE\u001b[48;5;68mn\u001b[48;5;134mcoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m \u001b[48;5;77mdef\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167min\u001b[48;5;179mi\u001b[48;5;185mt\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' pr' + b'int'\n", + "So we made b' print' our 386th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m a\u001b[48;5;134mn\u001b[48;5;167m \u001b[48;5;179me\u001b[48;5;185md\u001b[48;5;77mu\u001b[48;5;80mc\u001b[48;5;68mat\u001b[48;5;134mion\u001b[48;5;167mal\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mle\u001b[48;5;80mm\u001b[48;5;68men\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185m o\u001b[48;5;77mf\u001b[48;5;80m the\u001b[48;5;68m b\u001b[48;5;134myte\u001b[48;5;167m pair\u001b[48;5;179m en\u001b[48;5;185mcoding\u001b[48;5;77m \u001b[48;5;80mal\u001b[48;5;68mg\u001b[48;5;134mor\u001b[48;5;167mi\u001b[48;5;179mt\u001b[48;5;185mh\u001b[48;5;77mm\u001b[48;5;80m.\u001b[48;5;68m\"\"\"\u001b[48;5;134m\n", + "\u001b[48;5;167mf\u001b[48;5;179mr\u001b[48;5;185mo\u001b[48;5;77mm\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167mf\u001b[48;5;179mut\u001b[48;5;185mu\u001b[48;5;77mre\u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m a\u001b[48;5;80mn\u001b[48;5;68mn\u001b[48;5;134mo\u001b[48;5;167mt\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mco\u001b[48;5;80ml\u001b[48;5;68mle\u001b[48;5;134mc\u001b[48;5;167mt\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mimp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mr\u001b[48;5;77mo\u001b[48;5;80mm\u001b[48;5;68m t\u001b[48;5;134my\u001b[48;5;167mp\u001b[48;5;179ming\u001b[48;5;185m i\u001b[48;5;77mmp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mO\u001b[48;5;179mp\u001b[48;5;185mt\u001b[48;5;77mion\u001b[48;5;80mal\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m re\u001b[48;5;80mge\u001b[48;5;68mx\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mimp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mc\u001b[48;5;68ml\u001b[48;5;134ma\u001b[48;5;167ms\u001b[48;5;179ms\u001b[48;5;185m \u001b[48;5;77mS\u001b[48;5;80mimp\u001b[48;5;68mle\u001b[48;5;134mB\u001b[48;5;167myte\u001b[48;5;179mP\u001b[48;5;185ma\u001b[48;5;77mir\u001b[48;5;80mE\u001b[48;5;68mn\u001b[48;5;134mcoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m \u001b[48;5;77mdef\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167min\u001b[48;5;179mi\u001b[48;5;185mt\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'o' + b'st'\n", + "So we made b'ost' our 387th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m a\u001b[48;5;134mn\u001b[48;5;167m \u001b[48;5;179me\u001b[48;5;185md\u001b[48;5;77mu\u001b[48;5;80mc\u001b[48;5;68mat\u001b[48;5;134mion\u001b[48;5;167mal\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mle\u001b[48;5;80mm\u001b[48;5;68men\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185m o\u001b[48;5;77mf\u001b[48;5;80m the\u001b[48;5;68m b\u001b[48;5;134myte\u001b[48;5;167m pair\u001b[48;5;179m en\u001b[48;5;185mcoding\u001b[48;5;77m \u001b[48;5;80mal\u001b[48;5;68mg\u001b[48;5;134mor\u001b[48;5;167mi\u001b[48;5;179mt\u001b[48;5;185mh\u001b[48;5;77mm\u001b[48;5;80m.\u001b[48;5;68m\"\"\"\u001b[48;5;134m\n", + "\u001b[48;5;167mf\u001b[48;5;179mr\u001b[48;5;185mo\u001b[48;5;77mm\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167mf\u001b[48;5;179mut\u001b[48;5;185mu\u001b[48;5;77mre\u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m a\u001b[48;5;80mn\u001b[48;5;68mn\u001b[48;5;134mo\u001b[48;5;167mt\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mco\u001b[48;5;80ml\u001b[48;5;68mle\u001b[48;5;134mc\u001b[48;5;167mt\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mimp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mr\u001b[48;5;77mo\u001b[48;5;80mm\u001b[48;5;68m t\u001b[48;5;134my\u001b[48;5;167mp\u001b[48;5;179ming\u001b[48;5;185m i\u001b[48;5;77mmp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mO\u001b[48;5;179mp\u001b[48;5;185mt\u001b[48;5;77mion\u001b[48;5;80mal\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m re\u001b[48;5;80mge\u001b[48;5;68mx\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mimp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mc\u001b[48;5;68ml\u001b[48;5;134ma\u001b[48;5;167ms\u001b[48;5;179ms\u001b[48;5;185m \u001b[48;5;77mS\u001b[48;5;80mimp\u001b[48;5;68mle\u001b[48;5;134mB\u001b[48;5;167myte\u001b[48;5;179mP\u001b[48;5;185ma\u001b[48;5;77mir\u001b[48;5;80mE\u001b[48;5;68mn\u001b[48;5;134mcoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m \u001b[48;5;77mdef\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167min\u001b[48;5;179mi\u001b[48;5;185mt\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'co' + b'm'\n", + "So we made b'com' our 388th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m a\u001b[48;5;134mn\u001b[48;5;167m \u001b[48;5;179me\u001b[48;5;185md\u001b[48;5;77mu\u001b[48;5;80mc\u001b[48;5;68mat\u001b[48;5;134mion\u001b[48;5;167mal\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mle\u001b[48;5;80mm\u001b[48;5;68men\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185m o\u001b[48;5;77mf\u001b[48;5;80m the\u001b[48;5;68m b\u001b[48;5;134myte\u001b[48;5;167m pair\u001b[48;5;179m en\u001b[48;5;185mcoding\u001b[48;5;77m \u001b[48;5;80mal\u001b[48;5;68mg\u001b[48;5;134mor\u001b[48;5;167mi\u001b[48;5;179mt\u001b[48;5;185mh\u001b[48;5;77mm\u001b[48;5;80m.\u001b[48;5;68m\"\"\"\u001b[48;5;134m\n", + "\u001b[48;5;167mf\u001b[48;5;179mr\u001b[48;5;185mo\u001b[48;5;77mm\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167mf\u001b[48;5;179mut\u001b[48;5;185mu\u001b[48;5;77mre\u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m a\u001b[48;5;80mn\u001b[48;5;68mn\u001b[48;5;134mo\u001b[48;5;167mt\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mco\u001b[48;5;80ml\u001b[48;5;68mle\u001b[48;5;134mc\u001b[48;5;167mt\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mimp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mr\u001b[48;5;77mo\u001b[48;5;80mm\u001b[48;5;68m t\u001b[48;5;134my\u001b[48;5;167mp\u001b[48;5;179ming\u001b[48;5;185m i\u001b[48;5;77mmp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mO\u001b[48;5;179mp\u001b[48;5;185mt\u001b[48;5;77mion\u001b[48;5;80mal\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m re\u001b[48;5;80mge\u001b[48;5;68mx\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mimp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mc\u001b[48;5;68ml\u001b[48;5;134ma\u001b[48;5;167ms\u001b[48;5;179ms\u001b[48;5;185m \u001b[48;5;77mS\u001b[48;5;80mimp\u001b[48;5;68mle\u001b[48;5;134mB\u001b[48;5;167myte\u001b[48;5;179mP\u001b[48;5;185ma\u001b[48;5;77mir\u001b[48;5;80mE\u001b[48;5;68mn\u001b[48;5;134mcoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m \u001b[48;5;77mdef\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167min\u001b[48;5;179mi\u001b[48;5;185mt\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' n' + b'e'\n", + "So we made b' ne' our 389th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m a\u001b[48;5;134mn\u001b[48;5;167m \u001b[48;5;179me\u001b[48;5;185md\u001b[48;5;77mu\u001b[48;5;80mc\u001b[48;5;68mat\u001b[48;5;134mion\u001b[48;5;167mal\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mle\u001b[48;5;80mm\u001b[48;5;68men\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185m o\u001b[48;5;77mf\u001b[48;5;80m the\u001b[48;5;68m b\u001b[48;5;134myte\u001b[48;5;167m pair\u001b[48;5;179m en\u001b[48;5;185mcoding\u001b[48;5;77m \u001b[48;5;80mal\u001b[48;5;68mg\u001b[48;5;134mor\u001b[48;5;167mi\u001b[48;5;179mt\u001b[48;5;185mh\u001b[48;5;77mm\u001b[48;5;80m.\u001b[48;5;68m\"\"\"\u001b[48;5;134m\n", + "\u001b[48;5;167mf\u001b[48;5;179mr\u001b[48;5;185mo\u001b[48;5;77mm\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167mf\u001b[48;5;179mut\u001b[48;5;185mu\u001b[48;5;77mre\u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m a\u001b[48;5;80mn\u001b[48;5;68mn\u001b[48;5;134mo\u001b[48;5;167mt\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mco\u001b[48;5;80ml\u001b[48;5;68mle\u001b[48;5;134mc\u001b[48;5;167mt\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mimp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mr\u001b[48;5;77mo\u001b[48;5;80mm\u001b[48;5;68m t\u001b[48;5;134my\u001b[48;5;167mp\u001b[48;5;179ming\u001b[48;5;185m i\u001b[48;5;77mmp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mO\u001b[48;5;179mp\u001b[48;5;185mt\u001b[48;5;77mion\u001b[48;5;80mal\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m re\u001b[48;5;80mge\u001b[48;5;68mx\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mimp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mc\u001b[48;5;68ml\u001b[48;5;134ma\u001b[48;5;167ms\u001b[48;5;179ms\u001b[48;5;185m \u001b[48;5;77mS\u001b[48;5;80mimp\u001b[48;5;68mle\u001b[48;5;134mB\u001b[48;5;167myte\u001b[48;5;179mP\u001b[48;5;185ma\u001b[48;5;77mir\u001b[48;5;80mE\u001b[48;5;68mn\u001b[48;5;134mcoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m \u001b[48;5;77mdef\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167min\u001b[48;5;179mi\u001b[48;5;185mt\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'on' + b'e'\n", + "So we made b'one' our 390th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m a\u001b[48;5;134mn\u001b[48;5;167m \u001b[48;5;179me\u001b[48;5;185md\u001b[48;5;77mu\u001b[48;5;80mc\u001b[48;5;68mat\u001b[48;5;134mion\u001b[48;5;167mal\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mle\u001b[48;5;80mm\u001b[48;5;68men\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185m o\u001b[48;5;77mf\u001b[48;5;80m the\u001b[48;5;68m b\u001b[48;5;134myte\u001b[48;5;167m pair\u001b[48;5;179m en\u001b[48;5;185mcoding\u001b[48;5;77m \u001b[48;5;80mal\u001b[48;5;68mg\u001b[48;5;134mor\u001b[48;5;167mi\u001b[48;5;179mt\u001b[48;5;185mh\u001b[48;5;77mm\u001b[48;5;80m.\u001b[48;5;68m\"\"\"\u001b[48;5;134m\n", + "\u001b[48;5;167mf\u001b[48;5;179mr\u001b[48;5;185mo\u001b[48;5;77mm\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167mf\u001b[48;5;179mut\u001b[48;5;185mu\u001b[48;5;77mre\u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m a\u001b[48;5;80mn\u001b[48;5;68mn\u001b[48;5;134mo\u001b[48;5;167mt\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mco\u001b[48;5;80ml\u001b[48;5;68mle\u001b[48;5;134mc\u001b[48;5;167mt\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mimp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mr\u001b[48;5;77mo\u001b[48;5;80mm\u001b[48;5;68m t\u001b[48;5;134my\u001b[48;5;167mp\u001b[48;5;179ming\u001b[48;5;185m i\u001b[48;5;77mmp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mO\u001b[48;5;179mp\u001b[48;5;185mt\u001b[48;5;77mion\u001b[48;5;80mal\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m re\u001b[48;5;80mge\u001b[48;5;68mx\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mimp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mc\u001b[48;5;68ml\u001b[48;5;134ma\u001b[48;5;167ms\u001b[48;5;179ms\u001b[48;5;185m \u001b[48;5;77mS\u001b[48;5;80mimp\u001b[48;5;68mle\u001b[48;5;134mB\u001b[48;5;167myte\u001b[48;5;179mP\u001b[48;5;185ma\u001b[48;5;77mir\u001b[48;5;80mE\u001b[48;5;68mn\u001b[48;5;134mcoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m \u001b[48;5;77mdef\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167min\u001b[48;5;179mi\u001b[48;5;185mt\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' b' + b'ytes'\n", + "So we made b' bytes' our 391th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m a\u001b[48;5;134mn\u001b[48;5;167m \u001b[48;5;179me\u001b[48;5;185md\u001b[48;5;77mu\u001b[48;5;80mc\u001b[48;5;68mat\u001b[48;5;134mion\u001b[48;5;167mal\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mle\u001b[48;5;80mm\u001b[48;5;68men\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185m o\u001b[48;5;77mf\u001b[48;5;80m the\u001b[48;5;68m b\u001b[48;5;134myte\u001b[48;5;167m pair\u001b[48;5;179m en\u001b[48;5;185mcoding\u001b[48;5;77m \u001b[48;5;80mal\u001b[48;5;68mg\u001b[48;5;134mor\u001b[48;5;167mi\u001b[48;5;179mt\u001b[48;5;185mh\u001b[48;5;77mm\u001b[48;5;80m.\u001b[48;5;68m\"\"\"\u001b[48;5;134m\n", + "\u001b[48;5;167mf\u001b[48;5;179mr\u001b[48;5;185mo\u001b[48;5;77mm\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167mf\u001b[48;5;179mut\u001b[48;5;185mu\u001b[48;5;77mre\u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m a\u001b[48;5;80mn\u001b[48;5;68mn\u001b[48;5;134mo\u001b[48;5;167mt\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mco\u001b[48;5;80ml\u001b[48;5;68mle\u001b[48;5;134mc\u001b[48;5;167mt\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mimp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mr\u001b[48;5;77mo\u001b[48;5;80mm\u001b[48;5;68m t\u001b[48;5;134my\u001b[48;5;167mp\u001b[48;5;179ming\u001b[48;5;185m i\u001b[48;5;77mmp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mO\u001b[48;5;179mp\u001b[48;5;185mt\u001b[48;5;77mion\u001b[48;5;80mal\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m re\u001b[48;5;80mge\u001b[48;5;68mx\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mimp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mc\u001b[48;5;68ml\u001b[48;5;134ma\u001b[48;5;167ms\u001b[48;5;179ms\u001b[48;5;185m \u001b[48;5;77mS\u001b[48;5;80mimp\u001b[48;5;68mle\u001b[48;5;134mB\u001b[48;5;167myte\u001b[48;5;179mP\u001b[48;5;185ma\u001b[48;5;77mir\u001b[48;5;80mE\u001b[48;5;68mn\u001b[48;5;134mcoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m \u001b[48;5;77mdef\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167min\u001b[48;5;179mi\u001b[48;5;185mt\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'he' + b'llo'\n", + "So we made b'hello' our 392th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m a\u001b[48;5;134mn\u001b[48;5;167m \u001b[48;5;179me\u001b[48;5;185md\u001b[48;5;77mu\u001b[48;5;80mc\u001b[48;5;68mat\u001b[48;5;134mion\u001b[48;5;167mal\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mle\u001b[48;5;80mm\u001b[48;5;68men\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185m o\u001b[48;5;77mf\u001b[48;5;80m the\u001b[48;5;68m b\u001b[48;5;134myte\u001b[48;5;167m pair\u001b[48;5;179m en\u001b[48;5;185mcoding\u001b[48;5;77m \u001b[48;5;80mal\u001b[48;5;68mg\u001b[48;5;134mor\u001b[48;5;167mi\u001b[48;5;179mt\u001b[48;5;185mh\u001b[48;5;77mm\u001b[48;5;80m.\u001b[48;5;68m\"\"\"\u001b[48;5;134m\n", + "\u001b[48;5;167mf\u001b[48;5;179mr\u001b[48;5;185mo\u001b[48;5;77mm\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167mf\u001b[48;5;179mut\u001b[48;5;185mu\u001b[48;5;77mre\u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m a\u001b[48;5;80mn\u001b[48;5;68mn\u001b[48;5;134mo\u001b[48;5;167mt\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mco\u001b[48;5;80ml\u001b[48;5;68mle\u001b[48;5;134mc\u001b[48;5;167mt\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mimp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mr\u001b[48;5;77mo\u001b[48;5;80mm\u001b[48;5;68m t\u001b[48;5;134my\u001b[48;5;167mp\u001b[48;5;179ming\u001b[48;5;185m i\u001b[48;5;77mmp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mO\u001b[48;5;179mp\u001b[48;5;185mt\u001b[48;5;77mion\u001b[48;5;80mal\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m re\u001b[48;5;80mge\u001b[48;5;68mx\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mimp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mc\u001b[48;5;68ml\u001b[48;5;134ma\u001b[48;5;167ms\u001b[48;5;179ms\u001b[48;5;185m \u001b[48;5;77mS\u001b[48;5;80mimp\u001b[48;5;68mle\u001b[48;5;134mB\u001b[48;5;167myte\u001b[48;5;179mP\u001b[48;5;185ma\u001b[48;5;77mir\u001b[48;5;80mE\u001b[48;5;68mn\u001b[48;5;134mcoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m \u001b[48;5;77mdef\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167min\u001b[48;5;179mi\u001b[48;5;185mt\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' re' + b't'\n", + "So we made b' ret' our 393th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m a\u001b[48;5;134mn\u001b[48;5;167m \u001b[48;5;179me\u001b[48;5;185md\u001b[48;5;77mu\u001b[48;5;80mc\u001b[48;5;68mat\u001b[48;5;134mion\u001b[48;5;167mal\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mle\u001b[48;5;80mm\u001b[48;5;68men\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185m o\u001b[48;5;77mf\u001b[48;5;80m the\u001b[48;5;68m b\u001b[48;5;134myte\u001b[48;5;167m pair\u001b[48;5;179m en\u001b[48;5;185mcoding\u001b[48;5;77m \u001b[48;5;80mal\u001b[48;5;68mg\u001b[48;5;134mor\u001b[48;5;167mi\u001b[48;5;179mt\u001b[48;5;185mh\u001b[48;5;77mm\u001b[48;5;80m.\u001b[48;5;68m\"\"\"\u001b[48;5;134m\n", + "\u001b[48;5;167mf\u001b[48;5;179mr\u001b[48;5;185mo\u001b[48;5;77mm\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167mf\u001b[48;5;179mut\u001b[48;5;185mu\u001b[48;5;77mre\u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m a\u001b[48;5;80mn\u001b[48;5;68mn\u001b[48;5;134mo\u001b[48;5;167mt\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mco\u001b[48;5;80ml\u001b[48;5;68mle\u001b[48;5;134mc\u001b[48;5;167mt\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mimp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mr\u001b[48;5;77mo\u001b[48;5;80mm\u001b[48;5;68m t\u001b[48;5;134my\u001b[48;5;167mp\u001b[48;5;179ming\u001b[48;5;185m i\u001b[48;5;77mmp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mO\u001b[48;5;179mp\u001b[48;5;185mt\u001b[48;5;77mion\u001b[48;5;80mal\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m re\u001b[48;5;80mge\u001b[48;5;68mx\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mimp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mc\u001b[48;5;68ml\u001b[48;5;134ma\u001b[48;5;167ms\u001b[48;5;179ms\u001b[48;5;185m \u001b[48;5;77mS\u001b[48;5;80mimp\u001b[48;5;68mle\u001b[48;5;134mB\u001b[48;5;167myte\u001b[48;5;179mP\u001b[48;5;185ma\u001b[48;5;77mir\u001b[48;5;80mE\u001b[48;5;68mn\u001b[48;5;134mcoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m \u001b[48;5;77mdef\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167min\u001b[48;5;179mi\u001b[48;5;185mt\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' ret' + b'urn'\n", + "So we made b' return' our 394th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m a\u001b[48;5;134mn\u001b[48;5;167m \u001b[48;5;179me\u001b[48;5;185md\u001b[48;5;77mu\u001b[48;5;80mc\u001b[48;5;68mat\u001b[48;5;134mion\u001b[48;5;167mal\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mle\u001b[48;5;80mm\u001b[48;5;68men\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185m o\u001b[48;5;77mf\u001b[48;5;80m the\u001b[48;5;68m b\u001b[48;5;134myte\u001b[48;5;167m pair\u001b[48;5;179m en\u001b[48;5;185mcoding\u001b[48;5;77m \u001b[48;5;80mal\u001b[48;5;68mg\u001b[48;5;134mor\u001b[48;5;167mi\u001b[48;5;179mt\u001b[48;5;185mh\u001b[48;5;77mm\u001b[48;5;80m.\u001b[48;5;68m\"\"\"\u001b[48;5;134m\n", + "\u001b[48;5;167mf\u001b[48;5;179mr\u001b[48;5;185mo\u001b[48;5;77mm\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167mf\u001b[48;5;179mut\u001b[48;5;185mu\u001b[48;5;77mre\u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m a\u001b[48;5;80mn\u001b[48;5;68mn\u001b[48;5;134mo\u001b[48;5;167mt\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mco\u001b[48;5;80ml\u001b[48;5;68mle\u001b[48;5;134mc\u001b[48;5;167mt\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mimp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mr\u001b[48;5;77mo\u001b[48;5;80mm\u001b[48;5;68m t\u001b[48;5;134my\u001b[48;5;167mp\u001b[48;5;179ming\u001b[48;5;185m i\u001b[48;5;77mmp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mO\u001b[48;5;179mp\u001b[48;5;185mt\u001b[48;5;77mion\u001b[48;5;80mal\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m re\u001b[48;5;80mge\u001b[48;5;68mx\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mimp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mc\u001b[48;5;68ml\u001b[48;5;134ma\u001b[48;5;167ms\u001b[48;5;179ms\u001b[48;5;185m \u001b[48;5;77mS\u001b[48;5;80mimp\u001b[48;5;68mle\u001b[48;5;134mB\u001b[48;5;167myte\u001b[48;5;179mP\u001b[48;5;185ma\u001b[48;5;77mir\u001b[48;5;80mE\u001b[48;5;68mn\u001b[48;5;134mcoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m \u001b[48;5;77mdef\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167min\u001b[48;5;179mi\u001b[48;5;185mt\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' ' + b'1'\n", + "So we made b' 1' our 395th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m a\u001b[48;5;134mn\u001b[48;5;167m \u001b[48;5;179me\u001b[48;5;185md\u001b[48;5;77mu\u001b[48;5;80mc\u001b[48;5;68mat\u001b[48;5;134mion\u001b[48;5;167mal\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mle\u001b[48;5;80mm\u001b[48;5;68men\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185m o\u001b[48;5;77mf\u001b[48;5;80m the\u001b[48;5;68m b\u001b[48;5;134myte\u001b[48;5;167m pair\u001b[48;5;179m en\u001b[48;5;185mcoding\u001b[48;5;77m \u001b[48;5;80mal\u001b[48;5;68mg\u001b[48;5;134mor\u001b[48;5;167mi\u001b[48;5;179mt\u001b[48;5;185mh\u001b[48;5;77mm\u001b[48;5;80m.\u001b[48;5;68m\"\"\"\u001b[48;5;134m\n", + "\u001b[48;5;167mf\u001b[48;5;179mr\u001b[48;5;185mo\u001b[48;5;77mm\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167mf\u001b[48;5;179mut\u001b[48;5;185mu\u001b[48;5;77mre\u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m a\u001b[48;5;80mn\u001b[48;5;68mn\u001b[48;5;134mo\u001b[48;5;167mt\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mco\u001b[48;5;80ml\u001b[48;5;68mle\u001b[48;5;134mc\u001b[48;5;167mt\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mimp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mr\u001b[48;5;77mo\u001b[48;5;80mm\u001b[48;5;68m t\u001b[48;5;134my\u001b[48;5;167mp\u001b[48;5;179ming\u001b[48;5;185m i\u001b[48;5;77mmp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mO\u001b[48;5;179mp\u001b[48;5;185mt\u001b[48;5;77mion\u001b[48;5;80mal\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m re\u001b[48;5;80mge\u001b[48;5;68mx\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mimp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mc\u001b[48;5;68ml\u001b[48;5;134ma\u001b[48;5;167ms\u001b[48;5;179ms\u001b[48;5;185m \u001b[48;5;77mS\u001b[48;5;80mimp\u001b[48;5;68mle\u001b[48;5;134mB\u001b[48;5;167myte\u001b[48;5;179mP\u001b[48;5;185ma\u001b[48;5;77mir\u001b[48;5;80mE\u001b[48;5;68mn\u001b[48;5;134mcoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m \u001b[48;5;77mdef\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167min\u001b[48;5;179mi\u001b[48;5;185mt\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' o' + b'ur'\n", + "So we made b' our' our 396th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m a\u001b[48;5;134mn\u001b[48;5;167m \u001b[48;5;179me\u001b[48;5;185md\u001b[48;5;77mu\u001b[48;5;80mc\u001b[48;5;68mat\u001b[48;5;134mion\u001b[48;5;167mal\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mle\u001b[48;5;80mm\u001b[48;5;68men\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185m o\u001b[48;5;77mf\u001b[48;5;80m the\u001b[48;5;68m b\u001b[48;5;134myte\u001b[48;5;167m pair\u001b[48;5;179m en\u001b[48;5;185mcoding\u001b[48;5;77m \u001b[48;5;80mal\u001b[48;5;68mg\u001b[48;5;134mor\u001b[48;5;167mi\u001b[48;5;179mt\u001b[48;5;185mh\u001b[48;5;77mm\u001b[48;5;80m.\u001b[48;5;68m\"\"\"\u001b[48;5;134m\n", + "\u001b[48;5;167mf\u001b[48;5;179mr\u001b[48;5;185mo\u001b[48;5;77mm\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167mf\u001b[48;5;179mut\u001b[48;5;185mu\u001b[48;5;77mre\u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m a\u001b[48;5;80mn\u001b[48;5;68mn\u001b[48;5;134mo\u001b[48;5;167mt\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mco\u001b[48;5;80ml\u001b[48;5;68mle\u001b[48;5;134mc\u001b[48;5;167mt\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mimp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mr\u001b[48;5;77mo\u001b[48;5;80mm\u001b[48;5;68m t\u001b[48;5;134my\u001b[48;5;167mp\u001b[48;5;179ming\u001b[48;5;185m i\u001b[48;5;77mmp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mO\u001b[48;5;179mp\u001b[48;5;185mt\u001b[48;5;77mion\u001b[48;5;80mal\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m re\u001b[48;5;80mge\u001b[48;5;68mx\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mimp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mc\u001b[48;5;68ml\u001b[48;5;134ma\u001b[48;5;167ms\u001b[48;5;179ms\u001b[48;5;185m \u001b[48;5;77mS\u001b[48;5;80mimp\u001b[48;5;68mle\u001b[48;5;134mB\u001b[48;5;167myte\u001b[48;5;179mP\u001b[48;5;185ma\u001b[48;5;77mir\u001b[48;5;80mE\u001b[48;5;68mn\u001b[48;5;134mcoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m \u001b[48;5;77mdef\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167min\u001b[48;5;179mi\u001b[48;5;185mt\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'com' + b'm'\n", + "So we made b'comm' our 397th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m a\u001b[48;5;134mn\u001b[48;5;167m \u001b[48;5;179me\u001b[48;5;185md\u001b[48;5;77mu\u001b[48;5;80mc\u001b[48;5;68mat\u001b[48;5;134mion\u001b[48;5;167mal\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mle\u001b[48;5;80mm\u001b[48;5;68men\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185m o\u001b[48;5;77mf\u001b[48;5;80m the\u001b[48;5;68m b\u001b[48;5;134myte\u001b[48;5;167m pair\u001b[48;5;179m en\u001b[48;5;185mcoding\u001b[48;5;77m \u001b[48;5;80mal\u001b[48;5;68mg\u001b[48;5;134mor\u001b[48;5;167mi\u001b[48;5;179mt\u001b[48;5;185mh\u001b[48;5;77mm\u001b[48;5;80m.\u001b[48;5;68m\"\"\"\u001b[48;5;134m\n", + "\u001b[48;5;167mf\u001b[48;5;179mr\u001b[48;5;185mo\u001b[48;5;77mm\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167mf\u001b[48;5;179mut\u001b[48;5;185mu\u001b[48;5;77mre\u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m a\u001b[48;5;80mn\u001b[48;5;68mn\u001b[48;5;134mo\u001b[48;5;167mt\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mco\u001b[48;5;80ml\u001b[48;5;68mle\u001b[48;5;134mc\u001b[48;5;167mt\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mimp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mr\u001b[48;5;77mo\u001b[48;5;80mm\u001b[48;5;68m t\u001b[48;5;134my\u001b[48;5;167mp\u001b[48;5;179ming\u001b[48;5;185m i\u001b[48;5;77mmp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mO\u001b[48;5;179mp\u001b[48;5;185mt\u001b[48;5;77mion\u001b[48;5;80mal\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m re\u001b[48;5;80mge\u001b[48;5;68mx\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mimp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mc\u001b[48;5;68ml\u001b[48;5;134ma\u001b[48;5;167ms\u001b[48;5;179ms\u001b[48;5;185m \u001b[48;5;77mS\u001b[48;5;80mimp\u001b[48;5;68mle\u001b[48;5;134mB\u001b[48;5;167myte\u001b[48;5;179mP\u001b[48;5;185ma\u001b[48;5;77mir\u001b[48;5;80mE\u001b[48;5;68mn\u001b[48;5;134mcoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m \u001b[48;5;77mdef\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167min\u001b[48;5;179mi\u001b[48;5;185mt\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'comm' + b'on'\n", + "So we made b'common' our 398th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m a\u001b[48;5;134mn\u001b[48;5;167m \u001b[48;5;179me\u001b[48;5;185md\u001b[48;5;77mu\u001b[48;5;80mc\u001b[48;5;68mat\u001b[48;5;134mion\u001b[48;5;167mal\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mle\u001b[48;5;80mm\u001b[48;5;68men\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185m o\u001b[48;5;77mf\u001b[48;5;80m the\u001b[48;5;68m b\u001b[48;5;134myte\u001b[48;5;167m pair\u001b[48;5;179m en\u001b[48;5;185mcoding\u001b[48;5;77m \u001b[48;5;80mal\u001b[48;5;68mg\u001b[48;5;134mor\u001b[48;5;167mi\u001b[48;5;179mt\u001b[48;5;185mh\u001b[48;5;77mm\u001b[48;5;80m.\u001b[48;5;68m\"\"\"\u001b[48;5;134m\n", + "\u001b[48;5;167mf\u001b[48;5;179mr\u001b[48;5;185mo\u001b[48;5;77mm\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167mf\u001b[48;5;179mut\u001b[48;5;185mu\u001b[48;5;77mre\u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m a\u001b[48;5;80mn\u001b[48;5;68mn\u001b[48;5;134mo\u001b[48;5;167mt\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mco\u001b[48;5;80ml\u001b[48;5;68mle\u001b[48;5;134mc\u001b[48;5;167mt\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mimp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mr\u001b[48;5;77mo\u001b[48;5;80mm\u001b[48;5;68m t\u001b[48;5;134my\u001b[48;5;167mp\u001b[48;5;179ming\u001b[48;5;185m i\u001b[48;5;77mmp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mO\u001b[48;5;179mp\u001b[48;5;185mt\u001b[48;5;77mion\u001b[48;5;80mal\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m re\u001b[48;5;80mge\u001b[48;5;68mx\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mimp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mc\u001b[48;5;68ml\u001b[48;5;134ma\u001b[48;5;167ms\u001b[48;5;179ms\u001b[48;5;185m \u001b[48;5;77mS\u001b[48;5;80mimp\u001b[48;5;68mle\u001b[48;5;134mB\u001b[48;5;167myte\u001b[48;5;179mP\u001b[48;5;185ma\u001b[48;5;77mir\u001b[48;5;80mE\u001b[48;5;68mn\u001b[48;5;134mcoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m \u001b[48;5;77mdef\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167min\u001b[48;5;179mi\u001b[48;5;185mt\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' ne' + b'w'\n", + "So we made b' new' our 399th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m a\u001b[48;5;134mn\u001b[48;5;167m \u001b[48;5;179me\u001b[48;5;185md\u001b[48;5;77mu\u001b[48;5;80mc\u001b[48;5;68mat\u001b[48;5;134mion\u001b[48;5;167mal\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mle\u001b[48;5;80mm\u001b[48;5;68men\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185m o\u001b[48;5;77mf\u001b[48;5;80m the\u001b[48;5;68m b\u001b[48;5;134myte\u001b[48;5;167m pair\u001b[48;5;179m en\u001b[48;5;185mcoding\u001b[48;5;77m \u001b[48;5;80mal\u001b[48;5;68mg\u001b[48;5;134mor\u001b[48;5;167mi\u001b[48;5;179mt\u001b[48;5;185mh\u001b[48;5;77mm\u001b[48;5;80m.\u001b[48;5;68m\"\"\"\u001b[48;5;134m\n", + "\u001b[48;5;167mf\u001b[48;5;179mr\u001b[48;5;185mo\u001b[48;5;77mm\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167mf\u001b[48;5;179mut\u001b[48;5;185mu\u001b[48;5;77mre\u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m a\u001b[48;5;80mn\u001b[48;5;68mn\u001b[48;5;134mo\u001b[48;5;167mt\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mco\u001b[48;5;80ml\u001b[48;5;68mle\u001b[48;5;134mc\u001b[48;5;167mt\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mimp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mr\u001b[48;5;77mo\u001b[48;5;80mm\u001b[48;5;68m t\u001b[48;5;134my\u001b[48;5;167mp\u001b[48;5;179ming\u001b[48;5;185m i\u001b[48;5;77mmp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mO\u001b[48;5;179mp\u001b[48;5;185mt\u001b[48;5;77mion\u001b[48;5;80mal\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m re\u001b[48;5;80mge\u001b[48;5;68mx\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mimp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mc\u001b[48;5;68ml\u001b[48;5;134ma\u001b[48;5;167ms\u001b[48;5;179ms\u001b[48;5;185m \u001b[48;5;77mS\u001b[48;5;80mimp\u001b[48;5;68mle\u001b[48;5;134mB\u001b[48;5;167myte\u001b[48;5;179mP\u001b[48;5;185ma\u001b[48;5;77mir\u001b[48;5;80mE\u001b[48;5;68mn\u001b[48;5;134mcoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m \u001b[48;5;77mdef\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167min\u001b[48;5;179mi\u001b[48;5;185mt\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'i' + b't'\n", + "So we made b'it' our 400th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m a\u001b[48;5;134mn\u001b[48;5;167m \u001b[48;5;179me\u001b[48;5;185md\u001b[48;5;77mu\u001b[48;5;80mc\u001b[48;5;68mat\u001b[48;5;134mion\u001b[48;5;167mal\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mle\u001b[48;5;80mm\u001b[48;5;68men\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185m o\u001b[48;5;77mf\u001b[48;5;80m the\u001b[48;5;68m b\u001b[48;5;134myte\u001b[48;5;167m pair\u001b[48;5;179m en\u001b[48;5;185mcoding\u001b[48;5;77m \u001b[48;5;80mal\u001b[48;5;68mg\u001b[48;5;134mor\u001b[48;5;167mit\u001b[48;5;179mh\u001b[48;5;185mm\u001b[48;5;77m.\u001b[48;5;80m\"\"\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mr\u001b[48;5;179mo\u001b[48;5;185mm\u001b[48;5;77m \u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134mf\u001b[48;5;167mut\u001b[48;5;179mu\u001b[48;5;185mre\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m a\u001b[48;5;77mn\u001b[48;5;80mn\u001b[48;5;68mo\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mco\u001b[48;5;77ml\u001b[48;5;80mle\u001b[48;5;68mc\u001b[48;5;134mt\u001b[48;5;167mion\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mimp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m i\u001b[48;5;167mte\u001b[48;5;179mrt\u001b[48;5;185mo\u001b[48;5;77mo\u001b[48;5;80ml\u001b[48;5;68ms\u001b[48;5;134m\n", + "\u001b[48;5;167mf\u001b[48;5;179mr\u001b[48;5;185mo\u001b[48;5;77mm\u001b[48;5;80m t\u001b[48;5;68my\u001b[48;5;134mp\u001b[48;5;167ming\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m \u001b[48;5;134mO\u001b[48;5;167mp\u001b[48;5;179mt\u001b[48;5;185mion\u001b[48;5;77mal\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m re\u001b[48;5;77mge\u001b[48;5;80mx\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m t\u001b[48;5;80mi\u001b[48;5;68mk\u001b[48;5;134mtoken\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mc\u001b[48;5;80ml\u001b[48;5;68ma\u001b[48;5;134ms\u001b[48;5;167ms\u001b[48;5;179m \u001b[48;5;185mS\u001b[48;5;77mimp\u001b[48;5;80mle\u001b[48;5;68mB\u001b[48;5;134myte\u001b[48;5;167mP\u001b[48;5;179ma\u001b[48;5;185mir\u001b[48;5;77mE\u001b[48;5;80mn\u001b[48;5;68mcoding\u001b[48;5;134m:\u001b[48;5;167m\n", + " \u001b[48;5;179m \u001b[48;5;185mdef\u001b[48;5;77m \u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134min\u001b[48;5;167mit\u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'c' + b't'\n", + "So we made b'ct' our 401th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m a\u001b[48;5;134mn\u001b[48;5;167m \u001b[48;5;179me\u001b[48;5;185md\u001b[48;5;77mu\u001b[48;5;80mc\u001b[48;5;68mat\u001b[48;5;134mion\u001b[48;5;167mal\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mle\u001b[48;5;80mm\u001b[48;5;68men\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185m o\u001b[48;5;77mf\u001b[48;5;80m the\u001b[48;5;68m b\u001b[48;5;134myte\u001b[48;5;167m pair\u001b[48;5;179m en\u001b[48;5;185mcoding\u001b[48;5;77m \u001b[48;5;80mal\u001b[48;5;68mg\u001b[48;5;134mor\u001b[48;5;167mit\u001b[48;5;179mh\u001b[48;5;185mm\u001b[48;5;77m.\u001b[48;5;80m\"\"\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mr\u001b[48;5;179mo\u001b[48;5;185mm\u001b[48;5;77m \u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134mf\u001b[48;5;167mut\u001b[48;5;179mu\u001b[48;5;185mre\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m a\u001b[48;5;77mn\u001b[48;5;80mn\u001b[48;5;68mo\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mco\u001b[48;5;77ml\u001b[48;5;80mle\u001b[48;5;68mct\u001b[48;5;134mion\u001b[48;5;167ms\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m i\u001b[48;5;134mte\u001b[48;5;167mrt\u001b[48;5;179mo\u001b[48;5;185mo\u001b[48;5;77ml\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mr\u001b[48;5;179mo\u001b[48;5;185mm\u001b[48;5;77m t\u001b[48;5;80my\u001b[48;5;68mp\u001b[48;5;134ming\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m \u001b[48;5;68mO\u001b[48;5;134mp\u001b[48;5;167mt\u001b[48;5;179mion\u001b[48;5;185mal\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m re\u001b[48;5;185mge\u001b[48;5;77mx\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m t\u001b[48;5;77mi\u001b[48;5;80mk\u001b[48;5;68mtoken\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mc\u001b[48;5;77ml\u001b[48;5;80ma\u001b[48;5;68ms\u001b[48;5;134ms\u001b[48;5;167m \u001b[48;5;179mS\u001b[48;5;185mimp\u001b[48;5;77mle\u001b[48;5;80mB\u001b[48;5;68myte\u001b[48;5;134mP\u001b[48;5;167ma\u001b[48;5;179mir\u001b[48;5;185mE\u001b[48;5;77mn\u001b[48;5;80mcoding\u001b[48;5;68m:\u001b[48;5;134m\n", + " \u001b[48;5;167m \u001b[48;5;179mdef\u001b[48;5;185m \u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68min\u001b[48;5;134mit\u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' pa' + b't'\n", + "So we made b' pat' our 402th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m a\u001b[48;5;134mn\u001b[48;5;167m \u001b[48;5;179me\u001b[48;5;185md\u001b[48;5;77mu\u001b[48;5;80mc\u001b[48;5;68mat\u001b[48;5;134mion\u001b[48;5;167mal\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mle\u001b[48;5;80mm\u001b[48;5;68men\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185m o\u001b[48;5;77mf\u001b[48;5;80m the\u001b[48;5;68m b\u001b[48;5;134myte\u001b[48;5;167m pair\u001b[48;5;179m en\u001b[48;5;185mcoding\u001b[48;5;77m \u001b[48;5;80mal\u001b[48;5;68mg\u001b[48;5;134mor\u001b[48;5;167mit\u001b[48;5;179mh\u001b[48;5;185mm\u001b[48;5;77m.\u001b[48;5;80m\"\"\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mr\u001b[48;5;179mo\u001b[48;5;185mm\u001b[48;5;77m \u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134mf\u001b[48;5;167mut\u001b[48;5;179mu\u001b[48;5;185mre\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m a\u001b[48;5;77mn\u001b[48;5;80mn\u001b[48;5;68mo\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mco\u001b[48;5;77ml\u001b[48;5;80mle\u001b[48;5;68mct\u001b[48;5;134mion\u001b[48;5;167ms\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m i\u001b[48;5;134mte\u001b[48;5;167mrt\u001b[48;5;179mo\u001b[48;5;185mo\u001b[48;5;77ml\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mr\u001b[48;5;179mo\u001b[48;5;185mm\u001b[48;5;77m t\u001b[48;5;80my\u001b[48;5;68mp\u001b[48;5;134ming\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m \u001b[48;5;68mO\u001b[48;5;134mp\u001b[48;5;167mt\u001b[48;5;179mion\u001b[48;5;185mal\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m re\u001b[48;5;185mge\u001b[48;5;77mx\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m t\u001b[48;5;77mi\u001b[48;5;80mk\u001b[48;5;68mtoken\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mc\u001b[48;5;77ml\u001b[48;5;80ma\u001b[48;5;68ms\u001b[48;5;134ms\u001b[48;5;167m \u001b[48;5;179mS\u001b[48;5;185mimp\u001b[48;5;77mle\u001b[48;5;80mB\u001b[48;5;68myte\u001b[48;5;134mP\u001b[48;5;167ma\u001b[48;5;179mir\u001b[48;5;185mE\u001b[48;5;77mn\u001b[48;5;80mcoding\u001b[48;5;68m:\u001b[48;5;134m\n", + " \u001b[48;5;167m \u001b[48;5;179mdef\u001b[48;5;185m \u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68min\u001b[48;5;134mit\u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' merge' + b'able'\n", + "So we made b' mergeable' our 403th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m a\u001b[48;5;134mn\u001b[48;5;167m \u001b[48;5;179me\u001b[48;5;185md\u001b[48;5;77mu\u001b[48;5;80mc\u001b[48;5;68mat\u001b[48;5;134mion\u001b[48;5;167mal\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mle\u001b[48;5;80mm\u001b[48;5;68men\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185m o\u001b[48;5;77mf\u001b[48;5;80m the\u001b[48;5;68m b\u001b[48;5;134myte\u001b[48;5;167m pair\u001b[48;5;179m en\u001b[48;5;185mcoding\u001b[48;5;77m \u001b[48;5;80mal\u001b[48;5;68mg\u001b[48;5;134mor\u001b[48;5;167mit\u001b[48;5;179mh\u001b[48;5;185mm\u001b[48;5;77m.\u001b[48;5;80m\"\"\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mr\u001b[48;5;179mo\u001b[48;5;185mm\u001b[48;5;77m \u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134mf\u001b[48;5;167mut\u001b[48;5;179mu\u001b[48;5;185mre\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m a\u001b[48;5;77mn\u001b[48;5;80mn\u001b[48;5;68mo\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mco\u001b[48;5;77ml\u001b[48;5;80mle\u001b[48;5;68mct\u001b[48;5;134mion\u001b[48;5;167ms\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m i\u001b[48;5;134mte\u001b[48;5;167mrt\u001b[48;5;179mo\u001b[48;5;185mo\u001b[48;5;77ml\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mr\u001b[48;5;179mo\u001b[48;5;185mm\u001b[48;5;77m t\u001b[48;5;80my\u001b[48;5;68mp\u001b[48;5;134ming\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m \u001b[48;5;68mO\u001b[48;5;134mp\u001b[48;5;167mt\u001b[48;5;179mion\u001b[48;5;185mal\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m re\u001b[48;5;185mge\u001b[48;5;77mx\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m t\u001b[48;5;77mi\u001b[48;5;80mk\u001b[48;5;68mtoken\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mc\u001b[48;5;77ml\u001b[48;5;80ma\u001b[48;5;68ms\u001b[48;5;134ms\u001b[48;5;167m \u001b[48;5;179mS\u001b[48;5;185mimp\u001b[48;5;77mle\u001b[48;5;80mB\u001b[48;5;68myte\u001b[48;5;134mP\u001b[48;5;167ma\u001b[48;5;179mir\u001b[48;5;185mE\u001b[48;5;77mn\u001b[48;5;80mcoding\u001b[48;5;68m:\u001b[48;5;134m\n", + " \u001b[48;5;167m \u001b[48;5;179mdef\u001b[48;5;185m \u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68min\u001b[48;5;134mit\u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' -' + b'>'\n", + "So we made b' ->' our 404th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m a\u001b[48;5;134mn\u001b[48;5;167m \u001b[48;5;179me\u001b[48;5;185md\u001b[48;5;77mu\u001b[48;5;80mc\u001b[48;5;68mat\u001b[48;5;134mion\u001b[48;5;167mal\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mle\u001b[48;5;80mm\u001b[48;5;68men\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185m o\u001b[48;5;77mf\u001b[48;5;80m the\u001b[48;5;68m b\u001b[48;5;134myte\u001b[48;5;167m pair\u001b[48;5;179m en\u001b[48;5;185mcoding\u001b[48;5;77m \u001b[48;5;80mal\u001b[48;5;68mg\u001b[48;5;134mor\u001b[48;5;167mit\u001b[48;5;179mh\u001b[48;5;185mm\u001b[48;5;77m.\u001b[48;5;80m\"\"\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mr\u001b[48;5;179mo\u001b[48;5;185mm\u001b[48;5;77m \u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134mf\u001b[48;5;167mut\u001b[48;5;179mu\u001b[48;5;185mre\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m a\u001b[48;5;77mn\u001b[48;5;80mn\u001b[48;5;68mo\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mco\u001b[48;5;77ml\u001b[48;5;80mle\u001b[48;5;68mct\u001b[48;5;134mion\u001b[48;5;167ms\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m i\u001b[48;5;134mte\u001b[48;5;167mrt\u001b[48;5;179mo\u001b[48;5;185mo\u001b[48;5;77ml\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mr\u001b[48;5;179mo\u001b[48;5;185mm\u001b[48;5;77m t\u001b[48;5;80my\u001b[48;5;68mp\u001b[48;5;134ming\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m \u001b[48;5;68mO\u001b[48;5;134mp\u001b[48;5;167mt\u001b[48;5;179mion\u001b[48;5;185mal\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m re\u001b[48;5;185mge\u001b[48;5;77mx\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m t\u001b[48;5;77mi\u001b[48;5;80mk\u001b[48;5;68mtoken\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mc\u001b[48;5;77ml\u001b[48;5;80ma\u001b[48;5;68ms\u001b[48;5;134ms\u001b[48;5;167m \u001b[48;5;179mS\u001b[48;5;185mimp\u001b[48;5;77mle\u001b[48;5;80mB\u001b[48;5;68myte\u001b[48;5;134mP\u001b[48;5;167ma\u001b[48;5;179mir\u001b[48;5;185mE\u001b[48;5;77mn\u001b[48;5;80mcoding\u001b[48;5;68m:\u001b[48;5;134m\n", + " \u001b[48;5;167m \u001b[48;5;179mdef\u001b[48;5;185m \u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68min\u001b[48;5;134mit\u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' N' + b'one'\n", + "So we made b' None' our 405th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m a\u001b[48;5;134mn\u001b[48;5;167m \u001b[48;5;179me\u001b[48;5;185md\u001b[48;5;77mu\u001b[48;5;80mc\u001b[48;5;68mat\u001b[48;5;134mion\u001b[48;5;167mal\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mle\u001b[48;5;80mm\u001b[48;5;68men\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185m o\u001b[48;5;77mf\u001b[48;5;80m the\u001b[48;5;68m b\u001b[48;5;134myte\u001b[48;5;167m pair\u001b[48;5;179m en\u001b[48;5;185mcoding\u001b[48;5;77m \u001b[48;5;80mal\u001b[48;5;68mg\u001b[48;5;134mor\u001b[48;5;167mit\u001b[48;5;179mh\u001b[48;5;185mm\u001b[48;5;77m.\u001b[48;5;80m\"\"\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mr\u001b[48;5;179mo\u001b[48;5;185mm\u001b[48;5;77m \u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134mf\u001b[48;5;167mut\u001b[48;5;179mu\u001b[48;5;185mre\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m a\u001b[48;5;77mn\u001b[48;5;80mn\u001b[48;5;68mo\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mco\u001b[48;5;77ml\u001b[48;5;80mle\u001b[48;5;68mct\u001b[48;5;134mion\u001b[48;5;167ms\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m i\u001b[48;5;134mte\u001b[48;5;167mrt\u001b[48;5;179mo\u001b[48;5;185mo\u001b[48;5;77ml\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mr\u001b[48;5;179mo\u001b[48;5;185mm\u001b[48;5;77m t\u001b[48;5;80my\u001b[48;5;68mp\u001b[48;5;134ming\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m \u001b[48;5;68mO\u001b[48;5;134mp\u001b[48;5;167mt\u001b[48;5;179mion\u001b[48;5;185mal\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m re\u001b[48;5;185mge\u001b[48;5;77mx\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m t\u001b[48;5;77mi\u001b[48;5;80mk\u001b[48;5;68mtoken\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mc\u001b[48;5;77ml\u001b[48;5;80ma\u001b[48;5;68ms\u001b[48;5;134ms\u001b[48;5;167m \u001b[48;5;179mS\u001b[48;5;185mimp\u001b[48;5;77mle\u001b[48;5;80mB\u001b[48;5;68myte\u001b[48;5;134mP\u001b[48;5;167ma\u001b[48;5;179mir\u001b[48;5;185mE\u001b[48;5;77mn\u001b[48;5;80mcoding\u001b[48;5;68m:\u001b[48;5;134m\n", + " \u001b[48;5;167m \u001b[48;5;179mdef\u001b[48;5;185m \u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68min\u001b[48;5;134mit\u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' int' + b'o'\n", + "So we made b' into' our 406th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m a\u001b[48;5;134mn\u001b[48;5;167m \u001b[48;5;179me\u001b[48;5;185md\u001b[48;5;77mu\u001b[48;5;80mc\u001b[48;5;68mat\u001b[48;5;134mion\u001b[48;5;167mal\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mle\u001b[48;5;80mm\u001b[48;5;68men\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185m o\u001b[48;5;77mf\u001b[48;5;80m the\u001b[48;5;68m b\u001b[48;5;134myte\u001b[48;5;167m pair\u001b[48;5;179m en\u001b[48;5;185mcoding\u001b[48;5;77m \u001b[48;5;80mal\u001b[48;5;68mg\u001b[48;5;134mor\u001b[48;5;167mit\u001b[48;5;179mh\u001b[48;5;185mm\u001b[48;5;77m.\u001b[48;5;80m\"\"\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mr\u001b[48;5;179mo\u001b[48;5;185mm\u001b[48;5;77m \u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134mf\u001b[48;5;167mut\u001b[48;5;179mu\u001b[48;5;185mre\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m a\u001b[48;5;77mn\u001b[48;5;80mn\u001b[48;5;68mo\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mco\u001b[48;5;77ml\u001b[48;5;80mle\u001b[48;5;68mct\u001b[48;5;134mion\u001b[48;5;167ms\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m i\u001b[48;5;134mte\u001b[48;5;167mrt\u001b[48;5;179mo\u001b[48;5;185mo\u001b[48;5;77ml\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mr\u001b[48;5;179mo\u001b[48;5;185mm\u001b[48;5;77m t\u001b[48;5;80my\u001b[48;5;68mp\u001b[48;5;134ming\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m \u001b[48;5;68mO\u001b[48;5;134mp\u001b[48;5;167mt\u001b[48;5;179mion\u001b[48;5;185mal\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m re\u001b[48;5;185mge\u001b[48;5;77mx\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m t\u001b[48;5;77mi\u001b[48;5;80mk\u001b[48;5;68mtoken\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mc\u001b[48;5;77ml\u001b[48;5;80ma\u001b[48;5;68ms\u001b[48;5;134ms\u001b[48;5;167m \u001b[48;5;179mS\u001b[48;5;185mimp\u001b[48;5;77mle\u001b[48;5;80mB\u001b[48;5;68myte\u001b[48;5;134mP\u001b[48;5;167ma\u001b[48;5;179mir\u001b[48;5;185mE\u001b[48;5;77mn\u001b[48;5;80mcoding\u001b[48;5;68m:\u001b[48;5;134m\n", + " \u001b[48;5;167m \u001b[48;5;179mdef\u001b[48;5;185m \u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68min\u001b[48;5;134mit\u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'>' + b'>'\n", + "So we made b'>>' our 407th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m a\u001b[48;5;134mn\u001b[48;5;167m \u001b[48;5;179me\u001b[48;5;185md\u001b[48;5;77mu\u001b[48;5;80mc\u001b[48;5;68mat\u001b[48;5;134mion\u001b[48;5;167mal\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mle\u001b[48;5;80mm\u001b[48;5;68men\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185m o\u001b[48;5;77mf\u001b[48;5;80m the\u001b[48;5;68m b\u001b[48;5;134myte\u001b[48;5;167m pair\u001b[48;5;179m en\u001b[48;5;185mcoding\u001b[48;5;77m \u001b[48;5;80mal\u001b[48;5;68mg\u001b[48;5;134mor\u001b[48;5;167mit\u001b[48;5;179mh\u001b[48;5;185mm\u001b[48;5;77m.\u001b[48;5;80m\"\"\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mr\u001b[48;5;179mo\u001b[48;5;185mm\u001b[48;5;77m \u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134mf\u001b[48;5;167mut\u001b[48;5;179mu\u001b[48;5;185mre\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m a\u001b[48;5;77mn\u001b[48;5;80mn\u001b[48;5;68mo\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mco\u001b[48;5;77ml\u001b[48;5;80mle\u001b[48;5;68mct\u001b[48;5;134mion\u001b[48;5;167ms\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m i\u001b[48;5;134mte\u001b[48;5;167mrt\u001b[48;5;179mo\u001b[48;5;185mo\u001b[48;5;77ml\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mr\u001b[48;5;179mo\u001b[48;5;185mm\u001b[48;5;77m t\u001b[48;5;80my\u001b[48;5;68mp\u001b[48;5;134ming\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m \u001b[48;5;68mO\u001b[48;5;134mp\u001b[48;5;167mt\u001b[48;5;179mion\u001b[48;5;185mal\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m re\u001b[48;5;185mge\u001b[48;5;77mx\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m t\u001b[48;5;77mi\u001b[48;5;80mk\u001b[48;5;68mtoken\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mc\u001b[48;5;77ml\u001b[48;5;80ma\u001b[48;5;68ms\u001b[48;5;134ms\u001b[48;5;167m \u001b[48;5;179mS\u001b[48;5;185mimp\u001b[48;5;77mle\u001b[48;5;80mB\u001b[48;5;68myte\u001b[48;5;134mP\u001b[48;5;167ma\u001b[48;5;179mir\u001b[48;5;185mE\u001b[48;5;77mn\u001b[48;5;80mcoding\u001b[48;5;68m:\u001b[48;5;134m\n", + " \u001b[48;5;167m \u001b[48;5;179mdef\u001b[48;5;185m \u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68min\u001b[48;5;134mit\u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'en' + b'code'\n", + "So we made b'encode' our 408th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m a\u001b[48;5;134mn\u001b[48;5;167m \u001b[48;5;179me\u001b[48;5;185md\u001b[48;5;77mu\u001b[48;5;80mc\u001b[48;5;68mat\u001b[48;5;134mion\u001b[48;5;167mal\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mle\u001b[48;5;80mm\u001b[48;5;68men\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185m o\u001b[48;5;77mf\u001b[48;5;80m the\u001b[48;5;68m b\u001b[48;5;134myte\u001b[48;5;167m pair\u001b[48;5;179m en\u001b[48;5;185mcoding\u001b[48;5;77m \u001b[48;5;80mal\u001b[48;5;68mg\u001b[48;5;134mor\u001b[48;5;167mit\u001b[48;5;179mh\u001b[48;5;185mm\u001b[48;5;77m.\u001b[48;5;80m\"\"\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mr\u001b[48;5;179mo\u001b[48;5;185mm\u001b[48;5;77m \u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134mf\u001b[48;5;167mut\u001b[48;5;179mu\u001b[48;5;185mre\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m a\u001b[48;5;77mn\u001b[48;5;80mn\u001b[48;5;68mo\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mco\u001b[48;5;77ml\u001b[48;5;80mle\u001b[48;5;68mct\u001b[48;5;134mion\u001b[48;5;167ms\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m i\u001b[48;5;134mte\u001b[48;5;167mrt\u001b[48;5;179mo\u001b[48;5;185mo\u001b[48;5;77ml\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mr\u001b[48;5;179mo\u001b[48;5;185mm\u001b[48;5;77m t\u001b[48;5;80my\u001b[48;5;68mp\u001b[48;5;134ming\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m \u001b[48;5;68mO\u001b[48;5;134mp\u001b[48;5;167mt\u001b[48;5;179mion\u001b[48;5;185mal\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m re\u001b[48;5;185mge\u001b[48;5;77mx\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m t\u001b[48;5;77mi\u001b[48;5;80mk\u001b[48;5;68mtoken\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mc\u001b[48;5;77ml\u001b[48;5;80ma\u001b[48;5;68ms\u001b[48;5;134ms\u001b[48;5;167m \u001b[48;5;179mS\u001b[48;5;185mimp\u001b[48;5;77mle\u001b[48;5;80mB\u001b[48;5;68myte\u001b[48;5;134mP\u001b[48;5;167ma\u001b[48;5;179mir\u001b[48;5;185mE\u001b[48;5;77mn\u001b[48;5;80mcoding\u001b[48;5;68m:\u001b[48;5;134m\n", + " \u001b[48;5;167m \u001b[48;5;179mdef\u001b[48;5;185m \u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68min\u001b[48;5;134mit\u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'c' + b'e'\n", + "So we made b'ce' our 409th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m a\u001b[48;5;134mn\u001b[48;5;167m \u001b[48;5;179me\u001b[48;5;185md\u001b[48;5;77mu\u001b[48;5;80mc\u001b[48;5;68mat\u001b[48;5;134mion\u001b[48;5;167mal\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mle\u001b[48;5;80mm\u001b[48;5;68men\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185m o\u001b[48;5;77mf\u001b[48;5;80m the\u001b[48;5;68m b\u001b[48;5;134myte\u001b[48;5;167m pair\u001b[48;5;179m en\u001b[48;5;185mcoding\u001b[48;5;77m \u001b[48;5;80mal\u001b[48;5;68mg\u001b[48;5;134mor\u001b[48;5;167mit\u001b[48;5;179mh\u001b[48;5;185mm\u001b[48;5;77m.\u001b[48;5;80m\"\"\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mr\u001b[48;5;179mo\u001b[48;5;185mm\u001b[48;5;77m \u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134mf\u001b[48;5;167mut\u001b[48;5;179mu\u001b[48;5;185mre\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m a\u001b[48;5;77mn\u001b[48;5;80mn\u001b[48;5;68mo\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mco\u001b[48;5;77ml\u001b[48;5;80mle\u001b[48;5;68mct\u001b[48;5;134mion\u001b[48;5;167ms\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m i\u001b[48;5;134mte\u001b[48;5;167mrt\u001b[48;5;179mo\u001b[48;5;185mo\u001b[48;5;77ml\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mr\u001b[48;5;179mo\u001b[48;5;185mm\u001b[48;5;77m t\u001b[48;5;80my\u001b[48;5;68mp\u001b[48;5;134ming\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m \u001b[48;5;68mO\u001b[48;5;134mp\u001b[48;5;167mt\u001b[48;5;179mion\u001b[48;5;185mal\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m re\u001b[48;5;185mge\u001b[48;5;77mx\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m t\u001b[48;5;77mi\u001b[48;5;80mk\u001b[48;5;68mtoken\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mc\u001b[48;5;77ml\u001b[48;5;80ma\u001b[48;5;68ms\u001b[48;5;134ms\u001b[48;5;167m \u001b[48;5;179mS\u001b[48;5;185mimp\u001b[48;5;77mle\u001b[48;5;80mB\u001b[48;5;68myte\u001b[48;5;134mP\u001b[48;5;167ma\u001b[48;5;179mir\u001b[48;5;185mE\u001b[48;5;77mn\u001b[48;5;80mcoding\u001b[48;5;68m:\u001b[48;5;134m\n", + " \u001b[48;5;167m \u001b[48;5;179mdef\u001b[48;5;185m \u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68min\u001b[48;5;134mit\u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'o' + b'c'\n", + "So we made b'oc' our 410th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m a\u001b[48;5;134mn\u001b[48;5;167m \u001b[48;5;179me\u001b[48;5;185md\u001b[48;5;77mu\u001b[48;5;80mc\u001b[48;5;68mat\u001b[48;5;134mion\u001b[48;5;167mal\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mle\u001b[48;5;80mm\u001b[48;5;68men\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185m o\u001b[48;5;77mf\u001b[48;5;80m the\u001b[48;5;68m b\u001b[48;5;134myte\u001b[48;5;167m pair\u001b[48;5;179m en\u001b[48;5;185mcoding\u001b[48;5;77m \u001b[48;5;80mal\u001b[48;5;68mg\u001b[48;5;134mor\u001b[48;5;167mit\u001b[48;5;179mh\u001b[48;5;185mm\u001b[48;5;77m.\u001b[48;5;80m\"\"\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mr\u001b[48;5;179mo\u001b[48;5;185mm\u001b[48;5;77m \u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134mf\u001b[48;5;167mut\u001b[48;5;179mu\u001b[48;5;185mre\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m a\u001b[48;5;77mn\u001b[48;5;80mn\u001b[48;5;68mo\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mco\u001b[48;5;77ml\u001b[48;5;80mle\u001b[48;5;68mct\u001b[48;5;134mion\u001b[48;5;167ms\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m i\u001b[48;5;134mte\u001b[48;5;167mrt\u001b[48;5;179mo\u001b[48;5;185mo\u001b[48;5;77ml\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mr\u001b[48;5;179mo\u001b[48;5;185mm\u001b[48;5;77m t\u001b[48;5;80my\u001b[48;5;68mp\u001b[48;5;134ming\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m \u001b[48;5;68mO\u001b[48;5;134mp\u001b[48;5;167mt\u001b[48;5;179mion\u001b[48;5;185mal\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m re\u001b[48;5;185mge\u001b[48;5;77mx\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m t\u001b[48;5;77mi\u001b[48;5;80mk\u001b[48;5;68mtoken\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mc\u001b[48;5;77ml\u001b[48;5;80ma\u001b[48;5;68ms\u001b[48;5;134ms\u001b[48;5;167m \u001b[48;5;179mS\u001b[48;5;185mimp\u001b[48;5;77mle\u001b[48;5;80mB\u001b[48;5;68myte\u001b[48;5;134mP\u001b[48;5;167ma\u001b[48;5;179mir\u001b[48;5;185mE\u001b[48;5;77mn\u001b[48;5;80mcoding\u001b[48;5;68m:\u001b[48;5;134m\n", + " \u001b[48;5;167m \u001b[48;5;179mdef\u001b[48;5;185m \u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68min\u001b[48;5;134mit\u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'oc' + b'ab'\n", + "So we made b'ocab' our 411th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m a\u001b[48;5;134mn\u001b[48;5;167m \u001b[48;5;179me\u001b[48;5;185md\u001b[48;5;77mu\u001b[48;5;80mc\u001b[48;5;68mat\u001b[48;5;134mion\u001b[48;5;167mal\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mle\u001b[48;5;80mm\u001b[48;5;68men\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185m o\u001b[48;5;77mf\u001b[48;5;80m the\u001b[48;5;68m b\u001b[48;5;134myte\u001b[48;5;167m pair\u001b[48;5;179m en\u001b[48;5;185mcoding\u001b[48;5;77m \u001b[48;5;80mal\u001b[48;5;68mg\u001b[48;5;134mor\u001b[48;5;167mit\u001b[48;5;179mh\u001b[48;5;185mm\u001b[48;5;77m.\u001b[48;5;80m\"\"\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mr\u001b[48;5;179mo\u001b[48;5;185mm\u001b[48;5;77m \u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134mf\u001b[48;5;167mut\u001b[48;5;179mu\u001b[48;5;185mre\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m a\u001b[48;5;77mn\u001b[48;5;80mn\u001b[48;5;68mo\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mco\u001b[48;5;77ml\u001b[48;5;80mle\u001b[48;5;68mct\u001b[48;5;134mion\u001b[48;5;167ms\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m i\u001b[48;5;134mte\u001b[48;5;167mrt\u001b[48;5;179mo\u001b[48;5;185mo\u001b[48;5;77ml\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mr\u001b[48;5;179mo\u001b[48;5;185mm\u001b[48;5;77m t\u001b[48;5;80my\u001b[48;5;68mp\u001b[48;5;134ming\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m \u001b[48;5;68mO\u001b[48;5;134mp\u001b[48;5;167mt\u001b[48;5;179mion\u001b[48;5;185mal\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m re\u001b[48;5;185mge\u001b[48;5;77mx\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m t\u001b[48;5;77mi\u001b[48;5;80mk\u001b[48;5;68mtoken\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mc\u001b[48;5;77ml\u001b[48;5;80ma\u001b[48;5;68ms\u001b[48;5;134ms\u001b[48;5;167m \u001b[48;5;179mS\u001b[48;5;185mimp\u001b[48;5;77mle\u001b[48;5;80mB\u001b[48;5;68myte\u001b[48;5;134mP\u001b[48;5;167ma\u001b[48;5;179mir\u001b[48;5;185mE\u001b[48;5;77mn\u001b[48;5;80mcoding\u001b[48;5;68m:\u001b[48;5;134m\n", + " \u001b[48;5;167m \u001b[48;5;179mdef\u001b[48;5;185m \u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68min\u001b[48;5;134mit\u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b's' + b'i'\n", + "So we made b'si' our 412th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m a\u001b[48;5;134mn\u001b[48;5;167m \u001b[48;5;179me\u001b[48;5;185md\u001b[48;5;77mu\u001b[48;5;80mc\u001b[48;5;68mat\u001b[48;5;134mion\u001b[48;5;167mal\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mle\u001b[48;5;80mm\u001b[48;5;68men\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185m o\u001b[48;5;77mf\u001b[48;5;80m the\u001b[48;5;68m b\u001b[48;5;134myte\u001b[48;5;167m pair\u001b[48;5;179m en\u001b[48;5;185mcoding\u001b[48;5;77m \u001b[48;5;80mal\u001b[48;5;68mg\u001b[48;5;134mor\u001b[48;5;167mit\u001b[48;5;179mh\u001b[48;5;185mm\u001b[48;5;77m.\u001b[48;5;80m\"\"\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mr\u001b[48;5;179mo\u001b[48;5;185mm\u001b[48;5;77m \u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134mf\u001b[48;5;167mut\u001b[48;5;179mu\u001b[48;5;185mre\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m a\u001b[48;5;77mn\u001b[48;5;80mn\u001b[48;5;68mo\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mco\u001b[48;5;77ml\u001b[48;5;80mle\u001b[48;5;68mct\u001b[48;5;134mion\u001b[48;5;167ms\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m i\u001b[48;5;134mte\u001b[48;5;167mrt\u001b[48;5;179mo\u001b[48;5;185mo\u001b[48;5;77ml\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mr\u001b[48;5;179mo\u001b[48;5;185mm\u001b[48;5;77m t\u001b[48;5;80my\u001b[48;5;68mp\u001b[48;5;134ming\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m \u001b[48;5;68mO\u001b[48;5;134mp\u001b[48;5;167mt\u001b[48;5;179mion\u001b[48;5;185mal\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m re\u001b[48;5;185mge\u001b[48;5;77mx\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m t\u001b[48;5;77mi\u001b[48;5;80mk\u001b[48;5;68mtoken\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mc\u001b[48;5;77ml\u001b[48;5;80ma\u001b[48;5;68ms\u001b[48;5;134ms\u001b[48;5;167m \u001b[48;5;179mS\u001b[48;5;185mimp\u001b[48;5;77mle\u001b[48;5;80mB\u001b[48;5;68myte\u001b[48;5;134mP\u001b[48;5;167ma\u001b[48;5;179mir\u001b[48;5;185mE\u001b[48;5;77mn\u001b[48;5;80mcoding\u001b[48;5;68m:\u001b[48;5;134m\n", + " \u001b[48;5;167m \u001b[48;5;179mdef\u001b[48;5;185m \u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68min\u001b[48;5;134mit\u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'si' + b'z'\n", + "So we made b'siz' our 413th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m a\u001b[48;5;134mn\u001b[48;5;167m \u001b[48;5;179me\u001b[48;5;185md\u001b[48;5;77mu\u001b[48;5;80mc\u001b[48;5;68mat\u001b[48;5;134mion\u001b[48;5;167mal\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mle\u001b[48;5;80mm\u001b[48;5;68men\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185m o\u001b[48;5;77mf\u001b[48;5;80m the\u001b[48;5;68m b\u001b[48;5;134myte\u001b[48;5;167m pair\u001b[48;5;179m en\u001b[48;5;185mcoding\u001b[48;5;77m \u001b[48;5;80mal\u001b[48;5;68mg\u001b[48;5;134mor\u001b[48;5;167mit\u001b[48;5;179mh\u001b[48;5;185mm\u001b[48;5;77m.\u001b[48;5;80m\"\"\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mr\u001b[48;5;179mo\u001b[48;5;185mm\u001b[48;5;77m \u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134mf\u001b[48;5;167mut\u001b[48;5;179mu\u001b[48;5;185mre\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m a\u001b[48;5;77mn\u001b[48;5;80mn\u001b[48;5;68mo\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mco\u001b[48;5;77ml\u001b[48;5;80mle\u001b[48;5;68mct\u001b[48;5;134mion\u001b[48;5;167ms\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m i\u001b[48;5;134mte\u001b[48;5;167mrt\u001b[48;5;179mo\u001b[48;5;185mo\u001b[48;5;77ml\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mr\u001b[48;5;179mo\u001b[48;5;185mm\u001b[48;5;77m t\u001b[48;5;80my\u001b[48;5;68mp\u001b[48;5;134ming\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m \u001b[48;5;68mO\u001b[48;5;134mp\u001b[48;5;167mt\u001b[48;5;179mion\u001b[48;5;185mal\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m re\u001b[48;5;185mge\u001b[48;5;77mx\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m t\u001b[48;5;77mi\u001b[48;5;80mk\u001b[48;5;68mtoken\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mc\u001b[48;5;77ml\u001b[48;5;80ma\u001b[48;5;68ms\u001b[48;5;134ms\u001b[48;5;167m \u001b[48;5;179mS\u001b[48;5;185mimp\u001b[48;5;77mle\u001b[48;5;80mB\u001b[48;5;68myte\u001b[48;5;134mP\u001b[48;5;167ma\u001b[48;5;179mir\u001b[48;5;185mE\u001b[48;5;77mn\u001b[48;5;80mcoding\u001b[48;5;68m:\u001b[48;5;134m\n", + " \u001b[48;5;167m \u001b[48;5;179mdef\u001b[48;5;185m \u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68min\u001b[48;5;134mit\u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'siz' + b'e'\n", + "So we made b'size' our 414th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m a\u001b[48;5;134mn\u001b[48;5;167m \u001b[48;5;179me\u001b[48;5;185md\u001b[48;5;77mu\u001b[48;5;80mc\u001b[48;5;68mat\u001b[48;5;134mion\u001b[48;5;167mal\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mle\u001b[48;5;80mm\u001b[48;5;68men\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185m o\u001b[48;5;77mf\u001b[48;5;80m the\u001b[48;5;68m b\u001b[48;5;134myte\u001b[48;5;167m pair\u001b[48;5;179m en\u001b[48;5;185mcoding\u001b[48;5;77m \u001b[48;5;80mal\u001b[48;5;68mg\u001b[48;5;134mor\u001b[48;5;167mit\u001b[48;5;179mh\u001b[48;5;185mm\u001b[48;5;77m.\u001b[48;5;80m\"\"\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mr\u001b[48;5;179mo\u001b[48;5;185mm\u001b[48;5;77m \u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134mf\u001b[48;5;167mut\u001b[48;5;179mu\u001b[48;5;185mre\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m a\u001b[48;5;77mn\u001b[48;5;80mn\u001b[48;5;68mo\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mco\u001b[48;5;77ml\u001b[48;5;80mle\u001b[48;5;68mct\u001b[48;5;134mion\u001b[48;5;167ms\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m i\u001b[48;5;134mte\u001b[48;5;167mrt\u001b[48;5;179mo\u001b[48;5;185mo\u001b[48;5;77ml\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mr\u001b[48;5;179mo\u001b[48;5;185mm\u001b[48;5;77m t\u001b[48;5;80my\u001b[48;5;68mp\u001b[48;5;134ming\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m \u001b[48;5;68mO\u001b[48;5;134mp\u001b[48;5;167mt\u001b[48;5;179mion\u001b[48;5;185mal\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m re\u001b[48;5;185mge\u001b[48;5;77mx\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m t\u001b[48;5;77mi\u001b[48;5;80mk\u001b[48;5;68mtoken\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mc\u001b[48;5;77ml\u001b[48;5;80ma\u001b[48;5;68ms\u001b[48;5;134ms\u001b[48;5;167m \u001b[48;5;179mS\u001b[48;5;185mimp\u001b[48;5;77mle\u001b[48;5;80mB\u001b[48;5;68myte\u001b[48;5;134mP\u001b[48;5;167ma\u001b[48;5;179mir\u001b[48;5;185mE\u001b[48;5;77mn\u001b[48;5;80mcoding\u001b[48;5;68m:\u001b[48;5;134m\n", + " \u001b[48;5;167m \u001b[48;5;179mdef\u001b[48;5;185m \u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68min\u001b[48;5;134mit\u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' m' + b'ost'\n", + "So we made b' most' our 415th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m a\u001b[48;5;134mn\u001b[48;5;167m \u001b[48;5;179me\u001b[48;5;185md\u001b[48;5;77mu\u001b[48;5;80mc\u001b[48;5;68mat\u001b[48;5;134mion\u001b[48;5;167mal\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mle\u001b[48;5;80mm\u001b[48;5;68men\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185m o\u001b[48;5;77mf\u001b[48;5;80m the\u001b[48;5;68m b\u001b[48;5;134myte\u001b[48;5;167m pair\u001b[48;5;179m en\u001b[48;5;185mcoding\u001b[48;5;77m \u001b[48;5;80mal\u001b[48;5;68mg\u001b[48;5;134mor\u001b[48;5;167mit\u001b[48;5;179mh\u001b[48;5;185mm\u001b[48;5;77m.\u001b[48;5;80m\"\"\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mr\u001b[48;5;179mo\u001b[48;5;185mm\u001b[48;5;77m \u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134mf\u001b[48;5;167mut\u001b[48;5;179mu\u001b[48;5;185mre\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m a\u001b[48;5;77mn\u001b[48;5;80mn\u001b[48;5;68mo\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mco\u001b[48;5;77ml\u001b[48;5;80mle\u001b[48;5;68mct\u001b[48;5;134mion\u001b[48;5;167ms\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m i\u001b[48;5;134mte\u001b[48;5;167mrt\u001b[48;5;179mo\u001b[48;5;185mo\u001b[48;5;77ml\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mr\u001b[48;5;179mo\u001b[48;5;185mm\u001b[48;5;77m t\u001b[48;5;80my\u001b[48;5;68mp\u001b[48;5;134ming\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m \u001b[48;5;68mO\u001b[48;5;134mp\u001b[48;5;167mt\u001b[48;5;179mion\u001b[48;5;185mal\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m re\u001b[48;5;185mge\u001b[48;5;77mx\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m t\u001b[48;5;77mi\u001b[48;5;80mk\u001b[48;5;68mtoken\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mc\u001b[48;5;77ml\u001b[48;5;80ma\u001b[48;5;68ms\u001b[48;5;134ms\u001b[48;5;167m \u001b[48;5;179mS\u001b[48;5;185mimp\u001b[48;5;77mle\u001b[48;5;80mB\u001b[48;5;68myte\u001b[48;5;134mP\u001b[48;5;167ma\u001b[48;5;179mir\u001b[48;5;185mE\u001b[48;5;77mn\u001b[48;5;80mcoding\u001b[48;5;68m:\u001b[48;5;134m\n", + " \u001b[48;5;167m \u001b[48;5;179mdef\u001b[48;5;185m \u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68min\u001b[48;5;134mit\u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'pa' + b'ir'\n", + "So we made b'pair' our 416th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m a\u001b[48;5;134mn\u001b[48;5;167m \u001b[48;5;179me\u001b[48;5;185md\u001b[48;5;77mu\u001b[48;5;80mc\u001b[48;5;68mat\u001b[48;5;134mion\u001b[48;5;167mal\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mle\u001b[48;5;80mm\u001b[48;5;68men\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185m o\u001b[48;5;77mf\u001b[48;5;80m the\u001b[48;5;68m b\u001b[48;5;134myte\u001b[48;5;167m pair\u001b[48;5;179m en\u001b[48;5;185mcoding\u001b[48;5;77m \u001b[48;5;80mal\u001b[48;5;68mg\u001b[48;5;134mor\u001b[48;5;167mit\u001b[48;5;179mh\u001b[48;5;185mm\u001b[48;5;77m.\u001b[48;5;80m\"\"\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mr\u001b[48;5;179mo\u001b[48;5;185mm\u001b[48;5;77m \u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134mf\u001b[48;5;167mut\u001b[48;5;179mu\u001b[48;5;185mre\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m a\u001b[48;5;77mn\u001b[48;5;80mn\u001b[48;5;68mo\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mco\u001b[48;5;77ml\u001b[48;5;80mle\u001b[48;5;68mct\u001b[48;5;134mion\u001b[48;5;167ms\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m i\u001b[48;5;134mte\u001b[48;5;167mrt\u001b[48;5;179mo\u001b[48;5;185mo\u001b[48;5;77ml\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mr\u001b[48;5;179mo\u001b[48;5;185mm\u001b[48;5;77m t\u001b[48;5;80my\u001b[48;5;68mp\u001b[48;5;134ming\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m \u001b[48;5;68mO\u001b[48;5;134mp\u001b[48;5;167mt\u001b[48;5;179mion\u001b[48;5;185mal\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m re\u001b[48;5;185mge\u001b[48;5;77mx\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m t\u001b[48;5;77mi\u001b[48;5;80mk\u001b[48;5;68mtoken\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mc\u001b[48;5;77ml\u001b[48;5;80ma\u001b[48;5;68ms\u001b[48;5;134ms\u001b[48;5;167m \u001b[48;5;179mS\u001b[48;5;185mimp\u001b[48;5;77mle\u001b[48;5;80mB\u001b[48;5;68myte\u001b[48;5;134mP\u001b[48;5;167ma\u001b[48;5;179mir\u001b[48;5;185mE\u001b[48;5;77mn\u001b[48;5;80mcoding\u001b[48;5;68m:\u001b[48;5;134m\n", + " \u001b[48;5;167m \u001b[48;5;179mdef\u001b[48;5;185m \u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68min\u001b[48;5;134mit\u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'e' + b'd'\n", + "So we made b'ed' our 417th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m a\u001b[48;5;134mn\u001b[48;5;167m \u001b[48;5;179med\u001b[48;5;185mu\u001b[48;5;77mc\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134mal\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mle\u001b[48;5;77mm\u001b[48;5;80men\u001b[48;5;68mt\u001b[48;5;134mat\u001b[48;5;167mion\u001b[48;5;179m o\u001b[48;5;185mf\u001b[48;5;77m the\u001b[48;5;80m b\u001b[48;5;68myte\u001b[48;5;134m pair\u001b[48;5;167m en\u001b[48;5;179mcoding\u001b[48;5;185m \u001b[48;5;77mal\u001b[48;5;80mg\u001b[48;5;68mor\u001b[48;5;134mit\u001b[48;5;167mh\u001b[48;5;179mm\u001b[48;5;185m.\u001b[48;5;77m\"\"\"\u001b[48;5;80m\n", + "\u001b[48;5;68mf\u001b[48;5;134mr\u001b[48;5;167mo\u001b[48;5;179mm\u001b[48;5;185m \u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68mf\u001b[48;5;134mut\u001b[48;5;167mu\u001b[48;5;179mre\u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80m i\u001b[48;5;68mmp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m a\u001b[48;5;185mn\u001b[48;5;77mn\u001b[48;5;80mo\u001b[48;5;68mt\u001b[48;5;134mat\u001b[48;5;167mion\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mimp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m \u001b[48;5;179mco\u001b[48;5;185ml\u001b[48;5;77mle\u001b[48;5;80mct\u001b[48;5;68mion\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mimp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m i\u001b[48;5;68mte\u001b[48;5;134mrt\u001b[48;5;167mo\u001b[48;5;179mo\u001b[48;5;185ml\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68mf\u001b[48;5;134mr\u001b[48;5;167mo\u001b[48;5;179mm\u001b[48;5;185m t\u001b[48;5;77my\u001b[48;5;80mp\u001b[48;5;68ming\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m \u001b[48;5;80mO\u001b[48;5;68mp\u001b[48;5;134mt\u001b[48;5;167mion\u001b[48;5;179mal\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mimp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m re\u001b[48;5;179mge\u001b[48;5;185mx\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m t\u001b[48;5;185mi\u001b[48;5;77mk\u001b[48;5;80mtoken\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mc\u001b[48;5;185ml\u001b[48;5;77ma\u001b[48;5;80ms\u001b[48;5;68ms\u001b[48;5;134m \u001b[48;5;167mS\u001b[48;5;179mimp\u001b[48;5;185mle\u001b[48;5;77mB\u001b[48;5;80myte\u001b[48;5;68mP\u001b[48;5;134ma\u001b[48;5;167mir\u001b[48;5;179mE\u001b[48;5;185mn\u001b[48;5;77mcoding\u001b[48;5;80m:\u001b[48;5;68m\n", + " \u001b[48;5;134m \u001b[48;5;167mdef\u001b[48;5;179m \u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80min\u001b[48;5;68mit\u001b[48;5;134m_\u001b[48;5;167m_\u001b[48;5;179m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' o' + b'f'\n", + "So we made b' of' our 418th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m a\u001b[48;5;134mn\u001b[48;5;167m \u001b[48;5;179med\u001b[48;5;185mu\u001b[48;5;77mc\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134mal\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mle\u001b[48;5;77mm\u001b[48;5;80men\u001b[48;5;68mt\u001b[48;5;134mat\u001b[48;5;167mion\u001b[48;5;179m of\u001b[48;5;185m the\u001b[48;5;77m b\u001b[48;5;80myte\u001b[48;5;68m pair\u001b[48;5;134m en\u001b[48;5;167mcoding\u001b[48;5;179m \u001b[48;5;185mal\u001b[48;5;77mg\u001b[48;5;80mor\u001b[48;5;68mit\u001b[48;5;134mh\u001b[48;5;167mm\u001b[48;5;179m.\u001b[48;5;185m\"\"\"\u001b[48;5;77m\n", + "\u001b[48;5;80mf\u001b[48;5;68mr\u001b[48;5;134mo\u001b[48;5;167mm\u001b[48;5;179m \u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80mf\u001b[48;5;68mut\u001b[48;5;134mu\u001b[48;5;167mre\u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m a\u001b[48;5;179mn\u001b[48;5;185mn\u001b[48;5;77mo\u001b[48;5;80mt\u001b[48;5;68mat\u001b[48;5;134mion\u001b[48;5;167ms\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m \u001b[48;5;167mco\u001b[48;5;179ml\u001b[48;5;185mle\u001b[48;5;77mct\u001b[48;5;80mion\u001b[48;5;68ms\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m i\u001b[48;5;80mte\u001b[48;5;68mrt\u001b[48;5;134mo\u001b[48;5;167mo\u001b[48;5;179ml\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mf\u001b[48;5;68mr\u001b[48;5;134mo\u001b[48;5;167mm\u001b[48;5;179m t\u001b[48;5;185my\u001b[48;5;77mp\u001b[48;5;80ming\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m \u001b[48;5;77mO\u001b[48;5;80mp\u001b[48;5;68mt\u001b[48;5;134mion\u001b[48;5;167mal\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m re\u001b[48;5;167mge\u001b[48;5;179mx\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mimp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m t\u001b[48;5;179mi\u001b[48;5;185mk\u001b[48;5;77mtoken\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mc\u001b[48;5;179ml\u001b[48;5;185ma\u001b[48;5;77ms\u001b[48;5;80ms\u001b[48;5;68m \u001b[48;5;134mS\u001b[48;5;167mimp\u001b[48;5;179mle\u001b[48;5;185mB\u001b[48;5;77myte\u001b[48;5;80mP\u001b[48;5;68ma\u001b[48;5;134mir\u001b[48;5;167mE\u001b[48;5;179mn\u001b[48;5;185mcoding\u001b[48;5;77m:\u001b[48;5;80m\n", + " \u001b[48;5;68m \u001b[48;5;134mdef\u001b[48;5;167m \u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77min\u001b[48;5;80mit\u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'r' + b'o'\n", + "So we made b'ro' our 419th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m a\u001b[48;5;134mn\u001b[48;5;167m \u001b[48;5;179med\u001b[48;5;185mu\u001b[48;5;77mc\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134mal\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mle\u001b[48;5;77mm\u001b[48;5;80men\u001b[48;5;68mt\u001b[48;5;134mat\u001b[48;5;167mion\u001b[48;5;179m of\u001b[48;5;185m the\u001b[48;5;77m b\u001b[48;5;80myte\u001b[48;5;68m pair\u001b[48;5;134m en\u001b[48;5;167mcoding\u001b[48;5;179m \u001b[48;5;185mal\u001b[48;5;77mg\u001b[48;5;80mor\u001b[48;5;68mit\u001b[48;5;134mh\u001b[48;5;167mm\u001b[48;5;179m.\u001b[48;5;185m\"\"\"\u001b[48;5;77m\n", + "\u001b[48;5;80mf\u001b[48;5;68mro\u001b[48;5;134mm\u001b[48;5;167m \u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77mf\u001b[48;5;80mut\u001b[48;5;68mu\u001b[48;5;134mre\u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185m i\u001b[48;5;77mmp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m a\u001b[48;5;167mn\u001b[48;5;179mn\u001b[48;5;185mo\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m \u001b[48;5;134mco\u001b[48;5;167ml\u001b[48;5;179mle\u001b[48;5;185mct\u001b[48;5;77mion\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m i\u001b[48;5;77mte\u001b[48;5;80mrt\u001b[48;5;68mo\u001b[48;5;134mo\u001b[48;5;167ml\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mro\u001b[48;5;68mm\u001b[48;5;134m t\u001b[48;5;167my\u001b[48;5;179mp\u001b[48;5;185ming\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m \u001b[48;5;179mO\u001b[48;5;185mp\u001b[48;5;77mt\u001b[48;5;80mion\u001b[48;5;68mal\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mimp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m re\u001b[48;5;68mge\u001b[48;5;134mx\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m t\u001b[48;5;134mi\u001b[48;5;167mk\u001b[48;5;179mtoken\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mc\u001b[48;5;134ml\u001b[48;5;167ma\u001b[48;5;179ms\u001b[48;5;185ms\u001b[48;5;77m \u001b[48;5;80mS\u001b[48;5;68mimp\u001b[48;5;134mle\u001b[48;5;167mB\u001b[48;5;179myte\u001b[48;5;185mP\u001b[48;5;77ma\u001b[48;5;80mir\u001b[48;5;68mE\u001b[48;5;134mn\u001b[48;5;167mcoding\u001b[48;5;179m:\u001b[48;5;185m\n", + " \u001b[48;5;77m \u001b[48;5;80mdef\u001b[48;5;68m \u001b[48;5;134m_\u001b[48;5;167m_\u001b[48;5;179min\u001b[48;5;185mit\u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'l' + b'a'\n", + "So we made b'la' our 420th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m a\u001b[48;5;134mn\u001b[48;5;167m \u001b[48;5;179med\u001b[48;5;185mu\u001b[48;5;77mc\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134mal\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mle\u001b[48;5;77mm\u001b[48;5;80men\u001b[48;5;68mt\u001b[48;5;134mat\u001b[48;5;167mion\u001b[48;5;179m of\u001b[48;5;185m the\u001b[48;5;77m b\u001b[48;5;80myte\u001b[48;5;68m pair\u001b[48;5;134m en\u001b[48;5;167mcoding\u001b[48;5;179m \u001b[48;5;185mal\u001b[48;5;77mg\u001b[48;5;80mor\u001b[48;5;68mit\u001b[48;5;134mh\u001b[48;5;167mm\u001b[48;5;179m.\u001b[48;5;185m\"\"\"\u001b[48;5;77m\n", + "\u001b[48;5;80mf\u001b[48;5;68mro\u001b[48;5;134mm\u001b[48;5;167m \u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77mf\u001b[48;5;80mut\u001b[48;5;68mu\u001b[48;5;134mre\u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185m i\u001b[48;5;77mmp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m a\u001b[48;5;167mn\u001b[48;5;179mn\u001b[48;5;185mo\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m \u001b[48;5;134mco\u001b[48;5;167ml\u001b[48;5;179mle\u001b[48;5;185mct\u001b[48;5;77mion\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m i\u001b[48;5;77mte\u001b[48;5;80mrt\u001b[48;5;68mo\u001b[48;5;134mo\u001b[48;5;167ml\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mro\u001b[48;5;68mm\u001b[48;5;134m t\u001b[48;5;167my\u001b[48;5;179mp\u001b[48;5;185ming\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m \u001b[48;5;179mO\u001b[48;5;185mp\u001b[48;5;77mt\u001b[48;5;80mion\u001b[48;5;68mal\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mimp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m re\u001b[48;5;68mge\u001b[48;5;134mx\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m t\u001b[48;5;134mi\u001b[48;5;167mk\u001b[48;5;179mtoken\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mc\u001b[48;5;134mla\u001b[48;5;167ms\u001b[48;5;179ms\u001b[48;5;185m \u001b[48;5;77mS\u001b[48;5;80mimp\u001b[48;5;68mle\u001b[48;5;134mB\u001b[48;5;167myte\u001b[48;5;179mP\u001b[48;5;185ma\u001b[48;5;77mir\u001b[48;5;80mE\u001b[48;5;68mn\u001b[48;5;134mcoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m \u001b[48;5;77mdef\u001b[48;5;80m \u001b[48;5;68m_\u001b[48;5;134m_\u001b[48;5;167min\u001b[48;5;179mit\u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' ' + b'S'\n", + "So we made b' S' our 421th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m a\u001b[48;5;134mn\u001b[48;5;167m \u001b[48;5;179med\u001b[48;5;185mu\u001b[48;5;77mc\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134mal\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mle\u001b[48;5;77mm\u001b[48;5;80men\u001b[48;5;68mt\u001b[48;5;134mat\u001b[48;5;167mion\u001b[48;5;179m of\u001b[48;5;185m the\u001b[48;5;77m b\u001b[48;5;80myte\u001b[48;5;68m pair\u001b[48;5;134m en\u001b[48;5;167mcoding\u001b[48;5;179m \u001b[48;5;185mal\u001b[48;5;77mg\u001b[48;5;80mor\u001b[48;5;68mit\u001b[48;5;134mh\u001b[48;5;167mm\u001b[48;5;179m.\u001b[48;5;185m\"\"\"\u001b[48;5;77m\n", + "\u001b[48;5;80mf\u001b[48;5;68mro\u001b[48;5;134mm\u001b[48;5;167m \u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77mf\u001b[48;5;80mut\u001b[48;5;68mu\u001b[48;5;134mre\u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185m i\u001b[48;5;77mmp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m a\u001b[48;5;167mn\u001b[48;5;179mn\u001b[48;5;185mo\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m \u001b[48;5;134mco\u001b[48;5;167ml\u001b[48;5;179mle\u001b[48;5;185mct\u001b[48;5;77mion\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m i\u001b[48;5;77mte\u001b[48;5;80mrt\u001b[48;5;68mo\u001b[48;5;134mo\u001b[48;5;167ml\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mro\u001b[48;5;68mm\u001b[48;5;134m t\u001b[48;5;167my\u001b[48;5;179mp\u001b[48;5;185ming\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m \u001b[48;5;179mO\u001b[48;5;185mp\u001b[48;5;77mt\u001b[48;5;80mion\u001b[48;5;68mal\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mimp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m re\u001b[48;5;68mge\u001b[48;5;134mx\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m t\u001b[48;5;134mi\u001b[48;5;167mk\u001b[48;5;179mtoken\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mc\u001b[48;5;134mla\u001b[48;5;167ms\u001b[48;5;179ms\u001b[48;5;185m S\u001b[48;5;77mimp\u001b[48;5;80mle\u001b[48;5;68mB\u001b[48;5;134myte\u001b[48;5;167mP\u001b[48;5;179ma\u001b[48;5;185mir\u001b[48;5;77mE\u001b[48;5;80mn\u001b[48;5;68mcoding\u001b[48;5;134m:\u001b[48;5;167m\n", + " \u001b[48;5;179m \u001b[48;5;185mdef\u001b[48;5;77m \u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134min\u001b[48;5;167mit\u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'imp' + b'le'\n", + "So we made b'imple' our 422th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m a\u001b[48;5;134mn\u001b[48;5;167m \u001b[48;5;179med\u001b[48;5;185mu\u001b[48;5;77mc\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134mal\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mle\u001b[48;5;77mm\u001b[48;5;80men\u001b[48;5;68mt\u001b[48;5;134mat\u001b[48;5;167mion\u001b[48;5;179m of\u001b[48;5;185m the\u001b[48;5;77m b\u001b[48;5;80myte\u001b[48;5;68m pair\u001b[48;5;134m en\u001b[48;5;167mcoding\u001b[48;5;179m \u001b[48;5;185mal\u001b[48;5;77mg\u001b[48;5;80mor\u001b[48;5;68mit\u001b[48;5;134mh\u001b[48;5;167mm\u001b[48;5;179m.\u001b[48;5;185m\"\"\"\u001b[48;5;77m\n", + "\u001b[48;5;80mf\u001b[48;5;68mro\u001b[48;5;134mm\u001b[48;5;167m \u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77mf\u001b[48;5;80mut\u001b[48;5;68mu\u001b[48;5;134mre\u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185m i\u001b[48;5;77mmp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m a\u001b[48;5;167mn\u001b[48;5;179mn\u001b[48;5;185mo\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m \u001b[48;5;134mco\u001b[48;5;167ml\u001b[48;5;179mle\u001b[48;5;185mct\u001b[48;5;77mion\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m i\u001b[48;5;77mte\u001b[48;5;80mrt\u001b[48;5;68mo\u001b[48;5;134mo\u001b[48;5;167ml\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mro\u001b[48;5;68mm\u001b[48;5;134m t\u001b[48;5;167my\u001b[48;5;179mp\u001b[48;5;185ming\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m \u001b[48;5;179mO\u001b[48;5;185mp\u001b[48;5;77mt\u001b[48;5;80mion\u001b[48;5;68mal\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mimp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m re\u001b[48;5;68mge\u001b[48;5;134mx\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m t\u001b[48;5;134mi\u001b[48;5;167mk\u001b[48;5;179mtoken\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mc\u001b[48;5;134mla\u001b[48;5;167ms\u001b[48;5;179ms\u001b[48;5;185m S\u001b[48;5;77mimple\u001b[48;5;80mB\u001b[48;5;68myte\u001b[48;5;134mP\u001b[48;5;167ma\u001b[48;5;179mir\u001b[48;5;185mE\u001b[48;5;77mn\u001b[48;5;80mcoding\u001b[48;5;68m:\u001b[48;5;134m\n", + " \u001b[48;5;167m \u001b[48;5;179mdef\u001b[48;5;185m \u001b[48;5;77m_\u001b[48;5;80m_\u001b[48;5;68min\u001b[48;5;134mit\u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' ' + b'def'\n", + "So we made b' def' our 423th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m a\u001b[48;5;134mn\u001b[48;5;167m \u001b[48;5;179med\u001b[48;5;185mu\u001b[48;5;77mc\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134mal\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mle\u001b[48;5;77mm\u001b[48;5;80men\u001b[48;5;68mt\u001b[48;5;134mat\u001b[48;5;167mion\u001b[48;5;179m of\u001b[48;5;185m the\u001b[48;5;77m b\u001b[48;5;80myte\u001b[48;5;68m pair\u001b[48;5;134m en\u001b[48;5;167mcoding\u001b[48;5;179m \u001b[48;5;185mal\u001b[48;5;77mg\u001b[48;5;80mor\u001b[48;5;68mit\u001b[48;5;134mh\u001b[48;5;167mm\u001b[48;5;179m.\u001b[48;5;185m\"\"\"\u001b[48;5;77m\n", + "\u001b[48;5;80mf\u001b[48;5;68mro\u001b[48;5;134mm\u001b[48;5;167m \u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77mf\u001b[48;5;80mut\u001b[48;5;68mu\u001b[48;5;134mre\u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185m i\u001b[48;5;77mmp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m a\u001b[48;5;167mn\u001b[48;5;179mn\u001b[48;5;185mo\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m \u001b[48;5;134mco\u001b[48;5;167ml\u001b[48;5;179mle\u001b[48;5;185mct\u001b[48;5;77mion\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m i\u001b[48;5;77mte\u001b[48;5;80mrt\u001b[48;5;68mo\u001b[48;5;134mo\u001b[48;5;167ml\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mro\u001b[48;5;68mm\u001b[48;5;134m t\u001b[48;5;167my\u001b[48;5;179mp\u001b[48;5;185ming\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m \u001b[48;5;179mO\u001b[48;5;185mp\u001b[48;5;77mt\u001b[48;5;80mion\u001b[48;5;68mal\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mimp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m re\u001b[48;5;68mge\u001b[48;5;134mx\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m t\u001b[48;5;134mi\u001b[48;5;167mk\u001b[48;5;179mtoken\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mc\u001b[48;5;134mla\u001b[48;5;167ms\u001b[48;5;179ms\u001b[48;5;185m S\u001b[48;5;77mimple\u001b[48;5;80mB\u001b[48;5;68myte\u001b[48;5;134mP\u001b[48;5;167ma\u001b[48;5;179mir\u001b[48;5;185mE\u001b[48;5;77mn\u001b[48;5;80mcoding\u001b[48;5;68m:\u001b[48;5;134m\n", + " \u001b[48;5;167m def\u001b[48;5;179m \u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80min\u001b[48;5;68mit\u001b[48;5;134m_\u001b[48;5;167m_\u001b[48;5;179m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'.' + b'_'\n", + "So we made b'._' our 424th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m a\u001b[48;5;134mn\u001b[48;5;167m \u001b[48;5;179med\u001b[48;5;185mu\u001b[48;5;77mc\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134mal\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mle\u001b[48;5;77mm\u001b[48;5;80men\u001b[48;5;68mt\u001b[48;5;134mat\u001b[48;5;167mion\u001b[48;5;179m of\u001b[48;5;185m the\u001b[48;5;77m b\u001b[48;5;80myte\u001b[48;5;68m pair\u001b[48;5;134m en\u001b[48;5;167mcoding\u001b[48;5;179m \u001b[48;5;185mal\u001b[48;5;77mg\u001b[48;5;80mor\u001b[48;5;68mit\u001b[48;5;134mh\u001b[48;5;167mm\u001b[48;5;179m.\u001b[48;5;185m\"\"\"\u001b[48;5;77m\n", + "\u001b[48;5;80mf\u001b[48;5;68mro\u001b[48;5;134mm\u001b[48;5;167m \u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77mf\u001b[48;5;80mut\u001b[48;5;68mu\u001b[48;5;134mre\u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185m i\u001b[48;5;77mmp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m a\u001b[48;5;167mn\u001b[48;5;179mn\u001b[48;5;185mo\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m \u001b[48;5;134mco\u001b[48;5;167ml\u001b[48;5;179mle\u001b[48;5;185mct\u001b[48;5;77mion\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m i\u001b[48;5;77mte\u001b[48;5;80mrt\u001b[48;5;68mo\u001b[48;5;134mo\u001b[48;5;167ml\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mro\u001b[48;5;68mm\u001b[48;5;134m t\u001b[48;5;167my\u001b[48;5;179mp\u001b[48;5;185ming\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m \u001b[48;5;179mO\u001b[48;5;185mp\u001b[48;5;77mt\u001b[48;5;80mion\u001b[48;5;68mal\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mimp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m re\u001b[48;5;68mge\u001b[48;5;134mx\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m t\u001b[48;5;134mi\u001b[48;5;167mk\u001b[48;5;179mtoken\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mc\u001b[48;5;134mla\u001b[48;5;167ms\u001b[48;5;179ms\u001b[48;5;185m S\u001b[48;5;77mimple\u001b[48;5;80mB\u001b[48;5;68myte\u001b[48;5;134mP\u001b[48;5;167ma\u001b[48;5;179mir\u001b[48;5;185mE\u001b[48;5;77mn\u001b[48;5;80mcoding\u001b[48;5;68m:\u001b[48;5;134m\n", + " \u001b[48;5;167m def\u001b[48;5;179m \u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80min\u001b[48;5;68mit\u001b[48;5;134m_\u001b[48;5;167m_\u001b[48;5;179m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'(' + b')'\n", + "So we made b'()' our 425th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m a\u001b[48;5;134mn\u001b[48;5;167m \u001b[48;5;179med\u001b[48;5;185mu\u001b[48;5;77mc\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134mal\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mle\u001b[48;5;77mm\u001b[48;5;80men\u001b[48;5;68mt\u001b[48;5;134mat\u001b[48;5;167mion\u001b[48;5;179m of\u001b[48;5;185m the\u001b[48;5;77m b\u001b[48;5;80myte\u001b[48;5;68m pair\u001b[48;5;134m en\u001b[48;5;167mcoding\u001b[48;5;179m \u001b[48;5;185mal\u001b[48;5;77mg\u001b[48;5;80mor\u001b[48;5;68mit\u001b[48;5;134mh\u001b[48;5;167mm\u001b[48;5;179m.\u001b[48;5;185m\"\"\"\u001b[48;5;77m\n", + "\u001b[48;5;80mf\u001b[48;5;68mro\u001b[48;5;134mm\u001b[48;5;167m \u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77mf\u001b[48;5;80mut\u001b[48;5;68mu\u001b[48;5;134mre\u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185m i\u001b[48;5;77mmp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m a\u001b[48;5;167mn\u001b[48;5;179mn\u001b[48;5;185mo\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m \u001b[48;5;134mco\u001b[48;5;167ml\u001b[48;5;179mle\u001b[48;5;185mct\u001b[48;5;77mion\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m i\u001b[48;5;77mte\u001b[48;5;80mrt\u001b[48;5;68mo\u001b[48;5;134mo\u001b[48;5;167ml\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mro\u001b[48;5;68mm\u001b[48;5;134m t\u001b[48;5;167my\u001b[48;5;179mp\u001b[48;5;185ming\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m \u001b[48;5;179mO\u001b[48;5;185mp\u001b[48;5;77mt\u001b[48;5;80mion\u001b[48;5;68mal\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mimp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m re\u001b[48;5;68mge\u001b[48;5;134mx\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m t\u001b[48;5;134mi\u001b[48;5;167mk\u001b[48;5;179mtoken\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mc\u001b[48;5;134mla\u001b[48;5;167ms\u001b[48;5;179ms\u001b[48;5;185m S\u001b[48;5;77mimple\u001b[48;5;80mB\u001b[48;5;68myte\u001b[48;5;134mP\u001b[48;5;167ma\u001b[48;5;179mir\u001b[48;5;185mE\u001b[48;5;77mn\u001b[48;5;80mcoding\u001b[48;5;68m:\u001b[48;5;134m\n", + " \u001b[48;5;167m def\u001b[48;5;179m \u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80min\u001b[48;5;68mit\u001b[48;5;134m_\u001b[48;5;167m_\u001b[48;5;179m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b']' + b':'\n", + "So we made b']:' our 426th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m a\u001b[48;5;134mn\u001b[48;5;167m \u001b[48;5;179med\u001b[48;5;185mu\u001b[48;5;77mc\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134mal\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mle\u001b[48;5;77mm\u001b[48;5;80men\u001b[48;5;68mt\u001b[48;5;134mat\u001b[48;5;167mion\u001b[48;5;179m of\u001b[48;5;185m the\u001b[48;5;77m b\u001b[48;5;80myte\u001b[48;5;68m pair\u001b[48;5;134m en\u001b[48;5;167mcoding\u001b[48;5;179m \u001b[48;5;185mal\u001b[48;5;77mg\u001b[48;5;80mor\u001b[48;5;68mit\u001b[48;5;134mh\u001b[48;5;167mm\u001b[48;5;179m.\u001b[48;5;185m\"\"\"\u001b[48;5;77m\n", + "\u001b[48;5;80mf\u001b[48;5;68mro\u001b[48;5;134mm\u001b[48;5;167m \u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77mf\u001b[48;5;80mut\u001b[48;5;68mu\u001b[48;5;134mre\u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185m i\u001b[48;5;77mmp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m a\u001b[48;5;167mn\u001b[48;5;179mn\u001b[48;5;185mo\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m \u001b[48;5;134mco\u001b[48;5;167ml\u001b[48;5;179mle\u001b[48;5;185mct\u001b[48;5;77mion\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m i\u001b[48;5;77mte\u001b[48;5;80mrt\u001b[48;5;68mo\u001b[48;5;134mo\u001b[48;5;167ml\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mro\u001b[48;5;68mm\u001b[48;5;134m t\u001b[48;5;167my\u001b[48;5;179mp\u001b[48;5;185ming\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m \u001b[48;5;179mO\u001b[48;5;185mp\u001b[48;5;77mt\u001b[48;5;80mion\u001b[48;5;68mal\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mimp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m re\u001b[48;5;68mge\u001b[48;5;134mx\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m t\u001b[48;5;134mi\u001b[48;5;167mk\u001b[48;5;179mtoken\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mc\u001b[48;5;134mla\u001b[48;5;167ms\u001b[48;5;179ms\u001b[48;5;185m S\u001b[48;5;77mimple\u001b[48;5;80mB\u001b[48;5;68myte\u001b[48;5;134mP\u001b[48;5;167ma\u001b[48;5;179mir\u001b[48;5;185mE\u001b[48;5;77mn\u001b[48;5;80mcoding\u001b[48;5;68m:\u001b[48;5;134m\n", + " \u001b[48;5;167m def\u001b[48;5;179m \u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80min\u001b[48;5;68mit\u001b[48;5;134m_\u001b[48;5;167m_\u001b[48;5;179m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'(' + b'['\n", + "So we made b'([' our 427th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m a\u001b[48;5;134mn\u001b[48;5;167m \u001b[48;5;179med\u001b[48;5;185mu\u001b[48;5;77mc\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134mal\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mle\u001b[48;5;77mm\u001b[48;5;80men\u001b[48;5;68mt\u001b[48;5;134mat\u001b[48;5;167mion\u001b[48;5;179m of\u001b[48;5;185m the\u001b[48;5;77m b\u001b[48;5;80myte\u001b[48;5;68m pair\u001b[48;5;134m en\u001b[48;5;167mcoding\u001b[48;5;179m \u001b[48;5;185mal\u001b[48;5;77mg\u001b[48;5;80mor\u001b[48;5;68mit\u001b[48;5;134mh\u001b[48;5;167mm\u001b[48;5;179m.\u001b[48;5;185m\"\"\"\u001b[48;5;77m\n", + "\u001b[48;5;80mf\u001b[48;5;68mro\u001b[48;5;134mm\u001b[48;5;167m \u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77mf\u001b[48;5;80mut\u001b[48;5;68mu\u001b[48;5;134mre\u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185m i\u001b[48;5;77mmp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m a\u001b[48;5;167mn\u001b[48;5;179mn\u001b[48;5;185mo\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m \u001b[48;5;134mco\u001b[48;5;167ml\u001b[48;5;179mle\u001b[48;5;185mct\u001b[48;5;77mion\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m i\u001b[48;5;77mte\u001b[48;5;80mrt\u001b[48;5;68mo\u001b[48;5;134mo\u001b[48;5;167ml\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mro\u001b[48;5;68mm\u001b[48;5;134m t\u001b[48;5;167my\u001b[48;5;179mp\u001b[48;5;185ming\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m \u001b[48;5;179mO\u001b[48;5;185mp\u001b[48;5;77mt\u001b[48;5;80mion\u001b[48;5;68mal\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mimp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m re\u001b[48;5;68mge\u001b[48;5;134mx\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m t\u001b[48;5;134mi\u001b[48;5;167mk\u001b[48;5;179mtoken\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mc\u001b[48;5;134mla\u001b[48;5;167ms\u001b[48;5;179ms\u001b[48;5;185m S\u001b[48;5;77mimple\u001b[48;5;80mB\u001b[48;5;68myte\u001b[48;5;134mP\u001b[48;5;167ma\u001b[48;5;179mir\u001b[48;5;185mE\u001b[48;5;77mn\u001b[48;5;80mcoding\u001b[48;5;68m:\u001b[48;5;134m\n", + " \u001b[48;5;167m def\u001b[48;5;179m \u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80min\u001b[48;5;68mit\u001b[48;5;134m_\u001b[48;5;167m_\u001b[48;5;179m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' w' + b'e'\n", + "So we made b' we' our 428th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m a\u001b[48;5;134mn\u001b[48;5;167m \u001b[48;5;179med\u001b[48;5;185mu\u001b[48;5;77mc\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134mal\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mle\u001b[48;5;77mm\u001b[48;5;80men\u001b[48;5;68mt\u001b[48;5;134mat\u001b[48;5;167mion\u001b[48;5;179m of\u001b[48;5;185m the\u001b[48;5;77m b\u001b[48;5;80myte\u001b[48;5;68m pair\u001b[48;5;134m en\u001b[48;5;167mcoding\u001b[48;5;179m \u001b[48;5;185mal\u001b[48;5;77mg\u001b[48;5;80mor\u001b[48;5;68mit\u001b[48;5;134mh\u001b[48;5;167mm\u001b[48;5;179m.\u001b[48;5;185m\"\"\"\u001b[48;5;77m\n", + "\u001b[48;5;80mf\u001b[48;5;68mro\u001b[48;5;134mm\u001b[48;5;167m \u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77mf\u001b[48;5;80mut\u001b[48;5;68mu\u001b[48;5;134mre\u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185m i\u001b[48;5;77mmp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m a\u001b[48;5;167mn\u001b[48;5;179mn\u001b[48;5;185mo\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m \u001b[48;5;134mco\u001b[48;5;167ml\u001b[48;5;179mle\u001b[48;5;185mct\u001b[48;5;77mion\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m i\u001b[48;5;77mte\u001b[48;5;80mrt\u001b[48;5;68mo\u001b[48;5;134mo\u001b[48;5;167ml\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mro\u001b[48;5;68mm\u001b[48;5;134m t\u001b[48;5;167my\u001b[48;5;179mp\u001b[48;5;185ming\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m \u001b[48;5;179mO\u001b[48;5;185mp\u001b[48;5;77mt\u001b[48;5;80mion\u001b[48;5;68mal\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mimp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m re\u001b[48;5;68mge\u001b[48;5;134mx\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m t\u001b[48;5;134mi\u001b[48;5;167mk\u001b[48;5;179mtoken\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mc\u001b[48;5;134mla\u001b[48;5;167ms\u001b[48;5;179ms\u001b[48;5;185m S\u001b[48;5;77mimple\u001b[48;5;80mB\u001b[48;5;68myte\u001b[48;5;134mP\u001b[48;5;167ma\u001b[48;5;179mir\u001b[48;5;185mE\u001b[48;5;77mn\u001b[48;5;80mcoding\u001b[48;5;68m:\u001b[48;5;134m\n", + " \u001b[48;5;167m def\u001b[48;5;179m \u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80min\u001b[48;5;68mit\u001b[48;5;134m_\u001b[48;5;167m_\u001b[48;5;179m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'en' + b'coding'\n", + "So we made b'encoding' our 429th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m a\u001b[48;5;134mn\u001b[48;5;167m \u001b[48;5;179med\u001b[48;5;185mu\u001b[48;5;77mc\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134mal\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mle\u001b[48;5;77mm\u001b[48;5;80men\u001b[48;5;68mt\u001b[48;5;134mat\u001b[48;5;167mion\u001b[48;5;179m of\u001b[48;5;185m the\u001b[48;5;77m b\u001b[48;5;80myte\u001b[48;5;68m pair\u001b[48;5;134m en\u001b[48;5;167mcoding\u001b[48;5;179m \u001b[48;5;185mal\u001b[48;5;77mg\u001b[48;5;80mor\u001b[48;5;68mit\u001b[48;5;134mh\u001b[48;5;167mm\u001b[48;5;179m.\u001b[48;5;185m\"\"\"\u001b[48;5;77m\n", + "\u001b[48;5;80mf\u001b[48;5;68mro\u001b[48;5;134mm\u001b[48;5;167m \u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77mf\u001b[48;5;80mut\u001b[48;5;68mu\u001b[48;5;134mre\u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185m i\u001b[48;5;77mmp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m a\u001b[48;5;167mn\u001b[48;5;179mn\u001b[48;5;185mo\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m \u001b[48;5;134mco\u001b[48;5;167ml\u001b[48;5;179mle\u001b[48;5;185mct\u001b[48;5;77mion\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m i\u001b[48;5;77mte\u001b[48;5;80mrt\u001b[48;5;68mo\u001b[48;5;134mo\u001b[48;5;167ml\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mro\u001b[48;5;68mm\u001b[48;5;134m t\u001b[48;5;167my\u001b[48;5;179mp\u001b[48;5;185ming\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m \u001b[48;5;179mO\u001b[48;5;185mp\u001b[48;5;77mt\u001b[48;5;80mion\u001b[48;5;68mal\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mimp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m re\u001b[48;5;68mge\u001b[48;5;134mx\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m t\u001b[48;5;134mi\u001b[48;5;167mk\u001b[48;5;179mtoken\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mc\u001b[48;5;134mla\u001b[48;5;167ms\u001b[48;5;179ms\u001b[48;5;185m S\u001b[48;5;77mimple\u001b[48;5;80mB\u001b[48;5;68myte\u001b[48;5;134mP\u001b[48;5;167ma\u001b[48;5;179mir\u001b[48;5;185mE\u001b[48;5;77mn\u001b[48;5;80mcoding\u001b[48;5;68m:\u001b[48;5;134m\n", + " \u001b[48;5;167m def\u001b[48;5;179m \u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80min\u001b[48;5;68mit\u001b[48;5;134m_\u001b[48;5;167m_\u001b[48;5;179m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' pa' + b'rts'\n", + "So we made b' parts' our 430th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m a\u001b[48;5;134mn\u001b[48;5;167m \u001b[48;5;179med\u001b[48;5;185mu\u001b[48;5;77mc\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134mal\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mle\u001b[48;5;77mm\u001b[48;5;80men\u001b[48;5;68mt\u001b[48;5;134mat\u001b[48;5;167mion\u001b[48;5;179m of\u001b[48;5;185m the\u001b[48;5;77m b\u001b[48;5;80myte\u001b[48;5;68m pair\u001b[48;5;134m en\u001b[48;5;167mcoding\u001b[48;5;179m \u001b[48;5;185mal\u001b[48;5;77mg\u001b[48;5;80mor\u001b[48;5;68mit\u001b[48;5;134mh\u001b[48;5;167mm\u001b[48;5;179m.\u001b[48;5;185m\"\"\"\u001b[48;5;77m\n", + "\u001b[48;5;80mf\u001b[48;5;68mro\u001b[48;5;134mm\u001b[48;5;167m \u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77mf\u001b[48;5;80mut\u001b[48;5;68mu\u001b[48;5;134mre\u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185m i\u001b[48;5;77mmp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m a\u001b[48;5;167mn\u001b[48;5;179mn\u001b[48;5;185mo\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m \u001b[48;5;134mco\u001b[48;5;167ml\u001b[48;5;179mle\u001b[48;5;185mct\u001b[48;5;77mion\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m i\u001b[48;5;77mte\u001b[48;5;80mrt\u001b[48;5;68mo\u001b[48;5;134mo\u001b[48;5;167ml\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mro\u001b[48;5;68mm\u001b[48;5;134m t\u001b[48;5;167my\u001b[48;5;179mp\u001b[48;5;185ming\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m \u001b[48;5;179mO\u001b[48;5;185mp\u001b[48;5;77mt\u001b[48;5;80mion\u001b[48;5;68mal\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mimp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m re\u001b[48;5;68mge\u001b[48;5;134mx\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m t\u001b[48;5;134mi\u001b[48;5;167mk\u001b[48;5;179mtoken\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mc\u001b[48;5;134mla\u001b[48;5;167ms\u001b[48;5;179ms\u001b[48;5;185m S\u001b[48;5;77mimple\u001b[48;5;80mB\u001b[48;5;68myte\u001b[48;5;134mP\u001b[48;5;167ma\u001b[48;5;179mir\u001b[48;5;185mE\u001b[48;5;77mn\u001b[48;5;80mcoding\u001b[48;5;68m:\u001b[48;5;134m\n", + " \u001b[48;5;167m def\u001b[48;5;179m \u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80min\u001b[48;5;68mit\u001b[48;5;134m_\u001b[48;5;167m_\u001b[48;5;179m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' =' + b'='\n", + "So we made b' ==' our 431th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m a\u001b[48;5;134mn\u001b[48;5;167m \u001b[48;5;179med\u001b[48;5;185mu\u001b[48;5;77mc\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134mal\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mle\u001b[48;5;77mm\u001b[48;5;80men\u001b[48;5;68mt\u001b[48;5;134mat\u001b[48;5;167mion\u001b[48;5;179m of\u001b[48;5;185m the\u001b[48;5;77m b\u001b[48;5;80myte\u001b[48;5;68m pair\u001b[48;5;134m en\u001b[48;5;167mcoding\u001b[48;5;179m \u001b[48;5;185mal\u001b[48;5;77mg\u001b[48;5;80mor\u001b[48;5;68mit\u001b[48;5;134mh\u001b[48;5;167mm\u001b[48;5;179m.\u001b[48;5;185m\"\"\"\u001b[48;5;77m\n", + "\u001b[48;5;80mf\u001b[48;5;68mro\u001b[48;5;134mm\u001b[48;5;167m \u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77mf\u001b[48;5;80mut\u001b[48;5;68mu\u001b[48;5;134mre\u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185m i\u001b[48;5;77mmp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m a\u001b[48;5;167mn\u001b[48;5;179mn\u001b[48;5;185mo\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m \u001b[48;5;134mco\u001b[48;5;167ml\u001b[48;5;179mle\u001b[48;5;185mct\u001b[48;5;77mion\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m i\u001b[48;5;77mte\u001b[48;5;80mrt\u001b[48;5;68mo\u001b[48;5;134mo\u001b[48;5;167ml\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mro\u001b[48;5;68mm\u001b[48;5;134m t\u001b[48;5;167my\u001b[48;5;179mp\u001b[48;5;185ming\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m \u001b[48;5;179mO\u001b[48;5;185mp\u001b[48;5;77mt\u001b[48;5;80mion\u001b[48;5;68mal\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mimp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m re\u001b[48;5;68mge\u001b[48;5;134mx\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m t\u001b[48;5;134mi\u001b[48;5;167mk\u001b[48;5;179mtoken\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mc\u001b[48;5;134mla\u001b[48;5;167ms\u001b[48;5;179ms\u001b[48;5;185m S\u001b[48;5;77mimple\u001b[48;5;80mB\u001b[48;5;68myte\u001b[48;5;134mP\u001b[48;5;167ma\u001b[48;5;179mir\u001b[48;5;185mE\u001b[48;5;77mn\u001b[48;5;80mcoding\u001b[48;5;68m:\u001b[48;5;134m\n", + " \u001b[48;5;167m def\u001b[48;5;179m \u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80min\u001b[48;5;68mit\u001b[48;5;134m_\u001b[48;5;167m_\u001b[48;5;179m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' m' + b'in'\n", + "So we made b' min' our 432th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m a\u001b[48;5;134mn\u001b[48;5;167m \u001b[48;5;179med\u001b[48;5;185mu\u001b[48;5;77mc\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134mal\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mle\u001b[48;5;77mm\u001b[48;5;80men\u001b[48;5;68mt\u001b[48;5;134mat\u001b[48;5;167mion\u001b[48;5;179m of\u001b[48;5;185m the\u001b[48;5;77m b\u001b[48;5;80myte\u001b[48;5;68m pair\u001b[48;5;134m en\u001b[48;5;167mcoding\u001b[48;5;179m \u001b[48;5;185mal\u001b[48;5;77mg\u001b[48;5;80mor\u001b[48;5;68mit\u001b[48;5;134mh\u001b[48;5;167mm\u001b[48;5;179m.\u001b[48;5;185m\"\"\"\u001b[48;5;77m\n", + "\u001b[48;5;80mf\u001b[48;5;68mro\u001b[48;5;134mm\u001b[48;5;167m \u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77mf\u001b[48;5;80mut\u001b[48;5;68mu\u001b[48;5;134mre\u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185m i\u001b[48;5;77mmp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m a\u001b[48;5;167mn\u001b[48;5;179mn\u001b[48;5;185mo\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m \u001b[48;5;134mco\u001b[48;5;167ml\u001b[48;5;179mle\u001b[48;5;185mct\u001b[48;5;77mion\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m i\u001b[48;5;77mte\u001b[48;5;80mrt\u001b[48;5;68mo\u001b[48;5;134mo\u001b[48;5;167ml\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mro\u001b[48;5;68mm\u001b[48;5;134m t\u001b[48;5;167my\u001b[48;5;179mp\u001b[48;5;185ming\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m \u001b[48;5;179mO\u001b[48;5;185mp\u001b[48;5;77mt\u001b[48;5;80mion\u001b[48;5;68mal\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mimp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m re\u001b[48;5;68mge\u001b[48;5;134mx\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m t\u001b[48;5;134mi\u001b[48;5;167mk\u001b[48;5;179mtoken\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mc\u001b[48;5;134mla\u001b[48;5;167ms\u001b[48;5;179ms\u001b[48;5;185m S\u001b[48;5;77mimple\u001b[48;5;80mB\u001b[48;5;68myte\u001b[48;5;134mP\u001b[48;5;167ma\u001b[48;5;179mir\u001b[48;5;185mE\u001b[48;5;77mn\u001b[48;5;80mcoding\u001b[48;5;68m:\u001b[48;5;134m\n", + " \u001b[48;5;167m def\u001b[48;5;179m \u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80min\u001b[48;5;68mit\u001b[48;5;134m_\u001b[48;5;167m_\u001b[48;5;179m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'id' + b'x'\n", + "So we made b'idx' our 433th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m a\u001b[48;5;134mn\u001b[48;5;167m \u001b[48;5;179med\u001b[48;5;185mu\u001b[48;5;77mc\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134mal\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mle\u001b[48;5;77mm\u001b[48;5;80men\u001b[48;5;68mt\u001b[48;5;134mat\u001b[48;5;167mion\u001b[48;5;179m of\u001b[48;5;185m the\u001b[48;5;77m b\u001b[48;5;80myte\u001b[48;5;68m pair\u001b[48;5;134m en\u001b[48;5;167mcoding\u001b[48;5;179m \u001b[48;5;185mal\u001b[48;5;77mg\u001b[48;5;80mor\u001b[48;5;68mit\u001b[48;5;134mh\u001b[48;5;167mm\u001b[48;5;179m.\u001b[48;5;185m\"\"\"\u001b[48;5;77m\n", + "\u001b[48;5;80mf\u001b[48;5;68mro\u001b[48;5;134mm\u001b[48;5;167m \u001b[48;5;179m_\u001b[48;5;185m_\u001b[48;5;77mf\u001b[48;5;80mut\u001b[48;5;68mu\u001b[48;5;134mre\u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185m i\u001b[48;5;77mmp\u001b[48;5;80mor\u001b[48;5;68mt\u001b[48;5;134m a\u001b[48;5;167mn\u001b[48;5;179mn\u001b[48;5;185mo\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m \u001b[48;5;134mco\u001b[48;5;167ml\u001b[48;5;179mle\u001b[48;5;185mct\u001b[48;5;77mion\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m i\u001b[48;5;77mte\u001b[48;5;80mrt\u001b[48;5;68mo\u001b[48;5;134mo\u001b[48;5;167ml\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mro\u001b[48;5;68mm\u001b[48;5;134m t\u001b[48;5;167my\u001b[48;5;179mp\u001b[48;5;185ming\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m \u001b[48;5;179mO\u001b[48;5;185mp\u001b[48;5;77mt\u001b[48;5;80mion\u001b[48;5;68mal\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mimp\u001b[48;5;185mor\u001b[48;5;77mt\u001b[48;5;80m re\u001b[48;5;68mge\u001b[48;5;134mx\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m t\u001b[48;5;134mi\u001b[48;5;167mk\u001b[48;5;179mtoken\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mc\u001b[48;5;134mla\u001b[48;5;167ms\u001b[48;5;179ms\u001b[48;5;185m S\u001b[48;5;77mimple\u001b[48;5;80mB\u001b[48;5;68myte\u001b[48;5;134mP\u001b[48;5;167ma\u001b[48;5;179mir\u001b[48;5;185mE\u001b[48;5;77mn\u001b[48;5;80mcoding\u001b[48;5;68m:\u001b[48;5;134m\n", + " \u001b[48;5;167m def\u001b[48;5;179m \u001b[48;5;185m_\u001b[48;5;77m_\u001b[48;5;80min\u001b[48;5;68mit\u001b[48;5;134m_\u001b[48;5;167m_\u001b[48;5;179m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' a' + b'n'\n", + "So we made b' an' our 434th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mion\u001b[48;5;68mal\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mle\u001b[48;5;185mm\u001b[48;5;77men\u001b[48;5;80mt\u001b[48;5;68mat\u001b[48;5;134mion\u001b[48;5;167m of\u001b[48;5;179m the\u001b[48;5;185m b\u001b[48;5;77myte\u001b[48;5;80m pair\u001b[48;5;68m en\u001b[48;5;134mcoding\u001b[48;5;167m \u001b[48;5;179mal\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mit\u001b[48;5;68mh\u001b[48;5;134mm\u001b[48;5;167m.\u001b[48;5;179m\"\"\"\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mro\u001b[48;5;68mm\u001b[48;5;134m \u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185mf\u001b[48;5;77mut\u001b[48;5;80mu\u001b[48;5;68mre\u001b[48;5;134m_\u001b[48;5;167m_\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m an\u001b[48;5;134mn\u001b[48;5;167mo\u001b[48;5;179mt\u001b[48;5;185mat\u001b[48;5;77mion\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m \u001b[48;5;80mco\u001b[48;5;68ml\u001b[48;5;134mle\u001b[48;5;167mct\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mimp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mro\u001b[48;5;77mm\u001b[48;5;80m t\u001b[48;5;68my\u001b[48;5;134mp\u001b[48;5;167ming\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m \u001b[48;5;134mO\u001b[48;5;167mp\u001b[48;5;179mt\u001b[48;5;185mion\u001b[48;5;77mal\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mor\u001b[48;5;179mt\u001b[48;5;185m re\u001b[48;5;77mge\u001b[48;5;80mx\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m t\u001b[48;5;80mi\u001b[48;5;68mk\u001b[48;5;134mtoken\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mc\u001b[48;5;80mla\u001b[48;5;68ms\u001b[48;5;134ms\u001b[48;5;167m S\u001b[48;5;179mimple\u001b[48;5;185mB\u001b[48;5;77myte\u001b[48;5;80mP\u001b[48;5;68ma\u001b[48;5;134mir\u001b[48;5;167mE\u001b[48;5;179mn\u001b[48;5;185mcoding\u001b[48;5;77m:\u001b[48;5;80m\n", + " \u001b[48;5;68m def\u001b[48;5;134m \u001b[48;5;167m_\u001b[48;5;179m_\u001b[48;5;185min\u001b[48;5;77mit\u001b[48;5;80m_\u001b[48;5;68m_\u001b[48;5;134m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'_' + b'_'\n", + "So we made b'__' our 435th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mion\u001b[48;5;68mal\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mle\u001b[48;5;185mm\u001b[48;5;77men\u001b[48;5;80mt\u001b[48;5;68mat\u001b[48;5;134mion\u001b[48;5;167m of\u001b[48;5;179m the\u001b[48;5;185m b\u001b[48;5;77myte\u001b[48;5;80m pair\u001b[48;5;68m en\u001b[48;5;134mcoding\u001b[48;5;167m \u001b[48;5;179mal\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mit\u001b[48;5;68mh\u001b[48;5;134mm\u001b[48;5;167m.\u001b[48;5;179m\"\"\"\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mro\u001b[48;5;68mm\u001b[48;5;134m \u001b[48;5;167m__\u001b[48;5;179mf\u001b[48;5;185mut\u001b[48;5;77mu\u001b[48;5;80mre\u001b[48;5;68m__\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m an\u001b[48;5;80mn\u001b[48;5;68mo\u001b[48;5;134mt\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m \u001b[48;5;185mco\u001b[48;5;77ml\u001b[48;5;80mle\u001b[48;5;68mct\u001b[48;5;134mion\u001b[48;5;167ms\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mor\u001b[48;5;80mt\u001b[48;5;68m i\u001b[48;5;134mte\u001b[48;5;167mrt\u001b[48;5;179mo\u001b[48;5;185mo\u001b[48;5;77ml\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mro\u001b[48;5;179mm\u001b[48;5;185m t\u001b[48;5;77my\u001b[48;5;80mp\u001b[48;5;68ming\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mor\u001b[48;5;185mt\u001b[48;5;77m \u001b[48;5;80mO\u001b[48;5;68mp\u001b[48;5;134mt\u001b[48;5;167mion\u001b[48;5;179mal\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mimp\u001b[48;5;68mor\u001b[48;5;134mt\u001b[48;5;167m re\u001b[48;5;179mge\u001b[48;5;185mx\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimp\u001b[48;5;134mor\u001b[48;5;167mt\u001b[48;5;179m t\u001b[48;5;185mi\u001b[48;5;77mk\u001b[48;5;80mtoken\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mc\u001b[48;5;185mla\u001b[48;5;77ms\u001b[48;5;80ms\u001b[48;5;68m S\u001b[48;5;134mimple\u001b[48;5;167mB\u001b[48;5;179myte\u001b[48;5;185mP\u001b[48;5;77ma\u001b[48;5;80mir\u001b[48;5;68mE\u001b[48;5;134mn\u001b[48;5;167mcoding\u001b[48;5;179m:\u001b[48;5;185m\n", + " \u001b[48;5;77m def\u001b[48;5;80m \u001b[48;5;68m__\u001b[48;5;134min\u001b[48;5;167mit\u001b[48;5;179m__\u001b[48;5;185m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'or' + b't'\n", + "So we made b'ort' our 436th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mion\u001b[48;5;68mal\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mle\u001b[48;5;185mm\u001b[48;5;77men\u001b[48;5;80mt\u001b[48;5;68mat\u001b[48;5;134mion\u001b[48;5;167m of\u001b[48;5;179m the\u001b[48;5;185m b\u001b[48;5;77myte\u001b[48;5;80m pair\u001b[48;5;68m en\u001b[48;5;134mcoding\u001b[48;5;167m \u001b[48;5;179mal\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mit\u001b[48;5;68mh\u001b[48;5;134mm\u001b[48;5;167m.\u001b[48;5;179m\"\"\"\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mro\u001b[48;5;68mm\u001b[48;5;134m \u001b[48;5;167m__\u001b[48;5;179mf\u001b[48;5;185mut\u001b[48;5;77mu\u001b[48;5;80mre\u001b[48;5;68m__\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mort\u001b[48;5;185m an\u001b[48;5;77mn\u001b[48;5;80mo\u001b[48;5;68mt\u001b[48;5;134mat\u001b[48;5;167mion\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mimp\u001b[48;5;68mort\u001b[48;5;134m \u001b[48;5;167mco\u001b[48;5;179ml\u001b[48;5;185mle\u001b[48;5;77mct\u001b[48;5;80mion\u001b[48;5;68ms\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mort\u001b[48;5;185m i\u001b[48;5;77mte\u001b[48;5;80mrt\u001b[48;5;68mo\u001b[48;5;134mo\u001b[48;5;167ml\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mro\u001b[48;5;68mm\u001b[48;5;134m t\u001b[48;5;167my\u001b[48;5;179mp\u001b[48;5;185ming\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mort\u001b[48;5;134m \u001b[48;5;167mO\u001b[48;5;179mp\u001b[48;5;185mt\u001b[48;5;77mion\u001b[48;5;80mal\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mort\u001b[48;5;185m re\u001b[48;5;77mge\u001b[48;5;80mx\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mort\u001b[48;5;185m t\u001b[48;5;77mi\u001b[48;5;80mk\u001b[48;5;68mtoken\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mc\u001b[48;5;77mla\u001b[48;5;80ms\u001b[48;5;68ms\u001b[48;5;134m S\u001b[48;5;167mimple\u001b[48;5;179mB\u001b[48;5;185myte\u001b[48;5;77mP\u001b[48;5;80ma\u001b[48;5;68mir\u001b[48;5;134mE\u001b[48;5;167mn\u001b[48;5;179mcoding\u001b[48;5;185m:\u001b[48;5;77m\n", + " \u001b[48;5;80m def\u001b[48;5;68m \u001b[48;5;134m__\u001b[48;5;167min\u001b[48;5;179mit\u001b[48;5;185m__\u001b[48;5;77m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'p' + b't'\n", + "So we made b'pt' our 437th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mion\u001b[48;5;68mal\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mle\u001b[48;5;185mm\u001b[48;5;77men\u001b[48;5;80mt\u001b[48;5;68mat\u001b[48;5;134mion\u001b[48;5;167m of\u001b[48;5;179m the\u001b[48;5;185m b\u001b[48;5;77myte\u001b[48;5;80m pair\u001b[48;5;68m en\u001b[48;5;134mcoding\u001b[48;5;167m \u001b[48;5;179mal\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mit\u001b[48;5;68mh\u001b[48;5;134mm\u001b[48;5;167m.\u001b[48;5;179m\"\"\"\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mro\u001b[48;5;68mm\u001b[48;5;134m \u001b[48;5;167m__\u001b[48;5;179mf\u001b[48;5;185mut\u001b[48;5;77mu\u001b[48;5;80mre\u001b[48;5;68m__\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mort\u001b[48;5;185m an\u001b[48;5;77mn\u001b[48;5;80mo\u001b[48;5;68mt\u001b[48;5;134mat\u001b[48;5;167mion\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mimp\u001b[48;5;68mort\u001b[48;5;134m \u001b[48;5;167mco\u001b[48;5;179ml\u001b[48;5;185mle\u001b[48;5;77mct\u001b[48;5;80mion\u001b[48;5;68ms\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mort\u001b[48;5;185m i\u001b[48;5;77mte\u001b[48;5;80mrt\u001b[48;5;68mo\u001b[48;5;134mo\u001b[48;5;167ml\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mro\u001b[48;5;68mm\u001b[48;5;134m t\u001b[48;5;167my\u001b[48;5;179mp\u001b[48;5;185ming\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mort\u001b[48;5;134m \u001b[48;5;167mO\u001b[48;5;179mpt\u001b[48;5;185mion\u001b[48;5;77mal\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mort\u001b[48;5;179m re\u001b[48;5;185mge\u001b[48;5;77mx\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mort\u001b[48;5;179m t\u001b[48;5;185mi\u001b[48;5;77mk\u001b[48;5;80mtoken\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mc\u001b[48;5;185mla\u001b[48;5;77ms\u001b[48;5;80ms\u001b[48;5;68m S\u001b[48;5;134mimple\u001b[48;5;167mB\u001b[48;5;179myte\u001b[48;5;185mP\u001b[48;5;77ma\u001b[48;5;80mir\u001b[48;5;68mE\u001b[48;5;134mn\u001b[48;5;167mcoding\u001b[48;5;179m:\u001b[48;5;185m\n", + " \u001b[48;5;77m def\u001b[48;5;80m \u001b[48;5;68m__\u001b[48;5;134min\u001b[48;5;167mit\u001b[48;5;179m__\u001b[48;5;185m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'E' + b'n'\n", + "So we made b'En' our 438th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mion\u001b[48;5;68mal\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mle\u001b[48;5;185mm\u001b[48;5;77men\u001b[48;5;80mt\u001b[48;5;68mat\u001b[48;5;134mion\u001b[48;5;167m of\u001b[48;5;179m the\u001b[48;5;185m b\u001b[48;5;77myte\u001b[48;5;80m pair\u001b[48;5;68m en\u001b[48;5;134mcoding\u001b[48;5;167m \u001b[48;5;179mal\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mit\u001b[48;5;68mh\u001b[48;5;134mm\u001b[48;5;167m.\u001b[48;5;179m\"\"\"\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mro\u001b[48;5;68mm\u001b[48;5;134m \u001b[48;5;167m__\u001b[48;5;179mf\u001b[48;5;185mut\u001b[48;5;77mu\u001b[48;5;80mre\u001b[48;5;68m__\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mort\u001b[48;5;185m an\u001b[48;5;77mn\u001b[48;5;80mo\u001b[48;5;68mt\u001b[48;5;134mat\u001b[48;5;167mion\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mimp\u001b[48;5;68mort\u001b[48;5;134m \u001b[48;5;167mco\u001b[48;5;179ml\u001b[48;5;185mle\u001b[48;5;77mct\u001b[48;5;80mion\u001b[48;5;68ms\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mort\u001b[48;5;185m i\u001b[48;5;77mte\u001b[48;5;80mrt\u001b[48;5;68mo\u001b[48;5;134mo\u001b[48;5;167ml\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mro\u001b[48;5;68mm\u001b[48;5;134m t\u001b[48;5;167my\u001b[48;5;179mp\u001b[48;5;185ming\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mort\u001b[48;5;134m \u001b[48;5;167mO\u001b[48;5;179mpt\u001b[48;5;185mion\u001b[48;5;77mal\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mort\u001b[48;5;179m re\u001b[48;5;185mge\u001b[48;5;77mx\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mort\u001b[48;5;179m t\u001b[48;5;185mi\u001b[48;5;77mk\u001b[48;5;80mtoken\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mc\u001b[48;5;185mla\u001b[48;5;77ms\u001b[48;5;80ms\u001b[48;5;68m S\u001b[48;5;134mimple\u001b[48;5;167mB\u001b[48;5;179myte\u001b[48;5;185mP\u001b[48;5;77ma\u001b[48;5;80mir\u001b[48;5;68mEn\u001b[48;5;134mcoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m def\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68min\u001b[48;5;134mit\u001b[48;5;167m__\u001b[48;5;179m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' t' + b'h'\n", + "So we made b' th' our 439th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mion\u001b[48;5;68mal\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mle\u001b[48;5;185mm\u001b[48;5;77men\u001b[48;5;80mt\u001b[48;5;68mat\u001b[48;5;134mion\u001b[48;5;167m of\u001b[48;5;179m the\u001b[48;5;185m b\u001b[48;5;77myte\u001b[48;5;80m pair\u001b[48;5;68m en\u001b[48;5;134mcoding\u001b[48;5;167m \u001b[48;5;179mal\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mit\u001b[48;5;68mh\u001b[48;5;134mm\u001b[48;5;167m.\u001b[48;5;179m\"\"\"\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mro\u001b[48;5;68mm\u001b[48;5;134m \u001b[48;5;167m__\u001b[48;5;179mf\u001b[48;5;185mut\u001b[48;5;77mu\u001b[48;5;80mre\u001b[48;5;68m__\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mort\u001b[48;5;185m an\u001b[48;5;77mn\u001b[48;5;80mo\u001b[48;5;68mt\u001b[48;5;134mat\u001b[48;5;167mion\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mimp\u001b[48;5;68mort\u001b[48;5;134m \u001b[48;5;167mco\u001b[48;5;179ml\u001b[48;5;185mle\u001b[48;5;77mct\u001b[48;5;80mion\u001b[48;5;68ms\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mort\u001b[48;5;185m i\u001b[48;5;77mte\u001b[48;5;80mrt\u001b[48;5;68mo\u001b[48;5;134mo\u001b[48;5;167ml\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mro\u001b[48;5;68mm\u001b[48;5;134m t\u001b[48;5;167my\u001b[48;5;179mp\u001b[48;5;185ming\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mort\u001b[48;5;134m \u001b[48;5;167mO\u001b[48;5;179mpt\u001b[48;5;185mion\u001b[48;5;77mal\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mort\u001b[48;5;179m re\u001b[48;5;185mge\u001b[48;5;77mx\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mort\u001b[48;5;179m t\u001b[48;5;185mi\u001b[48;5;77mk\u001b[48;5;80mtoken\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mc\u001b[48;5;185mla\u001b[48;5;77ms\u001b[48;5;80ms\u001b[48;5;68m S\u001b[48;5;134mimple\u001b[48;5;167mB\u001b[48;5;179myte\u001b[48;5;185mP\u001b[48;5;77ma\u001b[48;5;80mir\u001b[48;5;68mEn\u001b[48;5;134mcoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m def\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68min\u001b[48;5;134mit\u001b[48;5;167m__\u001b[48;5;179m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' ' + b'u'\n", + "So we made b' u' our 440th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mion\u001b[48;5;68mal\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mle\u001b[48;5;185mm\u001b[48;5;77men\u001b[48;5;80mt\u001b[48;5;68mat\u001b[48;5;134mion\u001b[48;5;167m of\u001b[48;5;179m the\u001b[48;5;185m b\u001b[48;5;77myte\u001b[48;5;80m pair\u001b[48;5;68m en\u001b[48;5;134mcoding\u001b[48;5;167m \u001b[48;5;179mal\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mit\u001b[48;5;68mh\u001b[48;5;134mm\u001b[48;5;167m.\u001b[48;5;179m\"\"\"\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mro\u001b[48;5;68mm\u001b[48;5;134m \u001b[48;5;167m__\u001b[48;5;179mf\u001b[48;5;185mut\u001b[48;5;77mu\u001b[48;5;80mre\u001b[48;5;68m__\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mort\u001b[48;5;185m an\u001b[48;5;77mn\u001b[48;5;80mo\u001b[48;5;68mt\u001b[48;5;134mat\u001b[48;5;167mion\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mimp\u001b[48;5;68mort\u001b[48;5;134m \u001b[48;5;167mco\u001b[48;5;179ml\u001b[48;5;185mle\u001b[48;5;77mct\u001b[48;5;80mion\u001b[48;5;68ms\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mort\u001b[48;5;185m i\u001b[48;5;77mte\u001b[48;5;80mrt\u001b[48;5;68mo\u001b[48;5;134mo\u001b[48;5;167ml\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mro\u001b[48;5;68mm\u001b[48;5;134m t\u001b[48;5;167my\u001b[48;5;179mp\u001b[48;5;185ming\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mort\u001b[48;5;134m \u001b[48;5;167mO\u001b[48;5;179mpt\u001b[48;5;185mion\u001b[48;5;77mal\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mort\u001b[48;5;179m re\u001b[48;5;185mge\u001b[48;5;77mx\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mort\u001b[48;5;179m t\u001b[48;5;185mi\u001b[48;5;77mk\u001b[48;5;80mtoken\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mc\u001b[48;5;185mla\u001b[48;5;77ms\u001b[48;5;80ms\u001b[48;5;68m S\u001b[48;5;134mimple\u001b[48;5;167mB\u001b[48;5;179myte\u001b[48;5;185mP\u001b[48;5;77ma\u001b[48;5;80mir\u001b[48;5;68mEn\u001b[48;5;134mcoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m def\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68min\u001b[48;5;134mit\u001b[48;5;167m__\u001b[48;5;179m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'x' + b't'\n", + "So we made b'xt' our 441th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mion\u001b[48;5;68mal\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mle\u001b[48;5;185mm\u001b[48;5;77men\u001b[48;5;80mt\u001b[48;5;68mat\u001b[48;5;134mion\u001b[48;5;167m of\u001b[48;5;179m the\u001b[48;5;185m b\u001b[48;5;77myte\u001b[48;5;80m pair\u001b[48;5;68m en\u001b[48;5;134mcoding\u001b[48;5;167m \u001b[48;5;179mal\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mit\u001b[48;5;68mh\u001b[48;5;134mm\u001b[48;5;167m.\u001b[48;5;179m\"\"\"\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mro\u001b[48;5;68mm\u001b[48;5;134m \u001b[48;5;167m__\u001b[48;5;179mf\u001b[48;5;185mut\u001b[48;5;77mu\u001b[48;5;80mre\u001b[48;5;68m__\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mort\u001b[48;5;185m an\u001b[48;5;77mn\u001b[48;5;80mo\u001b[48;5;68mt\u001b[48;5;134mat\u001b[48;5;167mion\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mimp\u001b[48;5;68mort\u001b[48;5;134m \u001b[48;5;167mco\u001b[48;5;179ml\u001b[48;5;185mle\u001b[48;5;77mct\u001b[48;5;80mion\u001b[48;5;68ms\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mort\u001b[48;5;185m i\u001b[48;5;77mte\u001b[48;5;80mrt\u001b[48;5;68mo\u001b[48;5;134mo\u001b[48;5;167ml\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mro\u001b[48;5;68mm\u001b[48;5;134m t\u001b[48;5;167my\u001b[48;5;179mp\u001b[48;5;185ming\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mort\u001b[48;5;134m \u001b[48;5;167mO\u001b[48;5;179mpt\u001b[48;5;185mion\u001b[48;5;77mal\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mort\u001b[48;5;179m re\u001b[48;5;185mge\u001b[48;5;77mx\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mort\u001b[48;5;179m t\u001b[48;5;185mi\u001b[48;5;77mk\u001b[48;5;80mtoken\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mc\u001b[48;5;185mla\u001b[48;5;77ms\u001b[48;5;80ms\u001b[48;5;68m S\u001b[48;5;134mimple\u001b[48;5;167mB\u001b[48;5;179myte\u001b[48;5;185mP\u001b[48;5;77ma\u001b[48;5;80mir\u001b[48;5;68mEn\u001b[48;5;134mcoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m def\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68min\u001b[48;5;134mit\u001b[48;5;167m__\u001b[48;5;179m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' ' + b'self'\n", + "So we made b' self' our 442th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mion\u001b[48;5;68mal\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mle\u001b[48;5;185mm\u001b[48;5;77men\u001b[48;5;80mt\u001b[48;5;68mat\u001b[48;5;134mion\u001b[48;5;167m of\u001b[48;5;179m the\u001b[48;5;185m b\u001b[48;5;77myte\u001b[48;5;80m pair\u001b[48;5;68m en\u001b[48;5;134mcoding\u001b[48;5;167m \u001b[48;5;179mal\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mit\u001b[48;5;68mh\u001b[48;5;134mm\u001b[48;5;167m.\u001b[48;5;179m\"\"\"\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mro\u001b[48;5;68mm\u001b[48;5;134m \u001b[48;5;167m__\u001b[48;5;179mf\u001b[48;5;185mut\u001b[48;5;77mu\u001b[48;5;80mre\u001b[48;5;68m__\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mort\u001b[48;5;185m an\u001b[48;5;77mn\u001b[48;5;80mo\u001b[48;5;68mt\u001b[48;5;134mat\u001b[48;5;167mion\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mimp\u001b[48;5;68mort\u001b[48;5;134m \u001b[48;5;167mco\u001b[48;5;179ml\u001b[48;5;185mle\u001b[48;5;77mct\u001b[48;5;80mion\u001b[48;5;68ms\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mort\u001b[48;5;185m i\u001b[48;5;77mte\u001b[48;5;80mrt\u001b[48;5;68mo\u001b[48;5;134mo\u001b[48;5;167ml\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mro\u001b[48;5;68mm\u001b[48;5;134m t\u001b[48;5;167my\u001b[48;5;179mp\u001b[48;5;185ming\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mort\u001b[48;5;134m \u001b[48;5;167mO\u001b[48;5;179mpt\u001b[48;5;185mion\u001b[48;5;77mal\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mort\u001b[48;5;179m re\u001b[48;5;185mge\u001b[48;5;77mx\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mort\u001b[48;5;179m t\u001b[48;5;185mi\u001b[48;5;77mk\u001b[48;5;80mtoken\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mc\u001b[48;5;185mla\u001b[48;5;77ms\u001b[48;5;80ms\u001b[48;5;68m S\u001b[48;5;134mimple\u001b[48;5;167mB\u001b[48;5;179myte\u001b[48;5;185mP\u001b[48;5;77ma\u001b[48;5;80mir\u001b[48;5;68mEn\u001b[48;5;134mcoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m def\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68min\u001b[48;5;134mit\u001b[48;5;167m__\u001b[48;5;179m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'a' + b'p'\n", + "So we made b'ap' our 443th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mion\u001b[48;5;68mal\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mle\u001b[48;5;185mm\u001b[48;5;77men\u001b[48;5;80mt\u001b[48;5;68mat\u001b[48;5;134mion\u001b[48;5;167m of\u001b[48;5;179m the\u001b[48;5;185m b\u001b[48;5;77myte\u001b[48;5;80m pair\u001b[48;5;68m en\u001b[48;5;134mcoding\u001b[48;5;167m \u001b[48;5;179mal\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mit\u001b[48;5;68mh\u001b[48;5;134mm\u001b[48;5;167m.\u001b[48;5;179m\"\"\"\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mro\u001b[48;5;68mm\u001b[48;5;134m \u001b[48;5;167m__\u001b[48;5;179mf\u001b[48;5;185mut\u001b[48;5;77mu\u001b[48;5;80mre\u001b[48;5;68m__\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mort\u001b[48;5;185m an\u001b[48;5;77mn\u001b[48;5;80mo\u001b[48;5;68mt\u001b[48;5;134mat\u001b[48;5;167mion\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mimp\u001b[48;5;68mort\u001b[48;5;134m \u001b[48;5;167mco\u001b[48;5;179ml\u001b[48;5;185mle\u001b[48;5;77mct\u001b[48;5;80mion\u001b[48;5;68ms\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mort\u001b[48;5;185m i\u001b[48;5;77mte\u001b[48;5;80mrt\u001b[48;5;68mo\u001b[48;5;134mo\u001b[48;5;167ml\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mro\u001b[48;5;68mm\u001b[48;5;134m t\u001b[48;5;167my\u001b[48;5;179mp\u001b[48;5;185ming\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mort\u001b[48;5;134m \u001b[48;5;167mO\u001b[48;5;179mpt\u001b[48;5;185mion\u001b[48;5;77mal\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mort\u001b[48;5;179m re\u001b[48;5;185mge\u001b[48;5;77mx\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mort\u001b[48;5;179m t\u001b[48;5;185mi\u001b[48;5;77mk\u001b[48;5;80mtoken\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mc\u001b[48;5;185mla\u001b[48;5;77ms\u001b[48;5;80ms\u001b[48;5;68m S\u001b[48;5;134mimple\u001b[48;5;167mB\u001b[48;5;179myte\u001b[48;5;185mP\u001b[48;5;77ma\u001b[48;5;80mir\u001b[48;5;68mEn\u001b[48;5;134mcoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m def\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68min\u001b[48;5;134mit\u001b[48;5;167m__\u001b[48;5;179m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'ap' + b'p'\n", + "So we made b'app' our 444th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mion\u001b[48;5;68mal\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mle\u001b[48;5;185mm\u001b[48;5;77men\u001b[48;5;80mt\u001b[48;5;68mat\u001b[48;5;134mion\u001b[48;5;167m of\u001b[48;5;179m the\u001b[48;5;185m b\u001b[48;5;77myte\u001b[48;5;80m pair\u001b[48;5;68m en\u001b[48;5;134mcoding\u001b[48;5;167m \u001b[48;5;179mal\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mit\u001b[48;5;68mh\u001b[48;5;134mm\u001b[48;5;167m.\u001b[48;5;179m\"\"\"\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mro\u001b[48;5;68mm\u001b[48;5;134m \u001b[48;5;167m__\u001b[48;5;179mf\u001b[48;5;185mut\u001b[48;5;77mu\u001b[48;5;80mre\u001b[48;5;68m__\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mort\u001b[48;5;185m an\u001b[48;5;77mn\u001b[48;5;80mo\u001b[48;5;68mt\u001b[48;5;134mat\u001b[48;5;167mion\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mimp\u001b[48;5;68mort\u001b[48;5;134m \u001b[48;5;167mco\u001b[48;5;179ml\u001b[48;5;185mle\u001b[48;5;77mct\u001b[48;5;80mion\u001b[48;5;68ms\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mort\u001b[48;5;185m i\u001b[48;5;77mte\u001b[48;5;80mrt\u001b[48;5;68mo\u001b[48;5;134mo\u001b[48;5;167ml\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mro\u001b[48;5;68mm\u001b[48;5;134m t\u001b[48;5;167my\u001b[48;5;179mp\u001b[48;5;185ming\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mort\u001b[48;5;134m \u001b[48;5;167mO\u001b[48;5;179mpt\u001b[48;5;185mion\u001b[48;5;77mal\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mort\u001b[48;5;179m re\u001b[48;5;185mge\u001b[48;5;77mx\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mort\u001b[48;5;179m t\u001b[48;5;185mi\u001b[48;5;77mk\u001b[48;5;80mtoken\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mc\u001b[48;5;185mla\u001b[48;5;77ms\u001b[48;5;80ms\u001b[48;5;68m S\u001b[48;5;134mimple\u001b[48;5;167mB\u001b[48;5;179myte\u001b[48;5;185mP\u001b[48;5;77ma\u001b[48;5;80mir\u001b[48;5;68mEn\u001b[48;5;134mcoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m def\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68min\u001b[48;5;134mit\u001b[48;5;167m__\u001b[48;5;179m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' ' + b'ranks'\n", + "So we made b' ranks' our 445th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mion\u001b[48;5;68mal\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mle\u001b[48;5;185mm\u001b[48;5;77men\u001b[48;5;80mt\u001b[48;5;68mat\u001b[48;5;134mion\u001b[48;5;167m of\u001b[48;5;179m the\u001b[48;5;185m b\u001b[48;5;77myte\u001b[48;5;80m pair\u001b[48;5;68m en\u001b[48;5;134mcoding\u001b[48;5;167m \u001b[48;5;179mal\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mit\u001b[48;5;68mh\u001b[48;5;134mm\u001b[48;5;167m.\u001b[48;5;179m\"\"\"\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mro\u001b[48;5;68mm\u001b[48;5;134m \u001b[48;5;167m__\u001b[48;5;179mf\u001b[48;5;185mut\u001b[48;5;77mu\u001b[48;5;80mre\u001b[48;5;68m__\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mort\u001b[48;5;185m an\u001b[48;5;77mn\u001b[48;5;80mo\u001b[48;5;68mt\u001b[48;5;134mat\u001b[48;5;167mion\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mimp\u001b[48;5;68mort\u001b[48;5;134m \u001b[48;5;167mco\u001b[48;5;179ml\u001b[48;5;185mle\u001b[48;5;77mct\u001b[48;5;80mion\u001b[48;5;68ms\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mort\u001b[48;5;185m i\u001b[48;5;77mte\u001b[48;5;80mrt\u001b[48;5;68mo\u001b[48;5;134mo\u001b[48;5;167ml\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mro\u001b[48;5;68mm\u001b[48;5;134m t\u001b[48;5;167my\u001b[48;5;179mp\u001b[48;5;185ming\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mort\u001b[48;5;134m \u001b[48;5;167mO\u001b[48;5;179mpt\u001b[48;5;185mion\u001b[48;5;77mal\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mort\u001b[48;5;179m re\u001b[48;5;185mge\u001b[48;5;77mx\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mort\u001b[48;5;179m t\u001b[48;5;185mi\u001b[48;5;77mk\u001b[48;5;80mtoken\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mc\u001b[48;5;185mla\u001b[48;5;77ms\u001b[48;5;80ms\u001b[48;5;68m S\u001b[48;5;134mimple\u001b[48;5;167mB\u001b[48;5;179myte\u001b[48;5;185mP\u001b[48;5;77ma\u001b[48;5;80mir\u001b[48;5;68mEn\u001b[48;5;134mcoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m def\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68min\u001b[48;5;134mit\u001b[48;5;167m__\u001b[48;5;179m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' ' + b'T'\n", + "So we made b' T' our 446th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mion\u001b[48;5;68mal\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mle\u001b[48;5;185mm\u001b[48;5;77men\u001b[48;5;80mt\u001b[48;5;68mat\u001b[48;5;134mion\u001b[48;5;167m of\u001b[48;5;179m the\u001b[48;5;185m b\u001b[48;5;77myte\u001b[48;5;80m pair\u001b[48;5;68m en\u001b[48;5;134mcoding\u001b[48;5;167m \u001b[48;5;179mal\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mit\u001b[48;5;68mh\u001b[48;5;134mm\u001b[48;5;167m.\u001b[48;5;179m\"\"\"\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mro\u001b[48;5;68mm\u001b[48;5;134m \u001b[48;5;167m__\u001b[48;5;179mf\u001b[48;5;185mut\u001b[48;5;77mu\u001b[48;5;80mre\u001b[48;5;68m__\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mort\u001b[48;5;185m an\u001b[48;5;77mn\u001b[48;5;80mo\u001b[48;5;68mt\u001b[48;5;134mat\u001b[48;5;167mion\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mimp\u001b[48;5;68mort\u001b[48;5;134m \u001b[48;5;167mco\u001b[48;5;179ml\u001b[48;5;185mle\u001b[48;5;77mct\u001b[48;5;80mion\u001b[48;5;68ms\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mort\u001b[48;5;185m i\u001b[48;5;77mte\u001b[48;5;80mrt\u001b[48;5;68mo\u001b[48;5;134mo\u001b[48;5;167ml\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mro\u001b[48;5;68mm\u001b[48;5;134m t\u001b[48;5;167my\u001b[48;5;179mp\u001b[48;5;185ming\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mort\u001b[48;5;134m \u001b[48;5;167mO\u001b[48;5;179mpt\u001b[48;5;185mion\u001b[48;5;77mal\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mort\u001b[48;5;179m re\u001b[48;5;185mge\u001b[48;5;77mx\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mort\u001b[48;5;179m t\u001b[48;5;185mi\u001b[48;5;77mk\u001b[48;5;80mtoken\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mc\u001b[48;5;185mla\u001b[48;5;77ms\u001b[48;5;80ms\u001b[48;5;68m S\u001b[48;5;134mimple\u001b[48;5;167mB\u001b[48;5;179myte\u001b[48;5;185mP\u001b[48;5;77ma\u001b[48;5;80mir\u001b[48;5;68mEn\u001b[48;5;134mcoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m def\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68min\u001b[48;5;134mit\u001b[48;5;167m__\u001b[48;5;179m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' ' + b'{'\n", + "So we made b' {' our 447th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mion\u001b[48;5;68mal\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mle\u001b[48;5;185mm\u001b[48;5;77men\u001b[48;5;80mt\u001b[48;5;68mat\u001b[48;5;134mion\u001b[48;5;167m of\u001b[48;5;179m the\u001b[48;5;185m b\u001b[48;5;77myte\u001b[48;5;80m pair\u001b[48;5;68m en\u001b[48;5;134mcoding\u001b[48;5;167m \u001b[48;5;179mal\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mit\u001b[48;5;68mh\u001b[48;5;134mm\u001b[48;5;167m.\u001b[48;5;179m\"\"\"\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mro\u001b[48;5;68mm\u001b[48;5;134m \u001b[48;5;167m__\u001b[48;5;179mf\u001b[48;5;185mut\u001b[48;5;77mu\u001b[48;5;80mre\u001b[48;5;68m__\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mort\u001b[48;5;185m an\u001b[48;5;77mn\u001b[48;5;80mo\u001b[48;5;68mt\u001b[48;5;134mat\u001b[48;5;167mion\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mimp\u001b[48;5;68mort\u001b[48;5;134m \u001b[48;5;167mco\u001b[48;5;179ml\u001b[48;5;185mle\u001b[48;5;77mct\u001b[48;5;80mion\u001b[48;5;68ms\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mort\u001b[48;5;185m i\u001b[48;5;77mte\u001b[48;5;80mrt\u001b[48;5;68mo\u001b[48;5;134mo\u001b[48;5;167ml\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mro\u001b[48;5;68mm\u001b[48;5;134m t\u001b[48;5;167my\u001b[48;5;179mp\u001b[48;5;185ming\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mort\u001b[48;5;134m \u001b[48;5;167mO\u001b[48;5;179mpt\u001b[48;5;185mion\u001b[48;5;77mal\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mort\u001b[48;5;179m re\u001b[48;5;185mge\u001b[48;5;77mx\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mort\u001b[48;5;179m t\u001b[48;5;185mi\u001b[48;5;77mk\u001b[48;5;80mtoken\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mc\u001b[48;5;185mla\u001b[48;5;77ms\u001b[48;5;80ms\u001b[48;5;68m S\u001b[48;5;134mimple\u001b[48;5;167mB\u001b[48;5;179myte\u001b[48;5;185mP\u001b[48;5;77ma\u001b[48;5;80mir\u001b[48;5;68mEn\u001b[48;5;134mcoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m def\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68min\u001b[48;5;134mit\u001b[48;5;167m__\u001b[48;5;179m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'c' + b'h'\n", + "So we made b'ch' our 448th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mion\u001b[48;5;68mal\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mle\u001b[48;5;185mm\u001b[48;5;77men\u001b[48;5;80mt\u001b[48;5;68mat\u001b[48;5;134mion\u001b[48;5;167m of\u001b[48;5;179m the\u001b[48;5;185m b\u001b[48;5;77myte\u001b[48;5;80m pair\u001b[48;5;68m en\u001b[48;5;134mcoding\u001b[48;5;167m \u001b[48;5;179mal\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mit\u001b[48;5;68mh\u001b[48;5;134mm\u001b[48;5;167m.\u001b[48;5;179m\"\"\"\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mro\u001b[48;5;68mm\u001b[48;5;134m \u001b[48;5;167m__\u001b[48;5;179mf\u001b[48;5;185mut\u001b[48;5;77mu\u001b[48;5;80mre\u001b[48;5;68m__\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mort\u001b[48;5;185m an\u001b[48;5;77mn\u001b[48;5;80mo\u001b[48;5;68mt\u001b[48;5;134mat\u001b[48;5;167mion\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mimp\u001b[48;5;68mort\u001b[48;5;134m \u001b[48;5;167mco\u001b[48;5;179ml\u001b[48;5;185mle\u001b[48;5;77mct\u001b[48;5;80mion\u001b[48;5;68ms\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mort\u001b[48;5;185m i\u001b[48;5;77mte\u001b[48;5;80mrt\u001b[48;5;68mo\u001b[48;5;134mo\u001b[48;5;167ml\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mro\u001b[48;5;68mm\u001b[48;5;134m t\u001b[48;5;167my\u001b[48;5;179mp\u001b[48;5;185ming\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mort\u001b[48;5;134m \u001b[48;5;167mO\u001b[48;5;179mpt\u001b[48;5;185mion\u001b[48;5;77mal\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mort\u001b[48;5;179m re\u001b[48;5;185mge\u001b[48;5;77mx\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mort\u001b[48;5;179m t\u001b[48;5;185mi\u001b[48;5;77mk\u001b[48;5;80mtoken\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mc\u001b[48;5;185mla\u001b[48;5;77ms\u001b[48;5;80ms\u001b[48;5;68m S\u001b[48;5;134mimple\u001b[48;5;167mB\u001b[48;5;179myte\u001b[48;5;185mP\u001b[48;5;77ma\u001b[48;5;80mir\u001b[48;5;68mEn\u001b[48;5;134mcoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m def\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68min\u001b[48;5;134mit\u001b[48;5;167m__\u001b[48;5;179m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'st' + b'at'\n", + "So we made b'stat' our 449th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mion\u001b[48;5;68mal\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mle\u001b[48;5;185mm\u001b[48;5;77men\u001b[48;5;80mt\u001b[48;5;68mat\u001b[48;5;134mion\u001b[48;5;167m of\u001b[48;5;179m the\u001b[48;5;185m b\u001b[48;5;77myte\u001b[48;5;80m pair\u001b[48;5;68m en\u001b[48;5;134mcoding\u001b[48;5;167m \u001b[48;5;179mal\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mit\u001b[48;5;68mh\u001b[48;5;134mm\u001b[48;5;167m.\u001b[48;5;179m\"\"\"\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mro\u001b[48;5;68mm\u001b[48;5;134m \u001b[48;5;167m__\u001b[48;5;179mf\u001b[48;5;185mut\u001b[48;5;77mu\u001b[48;5;80mre\u001b[48;5;68m__\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mort\u001b[48;5;185m an\u001b[48;5;77mn\u001b[48;5;80mo\u001b[48;5;68mt\u001b[48;5;134mat\u001b[48;5;167mion\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mimp\u001b[48;5;68mort\u001b[48;5;134m \u001b[48;5;167mco\u001b[48;5;179ml\u001b[48;5;185mle\u001b[48;5;77mct\u001b[48;5;80mion\u001b[48;5;68ms\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mort\u001b[48;5;185m i\u001b[48;5;77mte\u001b[48;5;80mrt\u001b[48;5;68mo\u001b[48;5;134mo\u001b[48;5;167ml\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mro\u001b[48;5;68mm\u001b[48;5;134m t\u001b[48;5;167my\u001b[48;5;179mp\u001b[48;5;185ming\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mort\u001b[48;5;134m \u001b[48;5;167mO\u001b[48;5;179mpt\u001b[48;5;185mion\u001b[48;5;77mal\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mort\u001b[48;5;179m re\u001b[48;5;185mge\u001b[48;5;77mx\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mort\u001b[48;5;179m t\u001b[48;5;185mi\u001b[48;5;77mk\u001b[48;5;80mtoken\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mc\u001b[48;5;185mla\u001b[48;5;77ms\u001b[48;5;80ms\u001b[48;5;68m S\u001b[48;5;134mimple\u001b[48;5;167mB\u001b[48;5;179myte\u001b[48;5;185mP\u001b[48;5;77ma\u001b[48;5;80mir\u001b[48;5;68mEn\u001b[48;5;134mcoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m def\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68min\u001b[48;5;134mit\u001b[48;5;167m__\u001b[48;5;179m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' v' + b'ocab'\n", + "So we made b' vocab' our 450th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mion\u001b[48;5;68mal\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mle\u001b[48;5;185mm\u001b[48;5;77men\u001b[48;5;80mt\u001b[48;5;68mat\u001b[48;5;134mion\u001b[48;5;167m of\u001b[48;5;179m the\u001b[48;5;185m b\u001b[48;5;77myte\u001b[48;5;80m pair\u001b[48;5;68m en\u001b[48;5;134mcoding\u001b[48;5;167m \u001b[48;5;179mal\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mit\u001b[48;5;68mh\u001b[48;5;134mm\u001b[48;5;167m.\u001b[48;5;179m\"\"\"\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mro\u001b[48;5;68mm\u001b[48;5;134m \u001b[48;5;167m__\u001b[48;5;179mf\u001b[48;5;185mut\u001b[48;5;77mu\u001b[48;5;80mre\u001b[48;5;68m__\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mort\u001b[48;5;185m an\u001b[48;5;77mn\u001b[48;5;80mo\u001b[48;5;68mt\u001b[48;5;134mat\u001b[48;5;167mion\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mimp\u001b[48;5;68mort\u001b[48;5;134m \u001b[48;5;167mco\u001b[48;5;179ml\u001b[48;5;185mle\u001b[48;5;77mct\u001b[48;5;80mion\u001b[48;5;68ms\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mort\u001b[48;5;185m i\u001b[48;5;77mte\u001b[48;5;80mrt\u001b[48;5;68mo\u001b[48;5;134mo\u001b[48;5;167ml\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mro\u001b[48;5;68mm\u001b[48;5;134m t\u001b[48;5;167my\u001b[48;5;179mp\u001b[48;5;185ming\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mort\u001b[48;5;134m \u001b[48;5;167mO\u001b[48;5;179mpt\u001b[48;5;185mion\u001b[48;5;77mal\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mort\u001b[48;5;179m re\u001b[48;5;185mge\u001b[48;5;77mx\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mort\u001b[48;5;179m t\u001b[48;5;185mi\u001b[48;5;77mk\u001b[48;5;80mtoken\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mc\u001b[48;5;185mla\u001b[48;5;77ms\u001b[48;5;80ms\u001b[48;5;68m S\u001b[48;5;134mimple\u001b[48;5;167mB\u001b[48;5;179myte\u001b[48;5;185mP\u001b[48;5;77ma\u001b[48;5;80mir\u001b[48;5;68mEn\u001b[48;5;134mcoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m def\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68min\u001b[48;5;134mit\u001b[48;5;167m__\u001b[48;5;179m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b')' + b':'\n", + "So we made b'):' our 451th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mion\u001b[48;5;68mal\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mle\u001b[48;5;185mm\u001b[48;5;77men\u001b[48;5;80mt\u001b[48;5;68mat\u001b[48;5;134mion\u001b[48;5;167m of\u001b[48;5;179m the\u001b[48;5;185m b\u001b[48;5;77myte\u001b[48;5;80m pair\u001b[48;5;68m en\u001b[48;5;134mcoding\u001b[48;5;167m \u001b[48;5;179mal\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mit\u001b[48;5;68mh\u001b[48;5;134mm\u001b[48;5;167m.\u001b[48;5;179m\"\"\"\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mro\u001b[48;5;68mm\u001b[48;5;134m \u001b[48;5;167m__\u001b[48;5;179mf\u001b[48;5;185mut\u001b[48;5;77mu\u001b[48;5;80mre\u001b[48;5;68m__\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mort\u001b[48;5;185m an\u001b[48;5;77mn\u001b[48;5;80mo\u001b[48;5;68mt\u001b[48;5;134mat\u001b[48;5;167mion\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mimp\u001b[48;5;68mort\u001b[48;5;134m \u001b[48;5;167mco\u001b[48;5;179ml\u001b[48;5;185mle\u001b[48;5;77mct\u001b[48;5;80mion\u001b[48;5;68ms\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mort\u001b[48;5;185m i\u001b[48;5;77mte\u001b[48;5;80mrt\u001b[48;5;68mo\u001b[48;5;134mo\u001b[48;5;167ml\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mro\u001b[48;5;68mm\u001b[48;5;134m t\u001b[48;5;167my\u001b[48;5;179mp\u001b[48;5;185ming\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mort\u001b[48;5;134m \u001b[48;5;167mO\u001b[48;5;179mpt\u001b[48;5;185mion\u001b[48;5;77mal\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mort\u001b[48;5;179m re\u001b[48;5;185mge\u001b[48;5;77mx\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mort\u001b[48;5;179m t\u001b[48;5;185mi\u001b[48;5;77mk\u001b[48;5;80mtoken\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mc\u001b[48;5;185mla\u001b[48;5;77ms\u001b[48;5;80ms\u001b[48;5;68m S\u001b[48;5;134mimple\u001b[48;5;167mB\u001b[48;5;179myte\u001b[48;5;185mP\u001b[48;5;77ma\u001b[48;5;80mir\u001b[48;5;68mEn\u001b[48;5;134mcoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m def\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68min\u001b[48;5;134mit\u001b[48;5;167m__\u001b[48;5;179m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'\\n ' + b' '\n", + "So we made b'\\n ' our 452th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mion\u001b[48;5;68mal\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mle\u001b[48;5;185mm\u001b[48;5;77men\u001b[48;5;80mt\u001b[48;5;68mat\u001b[48;5;134mion\u001b[48;5;167m of\u001b[48;5;179m the\u001b[48;5;185m b\u001b[48;5;77myte\u001b[48;5;80m pair\u001b[48;5;68m en\u001b[48;5;134mcoding\u001b[48;5;167m \u001b[48;5;179mal\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mit\u001b[48;5;68mh\u001b[48;5;134mm\u001b[48;5;167m.\u001b[48;5;179m\"\"\"\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mro\u001b[48;5;68mm\u001b[48;5;134m \u001b[48;5;167m__\u001b[48;5;179mf\u001b[48;5;185mut\u001b[48;5;77mu\u001b[48;5;80mre\u001b[48;5;68m__\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mort\u001b[48;5;185m an\u001b[48;5;77mn\u001b[48;5;80mo\u001b[48;5;68mt\u001b[48;5;134mat\u001b[48;5;167mion\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mimp\u001b[48;5;68mort\u001b[48;5;134m \u001b[48;5;167mco\u001b[48;5;179ml\u001b[48;5;185mle\u001b[48;5;77mct\u001b[48;5;80mion\u001b[48;5;68ms\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mort\u001b[48;5;185m i\u001b[48;5;77mte\u001b[48;5;80mrt\u001b[48;5;68mo\u001b[48;5;134mo\u001b[48;5;167ml\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mro\u001b[48;5;68mm\u001b[48;5;134m t\u001b[48;5;167my\u001b[48;5;179mp\u001b[48;5;185ming\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mort\u001b[48;5;134m \u001b[48;5;167mO\u001b[48;5;179mpt\u001b[48;5;185mion\u001b[48;5;77mal\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mort\u001b[48;5;179m re\u001b[48;5;185mge\u001b[48;5;77mx\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mort\u001b[48;5;179m t\u001b[48;5;185mi\u001b[48;5;77mk\u001b[48;5;80mtoken\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mc\u001b[48;5;185mla\u001b[48;5;77ms\u001b[48;5;80ms\u001b[48;5;68m S\u001b[48;5;134mimple\u001b[48;5;167mB\u001b[48;5;179myte\u001b[48;5;185mP\u001b[48;5;77ma\u001b[48;5;80mir\u001b[48;5;68mEn\u001b[48;5;134mcoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m def\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68min\u001b[48;5;134mit\u001b[48;5;167m__\u001b[48;5;179m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'\\n ' + b' '\n", + "So we made b'\\n ' our 453th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mion\u001b[48;5;68mal\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mle\u001b[48;5;185mm\u001b[48;5;77men\u001b[48;5;80mt\u001b[48;5;68mat\u001b[48;5;134mion\u001b[48;5;167m of\u001b[48;5;179m the\u001b[48;5;185m b\u001b[48;5;77myte\u001b[48;5;80m pair\u001b[48;5;68m en\u001b[48;5;134mcoding\u001b[48;5;167m \u001b[48;5;179mal\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mit\u001b[48;5;68mh\u001b[48;5;134mm\u001b[48;5;167m.\u001b[48;5;179m\"\"\"\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mro\u001b[48;5;68mm\u001b[48;5;134m \u001b[48;5;167m__\u001b[48;5;179mf\u001b[48;5;185mut\u001b[48;5;77mu\u001b[48;5;80mre\u001b[48;5;68m__\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mort\u001b[48;5;185m an\u001b[48;5;77mn\u001b[48;5;80mo\u001b[48;5;68mt\u001b[48;5;134mat\u001b[48;5;167mion\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mimp\u001b[48;5;68mort\u001b[48;5;134m \u001b[48;5;167mco\u001b[48;5;179ml\u001b[48;5;185mle\u001b[48;5;77mct\u001b[48;5;80mion\u001b[48;5;68ms\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mort\u001b[48;5;185m i\u001b[48;5;77mte\u001b[48;5;80mrt\u001b[48;5;68mo\u001b[48;5;134mo\u001b[48;5;167ml\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mro\u001b[48;5;68mm\u001b[48;5;134m t\u001b[48;5;167my\u001b[48;5;179mp\u001b[48;5;185ming\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mort\u001b[48;5;134m \u001b[48;5;167mO\u001b[48;5;179mpt\u001b[48;5;185mion\u001b[48;5;77mal\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mort\u001b[48;5;179m re\u001b[48;5;185mge\u001b[48;5;77mx\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mort\u001b[48;5;179m t\u001b[48;5;185mi\u001b[48;5;77mk\u001b[48;5;80mtoken\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mc\u001b[48;5;185mla\u001b[48;5;77ms\u001b[48;5;80ms\u001b[48;5;68m S\u001b[48;5;134mimple\u001b[48;5;167mB\u001b[48;5;179myte\u001b[48;5;185mP\u001b[48;5;77ma\u001b[48;5;80mir\u001b[48;5;68mEn\u001b[48;5;134mcoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m def\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68min\u001b[48;5;134mit\u001b[48;5;167m__\u001b[48;5;179m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'|' + b\"'\"\n", + "So we made b\"|'\" our 454th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mion\u001b[48;5;68mal\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mle\u001b[48;5;185mm\u001b[48;5;77men\u001b[48;5;80mt\u001b[48;5;68mat\u001b[48;5;134mion\u001b[48;5;167m of\u001b[48;5;179m the\u001b[48;5;185m b\u001b[48;5;77myte\u001b[48;5;80m pair\u001b[48;5;68m en\u001b[48;5;134mcoding\u001b[48;5;167m \u001b[48;5;179mal\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mit\u001b[48;5;68mh\u001b[48;5;134mm\u001b[48;5;167m.\u001b[48;5;179m\"\"\"\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mro\u001b[48;5;68mm\u001b[48;5;134m \u001b[48;5;167m__\u001b[48;5;179mf\u001b[48;5;185mut\u001b[48;5;77mu\u001b[48;5;80mre\u001b[48;5;68m__\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mort\u001b[48;5;185m an\u001b[48;5;77mn\u001b[48;5;80mo\u001b[48;5;68mt\u001b[48;5;134mat\u001b[48;5;167mion\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mimp\u001b[48;5;68mort\u001b[48;5;134m \u001b[48;5;167mco\u001b[48;5;179ml\u001b[48;5;185mle\u001b[48;5;77mct\u001b[48;5;80mion\u001b[48;5;68ms\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mort\u001b[48;5;185m i\u001b[48;5;77mte\u001b[48;5;80mrt\u001b[48;5;68mo\u001b[48;5;134mo\u001b[48;5;167ml\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mro\u001b[48;5;68mm\u001b[48;5;134m t\u001b[48;5;167my\u001b[48;5;179mp\u001b[48;5;185ming\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mort\u001b[48;5;134m \u001b[48;5;167mO\u001b[48;5;179mpt\u001b[48;5;185mion\u001b[48;5;77mal\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mort\u001b[48;5;179m re\u001b[48;5;185mge\u001b[48;5;77mx\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mort\u001b[48;5;179m t\u001b[48;5;185mi\u001b[48;5;77mk\u001b[48;5;80mtoken\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mc\u001b[48;5;185mla\u001b[48;5;77ms\u001b[48;5;80ms\u001b[48;5;68m S\u001b[48;5;134mimple\u001b[48;5;167mB\u001b[48;5;179myte\u001b[48;5;185mP\u001b[48;5;77ma\u001b[48;5;80mir\u001b[48;5;68mEn\u001b[48;5;134mcoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m def\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68min\u001b[48;5;134mit\u001b[48;5;167m__\u001b[48;5;179m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'ion' + b'al'\n", + "So we made b'ional' our 455th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185men\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134m of\u001b[48;5;167m the\u001b[48;5;179m b\u001b[48;5;185myte\u001b[48;5;77m pair\u001b[48;5;80m en\u001b[48;5;68mcoding\u001b[48;5;134m \u001b[48;5;167mal\u001b[48;5;179mg\u001b[48;5;185mor\u001b[48;5;77mit\u001b[48;5;80mh\u001b[48;5;68mm\u001b[48;5;134m.\u001b[48;5;167m\"\"\"\u001b[48;5;179m\n", + "\u001b[48;5;185mf\u001b[48;5;77mro\u001b[48;5;80mm\u001b[48;5;68m \u001b[48;5;134m__\u001b[48;5;167mf\u001b[48;5;179mut\u001b[48;5;185mu\u001b[48;5;77mre\u001b[48;5;80m__\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mort\u001b[48;5;179m an\u001b[48;5;185mn\u001b[48;5;77mo\u001b[48;5;80mt\u001b[48;5;68mat\u001b[48;5;134mion\u001b[48;5;167ms\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimp\u001b[48;5;80mort\u001b[48;5;68m \u001b[48;5;134mco\u001b[48;5;167ml\u001b[48;5;179mle\u001b[48;5;185mct\u001b[48;5;77mion\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mort\u001b[48;5;179m i\u001b[48;5;185mte\u001b[48;5;77mrt\u001b[48;5;80mo\u001b[48;5;68mo\u001b[48;5;134ml\u001b[48;5;167ms\u001b[48;5;179m\n", + "\u001b[48;5;185mf\u001b[48;5;77mro\u001b[48;5;80mm\u001b[48;5;68m t\u001b[48;5;134my\u001b[48;5;167mp\u001b[48;5;179ming\u001b[48;5;185m i\u001b[48;5;77mmp\u001b[48;5;80mort\u001b[48;5;68m \u001b[48;5;134mO\u001b[48;5;167mpt\u001b[48;5;179mional\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mimp\u001b[48;5;68mort\u001b[48;5;134m re\u001b[48;5;167mge\u001b[48;5;179mx\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mimp\u001b[48;5;68mort\u001b[48;5;134m t\u001b[48;5;167mi\u001b[48;5;179mk\u001b[48;5;185mtoken\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mc\u001b[48;5;167mla\u001b[48;5;179ms\u001b[48;5;185ms\u001b[48;5;77m S\u001b[48;5;80mimple\u001b[48;5;68mB\u001b[48;5;134myte\u001b[48;5;167mP\u001b[48;5;179ma\u001b[48;5;185mir\u001b[48;5;77mEn\u001b[48;5;80mcoding\u001b[48;5;68m:\u001b[48;5;134m\n", + " \u001b[48;5;167m def\u001b[48;5;179m \u001b[48;5;185m__\u001b[48;5;77min\u001b[48;5;80mit\u001b[48;5;68m__\u001b[48;5;134m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' ' + b'al'\n", + "So we made b' al' our 456th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185men\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134m of\u001b[48;5;167m the\u001b[48;5;179m b\u001b[48;5;185myte\u001b[48;5;77m pair\u001b[48;5;80m en\u001b[48;5;68mcoding\u001b[48;5;134m al\u001b[48;5;167mg\u001b[48;5;179mor\u001b[48;5;185mit\u001b[48;5;77mh\u001b[48;5;80mm\u001b[48;5;68m.\u001b[48;5;134m\"\"\"\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mro\u001b[48;5;77mm\u001b[48;5;80m \u001b[48;5;68m__\u001b[48;5;134mf\u001b[48;5;167mut\u001b[48;5;179mu\u001b[48;5;185mre\u001b[48;5;77m__\u001b[48;5;80m i\u001b[48;5;68mmp\u001b[48;5;134mort\u001b[48;5;167m an\u001b[48;5;179mn\u001b[48;5;185mo\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mort\u001b[48;5;80m \u001b[48;5;68mco\u001b[48;5;134ml\u001b[48;5;167mle\u001b[48;5;179mct\u001b[48;5;185mion\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68mimp\u001b[48;5;134mort\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mro\u001b[48;5;77mm\u001b[48;5;80m t\u001b[48;5;68my\u001b[48;5;134mp\u001b[48;5;167ming\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mort\u001b[48;5;80m \u001b[48;5;68mO\u001b[48;5;134mpt\u001b[48;5;167mional\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimp\u001b[48;5;80mort\u001b[48;5;68m re\u001b[48;5;134mge\u001b[48;5;167mx\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimp\u001b[48;5;80mort\u001b[48;5;68m t\u001b[48;5;134mi\u001b[48;5;167mk\u001b[48;5;179mtoken\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mc\u001b[48;5;134mla\u001b[48;5;167ms\u001b[48;5;179ms\u001b[48;5;185m S\u001b[48;5;77mimple\u001b[48;5;80mB\u001b[48;5;68myte\u001b[48;5;134mP\u001b[48;5;167ma\u001b[48;5;179mir\u001b[48;5;185mEn\u001b[48;5;77mcoding\u001b[48;5;80m:\u001b[48;5;68m\n", + " \u001b[48;5;134m def\u001b[48;5;167m \u001b[48;5;179m__\u001b[48;5;185min\u001b[48;5;77mit\u001b[48;5;80m__\u001b[48;5;68m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' ' + b'O'\n", + "So we made b' O' our 457th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185men\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134m of\u001b[48;5;167m the\u001b[48;5;179m b\u001b[48;5;185myte\u001b[48;5;77m pair\u001b[48;5;80m en\u001b[48;5;68mcoding\u001b[48;5;134m al\u001b[48;5;167mg\u001b[48;5;179mor\u001b[48;5;185mit\u001b[48;5;77mh\u001b[48;5;80mm\u001b[48;5;68m.\u001b[48;5;134m\"\"\"\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mro\u001b[48;5;77mm\u001b[48;5;80m \u001b[48;5;68m__\u001b[48;5;134mf\u001b[48;5;167mut\u001b[48;5;179mu\u001b[48;5;185mre\u001b[48;5;77m__\u001b[48;5;80m i\u001b[48;5;68mmp\u001b[48;5;134mort\u001b[48;5;167m an\u001b[48;5;179mn\u001b[48;5;185mo\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mort\u001b[48;5;80m \u001b[48;5;68mco\u001b[48;5;134ml\u001b[48;5;167mle\u001b[48;5;179mct\u001b[48;5;185mion\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68mimp\u001b[48;5;134mort\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mro\u001b[48;5;77mm\u001b[48;5;80m t\u001b[48;5;68my\u001b[48;5;134mp\u001b[48;5;167ming\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mort\u001b[48;5;80m O\u001b[48;5;68mpt\u001b[48;5;134mional\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mort\u001b[48;5;80m re\u001b[48;5;68mge\u001b[48;5;134mx\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mort\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mc\u001b[48;5;68mla\u001b[48;5;134ms\u001b[48;5;167ms\u001b[48;5;179m S\u001b[48;5;185mimple\u001b[48;5;77mB\u001b[48;5;80myte\u001b[48;5;68mP\u001b[48;5;134ma\u001b[48;5;167mir\u001b[48;5;179mEn\u001b[48;5;185mcoding\u001b[48;5;77m:\u001b[48;5;80m\n", + " \u001b[48;5;68m def\u001b[48;5;134m \u001b[48;5;167m__\u001b[48;5;179min\u001b[48;5;185mit\u001b[48;5;77m__\u001b[48;5;80m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' re' + b'ge'\n", + "So we made b' rege' our 458th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185men\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134m of\u001b[48;5;167m the\u001b[48;5;179m b\u001b[48;5;185myte\u001b[48;5;77m pair\u001b[48;5;80m en\u001b[48;5;68mcoding\u001b[48;5;134m al\u001b[48;5;167mg\u001b[48;5;179mor\u001b[48;5;185mit\u001b[48;5;77mh\u001b[48;5;80mm\u001b[48;5;68m.\u001b[48;5;134m\"\"\"\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mro\u001b[48;5;77mm\u001b[48;5;80m \u001b[48;5;68m__\u001b[48;5;134mf\u001b[48;5;167mut\u001b[48;5;179mu\u001b[48;5;185mre\u001b[48;5;77m__\u001b[48;5;80m i\u001b[48;5;68mmp\u001b[48;5;134mort\u001b[48;5;167m an\u001b[48;5;179mn\u001b[48;5;185mo\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mort\u001b[48;5;80m \u001b[48;5;68mco\u001b[48;5;134ml\u001b[48;5;167mle\u001b[48;5;179mct\u001b[48;5;185mion\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68mimp\u001b[48;5;134mort\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mro\u001b[48;5;77mm\u001b[48;5;80m t\u001b[48;5;68my\u001b[48;5;134mp\u001b[48;5;167ming\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mort\u001b[48;5;80m O\u001b[48;5;68mpt\u001b[48;5;134mional\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mort\u001b[48;5;80m rege\u001b[48;5;68mx\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mimp\u001b[48;5;185mort\u001b[48;5;77m t\u001b[48;5;80mi\u001b[48;5;68mk\u001b[48;5;134mtoken\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mc\u001b[48;5;80mla\u001b[48;5;68ms\u001b[48;5;134ms\u001b[48;5;167m S\u001b[48;5;179mimple\u001b[48;5;185mB\u001b[48;5;77myte\u001b[48;5;80mP\u001b[48;5;68ma\u001b[48;5;134mir\u001b[48;5;167mEn\u001b[48;5;179mcoding\u001b[48;5;185m:\u001b[48;5;77m\n", + " \u001b[48;5;80m def\u001b[48;5;68m \u001b[48;5;134m__\u001b[48;5;167min\u001b[48;5;179mit\u001b[48;5;185m__\u001b[48;5;77m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' rege' + b'x'\n", + "So we made b' regex' our 459th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185men\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134m of\u001b[48;5;167m the\u001b[48;5;179m b\u001b[48;5;185myte\u001b[48;5;77m pair\u001b[48;5;80m en\u001b[48;5;68mcoding\u001b[48;5;134m al\u001b[48;5;167mg\u001b[48;5;179mor\u001b[48;5;185mit\u001b[48;5;77mh\u001b[48;5;80mm\u001b[48;5;68m.\u001b[48;5;134m\"\"\"\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mro\u001b[48;5;77mm\u001b[48;5;80m \u001b[48;5;68m__\u001b[48;5;134mf\u001b[48;5;167mut\u001b[48;5;179mu\u001b[48;5;185mre\u001b[48;5;77m__\u001b[48;5;80m i\u001b[48;5;68mmp\u001b[48;5;134mort\u001b[48;5;167m an\u001b[48;5;179mn\u001b[48;5;185mo\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mort\u001b[48;5;80m \u001b[48;5;68mco\u001b[48;5;134ml\u001b[48;5;167mle\u001b[48;5;179mct\u001b[48;5;185mion\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68mimp\u001b[48;5;134mort\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mro\u001b[48;5;77mm\u001b[48;5;80m t\u001b[48;5;68my\u001b[48;5;134mp\u001b[48;5;167ming\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mort\u001b[48;5;80m O\u001b[48;5;68mpt\u001b[48;5;134mional\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mort\u001b[48;5;80m regex\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mort\u001b[48;5;185m t\u001b[48;5;77mi\u001b[48;5;80mk\u001b[48;5;68mtoken\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mc\u001b[48;5;77mla\u001b[48;5;80ms\u001b[48;5;68ms\u001b[48;5;134m S\u001b[48;5;167mimple\u001b[48;5;179mB\u001b[48;5;185myte\u001b[48;5;77mP\u001b[48;5;80ma\u001b[48;5;68mir\u001b[48;5;134mEn\u001b[48;5;167mcoding\u001b[48;5;179m:\u001b[48;5;185m\n", + " \u001b[48;5;77m def\u001b[48;5;80m \u001b[48;5;68m__\u001b[48;5;134min\u001b[48;5;167mit\u001b[48;5;179m__\u001b[48;5;185m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'\\n' + b'\\n'\n", + "So we made b'\\n\\n' our 460th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185men\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134m of\u001b[48;5;167m the\u001b[48;5;179m b\u001b[48;5;185myte\u001b[48;5;77m pair\u001b[48;5;80m en\u001b[48;5;68mcoding\u001b[48;5;134m al\u001b[48;5;167mg\u001b[48;5;179mor\u001b[48;5;185mit\u001b[48;5;77mh\u001b[48;5;80mm\u001b[48;5;68m.\u001b[48;5;134m\"\"\"\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mro\u001b[48;5;77mm\u001b[48;5;80m \u001b[48;5;68m__\u001b[48;5;134mf\u001b[48;5;167mut\u001b[48;5;179mu\u001b[48;5;185mre\u001b[48;5;77m__\u001b[48;5;80m i\u001b[48;5;68mmp\u001b[48;5;134mort\u001b[48;5;167m an\u001b[48;5;179mn\u001b[48;5;185mo\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mort\u001b[48;5;80m \u001b[48;5;68mco\u001b[48;5;134ml\u001b[48;5;167mle\u001b[48;5;179mct\u001b[48;5;185mion\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68mimp\u001b[48;5;134mort\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mro\u001b[48;5;77mm\u001b[48;5;80m t\u001b[48;5;68my\u001b[48;5;134mp\u001b[48;5;167ming\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mort\u001b[48;5;80m O\u001b[48;5;68mpt\u001b[48;5;134mional\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mort\u001b[48;5;80m regex\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mort\u001b[48;5;185m t\u001b[48;5;77mi\u001b[48;5;80mk\u001b[48;5;68mtoken\u001b[48;5;134m\n", + "\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mc\u001b[48;5;185mla\u001b[48;5;77ms\u001b[48;5;80ms\u001b[48;5;68m S\u001b[48;5;134mimple\u001b[48;5;167mB\u001b[48;5;179myte\u001b[48;5;185mP\u001b[48;5;77ma\u001b[48;5;80mir\u001b[48;5;68mEn\u001b[48;5;134mcoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m def\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68min\u001b[48;5;134mit\u001b[48;5;167m__\u001b[48;5;179m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b's' + b's'\n", + "So we made b'ss' our 461th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185men\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134m of\u001b[48;5;167m the\u001b[48;5;179m b\u001b[48;5;185myte\u001b[48;5;77m pair\u001b[48;5;80m en\u001b[48;5;68mcoding\u001b[48;5;134m al\u001b[48;5;167mg\u001b[48;5;179mor\u001b[48;5;185mit\u001b[48;5;77mh\u001b[48;5;80mm\u001b[48;5;68m.\u001b[48;5;134m\"\"\"\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mro\u001b[48;5;77mm\u001b[48;5;80m \u001b[48;5;68m__\u001b[48;5;134mf\u001b[48;5;167mut\u001b[48;5;179mu\u001b[48;5;185mre\u001b[48;5;77m__\u001b[48;5;80m i\u001b[48;5;68mmp\u001b[48;5;134mort\u001b[48;5;167m an\u001b[48;5;179mn\u001b[48;5;185mo\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mort\u001b[48;5;80m \u001b[48;5;68mco\u001b[48;5;134ml\u001b[48;5;167mle\u001b[48;5;179mct\u001b[48;5;185mion\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68mimp\u001b[48;5;134mort\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mro\u001b[48;5;77mm\u001b[48;5;80m t\u001b[48;5;68my\u001b[48;5;134mp\u001b[48;5;167ming\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mort\u001b[48;5;80m O\u001b[48;5;68mpt\u001b[48;5;134mional\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mort\u001b[48;5;80m regex\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mort\u001b[48;5;185m t\u001b[48;5;77mi\u001b[48;5;80mk\u001b[48;5;68mtoken\u001b[48;5;134m\n", + "\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mc\u001b[48;5;185mla\u001b[48;5;77mss\u001b[48;5;80m S\u001b[48;5;68mimple\u001b[48;5;134mB\u001b[48;5;167myte\u001b[48;5;179mP\u001b[48;5;185ma\u001b[48;5;77mir\u001b[48;5;80mEn\u001b[48;5;68mcoding\u001b[48;5;134m:\u001b[48;5;167m\n", + " \u001b[48;5;179m def\u001b[48;5;185m \u001b[48;5;77m__\u001b[48;5;80min\u001b[48;5;68mit\u001b[48;5;134m__\u001b[48;5;167m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'En' + b'coding'\n", + "So we made b'Encoding' our 462th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185men\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134m of\u001b[48;5;167m the\u001b[48;5;179m b\u001b[48;5;185myte\u001b[48;5;77m pair\u001b[48;5;80m en\u001b[48;5;68mcoding\u001b[48;5;134m al\u001b[48;5;167mg\u001b[48;5;179mor\u001b[48;5;185mit\u001b[48;5;77mh\u001b[48;5;80mm\u001b[48;5;68m.\u001b[48;5;134m\"\"\"\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mro\u001b[48;5;77mm\u001b[48;5;80m \u001b[48;5;68m__\u001b[48;5;134mf\u001b[48;5;167mut\u001b[48;5;179mu\u001b[48;5;185mre\u001b[48;5;77m__\u001b[48;5;80m i\u001b[48;5;68mmp\u001b[48;5;134mort\u001b[48;5;167m an\u001b[48;5;179mn\u001b[48;5;185mo\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mort\u001b[48;5;80m \u001b[48;5;68mco\u001b[48;5;134ml\u001b[48;5;167mle\u001b[48;5;179mct\u001b[48;5;185mion\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68mimp\u001b[48;5;134mort\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mro\u001b[48;5;77mm\u001b[48;5;80m t\u001b[48;5;68my\u001b[48;5;134mp\u001b[48;5;167ming\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mort\u001b[48;5;80m O\u001b[48;5;68mpt\u001b[48;5;134mional\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mort\u001b[48;5;80m regex\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mort\u001b[48;5;185m t\u001b[48;5;77mi\u001b[48;5;80mk\u001b[48;5;68mtoken\u001b[48;5;134m\n", + "\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mc\u001b[48;5;185mla\u001b[48;5;77mss\u001b[48;5;80m S\u001b[48;5;68mimple\u001b[48;5;134mB\u001b[48;5;167myte\u001b[48;5;179mP\u001b[48;5;185ma\u001b[48;5;77mir\u001b[48;5;80mEncoding\u001b[48;5;68m:\u001b[48;5;134m\n", + " \u001b[48;5;167m def\u001b[48;5;179m \u001b[48;5;185m__\u001b[48;5;77min\u001b[48;5;80mit\u001b[48;5;68m__\u001b[48;5;134m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'a' + b'te'\n", + "So we made b'ate' our 463th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185men\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134m of\u001b[48;5;167m the\u001b[48;5;179m b\u001b[48;5;185myte\u001b[48;5;77m pair\u001b[48;5;80m en\u001b[48;5;68mcoding\u001b[48;5;134m al\u001b[48;5;167mg\u001b[48;5;179mor\u001b[48;5;185mit\u001b[48;5;77mh\u001b[48;5;80mm\u001b[48;5;68m.\u001b[48;5;134m\"\"\"\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mro\u001b[48;5;77mm\u001b[48;5;80m \u001b[48;5;68m__\u001b[48;5;134mf\u001b[48;5;167mut\u001b[48;5;179mu\u001b[48;5;185mre\u001b[48;5;77m__\u001b[48;5;80m i\u001b[48;5;68mmp\u001b[48;5;134mort\u001b[48;5;167m an\u001b[48;5;179mn\u001b[48;5;185mo\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mort\u001b[48;5;80m \u001b[48;5;68mco\u001b[48;5;134ml\u001b[48;5;167mle\u001b[48;5;179mct\u001b[48;5;185mion\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68mimp\u001b[48;5;134mort\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mro\u001b[48;5;77mm\u001b[48;5;80m t\u001b[48;5;68my\u001b[48;5;134mp\u001b[48;5;167ming\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mort\u001b[48;5;80m O\u001b[48;5;68mpt\u001b[48;5;134mional\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mort\u001b[48;5;80m regex\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mort\u001b[48;5;185m t\u001b[48;5;77mi\u001b[48;5;80mk\u001b[48;5;68mtoken\u001b[48;5;134m\n", + "\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mc\u001b[48;5;185mla\u001b[48;5;77mss\u001b[48;5;80m S\u001b[48;5;68mimple\u001b[48;5;134mB\u001b[48;5;167myte\u001b[48;5;179mP\u001b[48;5;185ma\u001b[48;5;77mir\u001b[48;5;80mEncoding\u001b[48;5;68m:\u001b[48;5;134m\n", + " \u001b[48;5;167m def\u001b[48;5;179m \u001b[48;5;185m__\u001b[48;5;77min\u001b[48;5;80mit\u001b[48;5;68m__\u001b[48;5;134m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' th' + b'at'\n", + "So we made b' that' our 464th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185men\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134m of\u001b[48;5;167m the\u001b[48;5;179m b\u001b[48;5;185myte\u001b[48;5;77m pair\u001b[48;5;80m en\u001b[48;5;68mcoding\u001b[48;5;134m al\u001b[48;5;167mg\u001b[48;5;179mor\u001b[48;5;185mit\u001b[48;5;77mh\u001b[48;5;80mm\u001b[48;5;68m.\u001b[48;5;134m\"\"\"\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mro\u001b[48;5;77mm\u001b[48;5;80m \u001b[48;5;68m__\u001b[48;5;134mf\u001b[48;5;167mut\u001b[48;5;179mu\u001b[48;5;185mre\u001b[48;5;77m__\u001b[48;5;80m i\u001b[48;5;68mmp\u001b[48;5;134mort\u001b[48;5;167m an\u001b[48;5;179mn\u001b[48;5;185mo\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mort\u001b[48;5;80m \u001b[48;5;68mco\u001b[48;5;134ml\u001b[48;5;167mle\u001b[48;5;179mct\u001b[48;5;185mion\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68mimp\u001b[48;5;134mort\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mro\u001b[48;5;77mm\u001b[48;5;80m t\u001b[48;5;68my\u001b[48;5;134mp\u001b[48;5;167ming\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mort\u001b[48;5;80m O\u001b[48;5;68mpt\u001b[48;5;134mional\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mort\u001b[48;5;80m regex\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mort\u001b[48;5;185m t\u001b[48;5;77mi\u001b[48;5;80mk\u001b[48;5;68mtoken\u001b[48;5;134m\n", + "\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mc\u001b[48;5;185mla\u001b[48;5;77mss\u001b[48;5;80m S\u001b[48;5;68mimple\u001b[48;5;134mB\u001b[48;5;167myte\u001b[48;5;179mP\u001b[48;5;185ma\u001b[48;5;77mir\u001b[48;5;80mEncoding\u001b[48;5;68m:\u001b[48;5;134m\n", + " \u001b[48;5;167m def\u001b[48;5;179m \u001b[48;5;185m__\u001b[48;5;77min\u001b[48;5;80mit\u001b[48;5;68m__\u001b[48;5;134m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' ' + b's'\n", + "So we made b' s' our 465th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185men\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134m of\u001b[48;5;167m the\u001b[48;5;179m b\u001b[48;5;185myte\u001b[48;5;77m pair\u001b[48;5;80m en\u001b[48;5;68mcoding\u001b[48;5;134m al\u001b[48;5;167mg\u001b[48;5;179mor\u001b[48;5;185mit\u001b[48;5;77mh\u001b[48;5;80mm\u001b[48;5;68m.\u001b[48;5;134m\"\"\"\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mro\u001b[48;5;77mm\u001b[48;5;80m \u001b[48;5;68m__\u001b[48;5;134mf\u001b[48;5;167mut\u001b[48;5;179mu\u001b[48;5;185mre\u001b[48;5;77m__\u001b[48;5;80m i\u001b[48;5;68mmp\u001b[48;5;134mort\u001b[48;5;167m an\u001b[48;5;179mn\u001b[48;5;185mo\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mort\u001b[48;5;80m \u001b[48;5;68mco\u001b[48;5;134ml\u001b[48;5;167mle\u001b[48;5;179mct\u001b[48;5;185mion\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68mimp\u001b[48;5;134mort\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mro\u001b[48;5;77mm\u001b[48;5;80m t\u001b[48;5;68my\u001b[48;5;134mp\u001b[48;5;167ming\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mort\u001b[48;5;80m O\u001b[48;5;68mpt\u001b[48;5;134mional\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mort\u001b[48;5;80m regex\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mort\u001b[48;5;185m t\u001b[48;5;77mi\u001b[48;5;80mk\u001b[48;5;68mtoken\u001b[48;5;134m\n", + "\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mc\u001b[48;5;185mla\u001b[48;5;77mss\u001b[48;5;80m S\u001b[48;5;68mimple\u001b[48;5;134mB\u001b[48;5;167myte\u001b[48;5;179mP\u001b[48;5;185ma\u001b[48;5;77mir\u001b[48;5;80mEncoding\u001b[48;5;68m:\u001b[48;5;134m\n", + " \u001b[48;5;167m def\u001b[48;5;179m \u001b[48;5;185m__\u001b[48;5;77min\u001b[48;5;80mit\u001b[48;5;68m__\u001b[48;5;134m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'm' + b'erge'\n", + "So we made b'merge' our 466th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185men\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134m of\u001b[48;5;167m the\u001b[48;5;179m b\u001b[48;5;185myte\u001b[48;5;77m pair\u001b[48;5;80m en\u001b[48;5;68mcoding\u001b[48;5;134m al\u001b[48;5;167mg\u001b[48;5;179mor\u001b[48;5;185mit\u001b[48;5;77mh\u001b[48;5;80mm\u001b[48;5;68m.\u001b[48;5;134m\"\"\"\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mro\u001b[48;5;77mm\u001b[48;5;80m \u001b[48;5;68m__\u001b[48;5;134mf\u001b[48;5;167mut\u001b[48;5;179mu\u001b[48;5;185mre\u001b[48;5;77m__\u001b[48;5;80m i\u001b[48;5;68mmp\u001b[48;5;134mort\u001b[48;5;167m an\u001b[48;5;179mn\u001b[48;5;185mo\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mort\u001b[48;5;80m \u001b[48;5;68mco\u001b[48;5;134ml\u001b[48;5;167mle\u001b[48;5;179mct\u001b[48;5;185mion\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68mimp\u001b[48;5;134mort\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mro\u001b[48;5;77mm\u001b[48;5;80m t\u001b[48;5;68my\u001b[48;5;134mp\u001b[48;5;167ming\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mort\u001b[48;5;80m O\u001b[48;5;68mpt\u001b[48;5;134mional\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mort\u001b[48;5;80m regex\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mort\u001b[48;5;185m t\u001b[48;5;77mi\u001b[48;5;80mk\u001b[48;5;68mtoken\u001b[48;5;134m\n", + "\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mc\u001b[48;5;185mla\u001b[48;5;77mss\u001b[48;5;80m S\u001b[48;5;68mimple\u001b[48;5;134mB\u001b[48;5;167myte\u001b[48;5;179mP\u001b[48;5;185ma\u001b[48;5;77mir\u001b[48;5;80mEncoding\u001b[48;5;68m:\u001b[48;5;134m\n", + " \u001b[48;5;167m def\u001b[48;5;179m \u001b[48;5;185m__\u001b[48;5;77min\u001b[48;5;80mit\u001b[48;5;68m__\u001b[48;5;134m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'merge' + b'able'\n", + "So we made b'mergeable' our 467th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185men\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134m of\u001b[48;5;167m the\u001b[48;5;179m b\u001b[48;5;185myte\u001b[48;5;77m pair\u001b[48;5;80m en\u001b[48;5;68mcoding\u001b[48;5;134m al\u001b[48;5;167mg\u001b[48;5;179mor\u001b[48;5;185mit\u001b[48;5;77mh\u001b[48;5;80mm\u001b[48;5;68m.\u001b[48;5;134m\"\"\"\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mro\u001b[48;5;77mm\u001b[48;5;80m \u001b[48;5;68m__\u001b[48;5;134mf\u001b[48;5;167mut\u001b[48;5;179mu\u001b[48;5;185mre\u001b[48;5;77m__\u001b[48;5;80m i\u001b[48;5;68mmp\u001b[48;5;134mort\u001b[48;5;167m an\u001b[48;5;179mn\u001b[48;5;185mo\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mort\u001b[48;5;80m \u001b[48;5;68mco\u001b[48;5;134ml\u001b[48;5;167mle\u001b[48;5;179mct\u001b[48;5;185mion\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68mimp\u001b[48;5;134mort\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mro\u001b[48;5;77mm\u001b[48;5;80m t\u001b[48;5;68my\u001b[48;5;134mp\u001b[48;5;167ming\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mort\u001b[48;5;80m O\u001b[48;5;68mpt\u001b[48;5;134mional\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mort\u001b[48;5;80m regex\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mort\u001b[48;5;185m t\u001b[48;5;77mi\u001b[48;5;80mk\u001b[48;5;68mtoken\u001b[48;5;134m\n", + "\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mc\u001b[48;5;185mla\u001b[48;5;77mss\u001b[48;5;80m S\u001b[48;5;68mimple\u001b[48;5;134mB\u001b[48;5;167myte\u001b[48;5;179mP\u001b[48;5;185ma\u001b[48;5;77mir\u001b[48;5;80mEncoding\u001b[48;5;68m:\u001b[48;5;134m\n", + " \u001b[48;5;167m def\u001b[48;5;179m \u001b[48;5;185m__\u001b[48;5;77min\u001b[48;5;80mit\u001b[48;5;68m__\u001b[48;5;134m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'i' + b'le'\n", + "So we made b'ile' our 468th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185men\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134m of\u001b[48;5;167m the\u001b[48;5;179m b\u001b[48;5;185myte\u001b[48;5;77m pair\u001b[48;5;80m en\u001b[48;5;68mcoding\u001b[48;5;134m al\u001b[48;5;167mg\u001b[48;5;179mor\u001b[48;5;185mit\u001b[48;5;77mh\u001b[48;5;80mm\u001b[48;5;68m.\u001b[48;5;134m\"\"\"\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mro\u001b[48;5;77mm\u001b[48;5;80m \u001b[48;5;68m__\u001b[48;5;134mf\u001b[48;5;167mut\u001b[48;5;179mu\u001b[48;5;185mre\u001b[48;5;77m__\u001b[48;5;80m i\u001b[48;5;68mmp\u001b[48;5;134mort\u001b[48;5;167m an\u001b[48;5;179mn\u001b[48;5;185mo\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mort\u001b[48;5;80m \u001b[48;5;68mco\u001b[48;5;134ml\u001b[48;5;167mle\u001b[48;5;179mct\u001b[48;5;185mion\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68mimp\u001b[48;5;134mort\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mro\u001b[48;5;77mm\u001b[48;5;80m t\u001b[48;5;68my\u001b[48;5;134mp\u001b[48;5;167ming\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mort\u001b[48;5;80m O\u001b[48;5;68mpt\u001b[48;5;134mional\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mort\u001b[48;5;80m regex\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mort\u001b[48;5;185m t\u001b[48;5;77mi\u001b[48;5;80mk\u001b[48;5;68mtoken\u001b[48;5;134m\n", + "\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mc\u001b[48;5;185mla\u001b[48;5;77mss\u001b[48;5;80m S\u001b[48;5;68mimple\u001b[48;5;134mB\u001b[48;5;167myte\u001b[48;5;179mP\u001b[48;5;185ma\u001b[48;5;77mir\u001b[48;5;80mEncoding\u001b[48;5;68m:\u001b[48;5;134m\n", + " \u001b[48;5;167m def\u001b[48;5;179m \u001b[48;5;185m__\u001b[48;5;77min\u001b[48;5;80mit\u001b[48;5;68m__\u001b[48;5;134m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'co' + b'lo'\n", + "So we made b'colo' our 469th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185men\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134m of\u001b[48;5;167m the\u001b[48;5;179m b\u001b[48;5;185myte\u001b[48;5;77m pair\u001b[48;5;80m en\u001b[48;5;68mcoding\u001b[48;5;134m al\u001b[48;5;167mg\u001b[48;5;179mor\u001b[48;5;185mit\u001b[48;5;77mh\u001b[48;5;80mm\u001b[48;5;68m.\u001b[48;5;134m\"\"\"\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mro\u001b[48;5;77mm\u001b[48;5;80m \u001b[48;5;68m__\u001b[48;5;134mf\u001b[48;5;167mut\u001b[48;5;179mu\u001b[48;5;185mre\u001b[48;5;77m__\u001b[48;5;80m i\u001b[48;5;68mmp\u001b[48;5;134mort\u001b[48;5;167m an\u001b[48;5;179mn\u001b[48;5;185mo\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mort\u001b[48;5;80m \u001b[48;5;68mco\u001b[48;5;134ml\u001b[48;5;167mle\u001b[48;5;179mct\u001b[48;5;185mion\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68mimp\u001b[48;5;134mort\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mro\u001b[48;5;77mm\u001b[48;5;80m t\u001b[48;5;68my\u001b[48;5;134mp\u001b[48;5;167ming\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mort\u001b[48;5;80m O\u001b[48;5;68mpt\u001b[48;5;134mional\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mort\u001b[48;5;80m regex\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mort\u001b[48;5;185m t\u001b[48;5;77mi\u001b[48;5;80mk\u001b[48;5;68mtoken\u001b[48;5;134m\n", + "\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mc\u001b[48;5;185mla\u001b[48;5;77mss\u001b[48;5;80m S\u001b[48;5;68mimple\u001b[48;5;134mB\u001b[48;5;167myte\u001b[48;5;179mP\u001b[48;5;185ma\u001b[48;5;77mir\u001b[48;5;80mEncoding\u001b[48;5;68m:\u001b[48;5;134m\n", + " \u001b[48;5;167m def\u001b[48;5;179m \u001b[48;5;185m__\u001b[48;5;77min\u001b[48;5;80mit\u001b[48;5;68m__\u001b[48;5;134m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'colo' + b'ur'\n", + "So we made b'colour' our 470th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185men\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134m of\u001b[48;5;167m the\u001b[48;5;179m b\u001b[48;5;185myte\u001b[48;5;77m pair\u001b[48;5;80m en\u001b[48;5;68mcoding\u001b[48;5;134m al\u001b[48;5;167mg\u001b[48;5;179mor\u001b[48;5;185mit\u001b[48;5;77mh\u001b[48;5;80mm\u001b[48;5;68m.\u001b[48;5;134m\"\"\"\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mro\u001b[48;5;77mm\u001b[48;5;80m \u001b[48;5;68m__\u001b[48;5;134mf\u001b[48;5;167mut\u001b[48;5;179mu\u001b[48;5;185mre\u001b[48;5;77m__\u001b[48;5;80m i\u001b[48;5;68mmp\u001b[48;5;134mort\u001b[48;5;167m an\u001b[48;5;179mn\u001b[48;5;185mo\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mort\u001b[48;5;80m \u001b[48;5;68mco\u001b[48;5;134ml\u001b[48;5;167mle\u001b[48;5;179mct\u001b[48;5;185mion\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68mimp\u001b[48;5;134mort\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mro\u001b[48;5;77mm\u001b[48;5;80m t\u001b[48;5;68my\u001b[48;5;134mp\u001b[48;5;167ming\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mort\u001b[48;5;80m O\u001b[48;5;68mpt\u001b[48;5;134mional\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mort\u001b[48;5;80m regex\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mort\u001b[48;5;185m t\u001b[48;5;77mi\u001b[48;5;80mk\u001b[48;5;68mtoken\u001b[48;5;134m\n", + "\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mc\u001b[48;5;185mla\u001b[48;5;77mss\u001b[48;5;80m S\u001b[48;5;68mimple\u001b[48;5;134mB\u001b[48;5;167myte\u001b[48;5;179mP\u001b[48;5;185ma\u001b[48;5;77mir\u001b[48;5;80mEncoding\u001b[48;5;68m:\u001b[48;5;134m\n", + " \u001b[48;5;167m def\u001b[48;5;179m \u001b[48;5;185m__\u001b[48;5;77min\u001b[48;5;80mit\u001b[48;5;68m__\u001b[48;5;134m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' ' + b'e'\n", + "So we made b' e' our 471th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185men\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134m of\u001b[48;5;167m the\u001b[48;5;179m b\u001b[48;5;185myte\u001b[48;5;77m pair\u001b[48;5;80m en\u001b[48;5;68mcoding\u001b[48;5;134m al\u001b[48;5;167mg\u001b[48;5;179mor\u001b[48;5;185mit\u001b[48;5;77mh\u001b[48;5;80mm\u001b[48;5;68m.\u001b[48;5;134m\"\"\"\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mro\u001b[48;5;77mm\u001b[48;5;80m \u001b[48;5;68m__\u001b[48;5;134mf\u001b[48;5;167mut\u001b[48;5;179mu\u001b[48;5;185mre\u001b[48;5;77m__\u001b[48;5;80m i\u001b[48;5;68mmp\u001b[48;5;134mort\u001b[48;5;167m an\u001b[48;5;179mn\u001b[48;5;185mo\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mort\u001b[48;5;80m \u001b[48;5;68mco\u001b[48;5;134ml\u001b[48;5;167mle\u001b[48;5;179mct\u001b[48;5;185mion\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68mimp\u001b[48;5;134mort\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mro\u001b[48;5;77mm\u001b[48;5;80m t\u001b[48;5;68my\u001b[48;5;134mp\u001b[48;5;167ming\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mort\u001b[48;5;80m O\u001b[48;5;68mpt\u001b[48;5;134mional\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mort\u001b[48;5;80m regex\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mort\u001b[48;5;185m t\u001b[48;5;77mi\u001b[48;5;80mk\u001b[48;5;68mtoken\u001b[48;5;134m\n", + "\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mc\u001b[48;5;185mla\u001b[48;5;77mss\u001b[48;5;80m S\u001b[48;5;68mimple\u001b[48;5;134mB\u001b[48;5;167myte\u001b[48;5;179mP\u001b[48;5;185ma\u001b[48;5;77mir\u001b[48;5;80mEncoding\u001b[48;5;68m:\u001b[48;5;134m\n", + " \u001b[48;5;167m def\u001b[48;5;179m \u001b[48;5;185m__\u001b[48;5;77min\u001b[48;5;80mit\u001b[48;5;68m__\u001b[48;5;134m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'p' + b'e'\n", + "So we made b'pe' our 472th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185men\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134m of\u001b[48;5;167m the\u001b[48;5;179m b\u001b[48;5;185myte\u001b[48;5;77m pair\u001b[48;5;80m en\u001b[48;5;68mcoding\u001b[48;5;134m al\u001b[48;5;167mg\u001b[48;5;179mor\u001b[48;5;185mit\u001b[48;5;77mh\u001b[48;5;80mm\u001b[48;5;68m.\u001b[48;5;134m\"\"\"\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mro\u001b[48;5;77mm\u001b[48;5;80m \u001b[48;5;68m__\u001b[48;5;134mf\u001b[48;5;167mut\u001b[48;5;179mu\u001b[48;5;185mre\u001b[48;5;77m__\u001b[48;5;80m i\u001b[48;5;68mmp\u001b[48;5;134mort\u001b[48;5;167m an\u001b[48;5;179mn\u001b[48;5;185mo\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mort\u001b[48;5;80m \u001b[48;5;68mco\u001b[48;5;134ml\u001b[48;5;167mle\u001b[48;5;179mct\u001b[48;5;185mion\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68mimp\u001b[48;5;134mort\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mro\u001b[48;5;77mm\u001b[48;5;80m t\u001b[48;5;68my\u001b[48;5;134mp\u001b[48;5;167ming\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mort\u001b[48;5;80m O\u001b[48;5;68mpt\u001b[48;5;134mional\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mort\u001b[48;5;80m regex\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mort\u001b[48;5;185m t\u001b[48;5;77mi\u001b[48;5;80mk\u001b[48;5;68mtoken\u001b[48;5;134m\n", + "\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mc\u001b[48;5;185mla\u001b[48;5;77mss\u001b[48;5;80m S\u001b[48;5;68mimple\u001b[48;5;134mB\u001b[48;5;167myte\u001b[48;5;179mP\u001b[48;5;185ma\u001b[48;5;77mir\u001b[48;5;80mEncoding\u001b[48;5;68m:\u001b[48;5;134m\n", + " \u001b[48;5;167m def\u001b[48;5;179m \u001b[48;5;185m__\u001b[48;5;77min\u001b[48;5;80mit\u001b[48;5;68m__\u001b[48;5;134m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'en' + b'd'\n", + "So we made b'end' our 473th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185men\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134m of\u001b[48;5;167m the\u001b[48;5;179m b\u001b[48;5;185myte\u001b[48;5;77m pair\u001b[48;5;80m en\u001b[48;5;68mcoding\u001b[48;5;134m al\u001b[48;5;167mg\u001b[48;5;179mor\u001b[48;5;185mit\u001b[48;5;77mh\u001b[48;5;80mm\u001b[48;5;68m.\u001b[48;5;134m\"\"\"\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mro\u001b[48;5;77mm\u001b[48;5;80m \u001b[48;5;68m__\u001b[48;5;134mf\u001b[48;5;167mut\u001b[48;5;179mu\u001b[48;5;185mre\u001b[48;5;77m__\u001b[48;5;80m i\u001b[48;5;68mmp\u001b[48;5;134mort\u001b[48;5;167m an\u001b[48;5;179mn\u001b[48;5;185mo\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mort\u001b[48;5;80m \u001b[48;5;68mco\u001b[48;5;134ml\u001b[48;5;167mle\u001b[48;5;179mct\u001b[48;5;185mion\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68mimp\u001b[48;5;134mort\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mro\u001b[48;5;77mm\u001b[48;5;80m t\u001b[48;5;68my\u001b[48;5;134mp\u001b[48;5;167ming\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mort\u001b[48;5;80m O\u001b[48;5;68mpt\u001b[48;5;134mional\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mort\u001b[48;5;80m regex\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mort\u001b[48;5;185m t\u001b[48;5;77mi\u001b[48;5;80mk\u001b[48;5;68mtoken\u001b[48;5;134m\n", + "\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mc\u001b[48;5;185mla\u001b[48;5;77mss\u001b[48;5;80m S\u001b[48;5;68mimple\u001b[48;5;134mB\u001b[48;5;167myte\u001b[48;5;179mP\u001b[48;5;185ma\u001b[48;5;77mir\u001b[48;5;80mEncoding\u001b[48;5;68m:\u001b[48;5;134m\n", + " \u001b[48;5;167m def\u001b[48;5;179m \u001b[48;5;185m__\u001b[48;5;77min\u001b[48;5;80mit\u001b[48;5;68m__\u001b[48;5;134m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'o' + b'w'\n", + "So we made b'ow' our 474th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185men\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134m of\u001b[48;5;167m the\u001b[48;5;179m b\u001b[48;5;185myte\u001b[48;5;77m pair\u001b[48;5;80m en\u001b[48;5;68mcoding\u001b[48;5;134m al\u001b[48;5;167mg\u001b[48;5;179mor\u001b[48;5;185mit\u001b[48;5;77mh\u001b[48;5;80mm\u001b[48;5;68m.\u001b[48;5;134m\"\"\"\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mro\u001b[48;5;77mm\u001b[48;5;80m \u001b[48;5;68m__\u001b[48;5;134mf\u001b[48;5;167mut\u001b[48;5;179mu\u001b[48;5;185mre\u001b[48;5;77m__\u001b[48;5;80m i\u001b[48;5;68mmp\u001b[48;5;134mort\u001b[48;5;167m an\u001b[48;5;179mn\u001b[48;5;185mo\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mort\u001b[48;5;80m \u001b[48;5;68mco\u001b[48;5;134ml\u001b[48;5;167mle\u001b[48;5;179mct\u001b[48;5;185mion\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68mimp\u001b[48;5;134mort\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mro\u001b[48;5;77mm\u001b[48;5;80m t\u001b[48;5;68my\u001b[48;5;134mp\u001b[48;5;167ming\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mort\u001b[48;5;80m O\u001b[48;5;68mpt\u001b[48;5;134mional\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mort\u001b[48;5;80m regex\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mort\u001b[48;5;185m t\u001b[48;5;77mi\u001b[48;5;80mk\u001b[48;5;68mtoken\u001b[48;5;134m\n", + "\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mc\u001b[48;5;185mla\u001b[48;5;77mss\u001b[48;5;80m S\u001b[48;5;68mimple\u001b[48;5;134mB\u001b[48;5;167myte\u001b[48;5;179mP\u001b[48;5;185ma\u001b[48;5;77mir\u001b[48;5;80mEncoding\u001b[48;5;68m:\u001b[48;5;134m\n", + " \u001b[48;5;167m def\u001b[48;5;179m \u001b[48;5;185m__\u001b[48;5;77min\u001b[48;5;80mit\u001b[48;5;68m__\u001b[48;5;134m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' t' + b'rain'\n", + "So we made b' train' our 475th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185men\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134m of\u001b[48;5;167m the\u001b[48;5;179m b\u001b[48;5;185myte\u001b[48;5;77m pair\u001b[48;5;80m en\u001b[48;5;68mcoding\u001b[48;5;134m al\u001b[48;5;167mg\u001b[48;5;179mor\u001b[48;5;185mit\u001b[48;5;77mh\u001b[48;5;80mm\u001b[48;5;68m.\u001b[48;5;134m\"\"\"\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mro\u001b[48;5;77mm\u001b[48;5;80m \u001b[48;5;68m__\u001b[48;5;134mf\u001b[48;5;167mut\u001b[48;5;179mu\u001b[48;5;185mre\u001b[48;5;77m__\u001b[48;5;80m i\u001b[48;5;68mmp\u001b[48;5;134mort\u001b[48;5;167m an\u001b[48;5;179mn\u001b[48;5;185mo\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mort\u001b[48;5;80m \u001b[48;5;68mco\u001b[48;5;134ml\u001b[48;5;167mle\u001b[48;5;179mct\u001b[48;5;185mion\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68mimp\u001b[48;5;134mort\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mro\u001b[48;5;77mm\u001b[48;5;80m t\u001b[48;5;68my\u001b[48;5;134mp\u001b[48;5;167ming\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mort\u001b[48;5;80m O\u001b[48;5;68mpt\u001b[48;5;134mional\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mort\u001b[48;5;80m regex\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mort\u001b[48;5;185m t\u001b[48;5;77mi\u001b[48;5;80mk\u001b[48;5;68mtoken\u001b[48;5;134m\n", + "\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mc\u001b[48;5;185mla\u001b[48;5;77mss\u001b[48;5;80m S\u001b[48;5;68mimple\u001b[48;5;134mB\u001b[48;5;167myte\u001b[48;5;179mP\u001b[48;5;185ma\u001b[48;5;77mir\u001b[48;5;80mEncoding\u001b[48;5;68m:\u001b[48;5;134m\n", + " \u001b[48;5;167m def\u001b[48;5;179m \u001b[48;5;185m__\u001b[48;5;77min\u001b[48;5;80mit\u001b[48;5;68m__\u001b[48;5;134m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b't' + b'rain'\n", + "So we made b'train' our 476th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185men\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134m of\u001b[48;5;167m the\u001b[48;5;179m b\u001b[48;5;185myte\u001b[48;5;77m pair\u001b[48;5;80m en\u001b[48;5;68mcoding\u001b[48;5;134m al\u001b[48;5;167mg\u001b[48;5;179mor\u001b[48;5;185mit\u001b[48;5;77mh\u001b[48;5;80mm\u001b[48;5;68m.\u001b[48;5;134m\"\"\"\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mro\u001b[48;5;77mm\u001b[48;5;80m \u001b[48;5;68m__\u001b[48;5;134mf\u001b[48;5;167mut\u001b[48;5;179mu\u001b[48;5;185mre\u001b[48;5;77m__\u001b[48;5;80m i\u001b[48;5;68mmp\u001b[48;5;134mort\u001b[48;5;167m an\u001b[48;5;179mn\u001b[48;5;185mo\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mort\u001b[48;5;80m \u001b[48;5;68mco\u001b[48;5;134ml\u001b[48;5;167mle\u001b[48;5;179mct\u001b[48;5;185mion\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68mimp\u001b[48;5;134mort\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mro\u001b[48;5;77mm\u001b[48;5;80m t\u001b[48;5;68my\u001b[48;5;134mp\u001b[48;5;167ming\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mort\u001b[48;5;80m O\u001b[48;5;68mpt\u001b[48;5;134mional\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mort\u001b[48;5;80m regex\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mort\u001b[48;5;185m t\u001b[48;5;77mi\u001b[48;5;80mk\u001b[48;5;68mtoken\u001b[48;5;134m\n", + "\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mc\u001b[48;5;185mla\u001b[48;5;77mss\u001b[48;5;80m S\u001b[48;5;68mimple\u001b[48;5;134mB\u001b[48;5;167myte\u001b[48;5;179mP\u001b[48;5;185ma\u001b[48;5;77mir\u001b[48;5;80mEncoding\u001b[48;5;68m:\u001b[48;5;134m\n", + " \u001b[48;5;167m def\u001b[48;5;179m \u001b[48;5;185m__\u001b[48;5;77min\u001b[48;5;80mit\u001b[48;5;68m__\u001b[48;5;134m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b']' + b','\n", + "So we made b'],' our 477th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185men\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134m of\u001b[48;5;167m the\u001b[48;5;179m b\u001b[48;5;185myte\u001b[48;5;77m pair\u001b[48;5;80m en\u001b[48;5;68mcoding\u001b[48;5;134m al\u001b[48;5;167mg\u001b[48;5;179mor\u001b[48;5;185mit\u001b[48;5;77mh\u001b[48;5;80mm\u001b[48;5;68m.\u001b[48;5;134m\"\"\"\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mro\u001b[48;5;77mm\u001b[48;5;80m \u001b[48;5;68m__\u001b[48;5;134mf\u001b[48;5;167mut\u001b[48;5;179mu\u001b[48;5;185mre\u001b[48;5;77m__\u001b[48;5;80m i\u001b[48;5;68mmp\u001b[48;5;134mort\u001b[48;5;167m an\u001b[48;5;179mn\u001b[48;5;185mo\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mort\u001b[48;5;80m \u001b[48;5;68mco\u001b[48;5;134ml\u001b[48;5;167mle\u001b[48;5;179mct\u001b[48;5;185mion\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68mimp\u001b[48;5;134mort\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mro\u001b[48;5;77mm\u001b[48;5;80m t\u001b[48;5;68my\u001b[48;5;134mp\u001b[48;5;167ming\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mort\u001b[48;5;80m O\u001b[48;5;68mpt\u001b[48;5;134mional\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mort\u001b[48;5;80m regex\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mort\u001b[48;5;185m t\u001b[48;5;77mi\u001b[48;5;80mk\u001b[48;5;68mtoken\u001b[48;5;134m\n", + "\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mc\u001b[48;5;185mla\u001b[48;5;77mss\u001b[48;5;80m S\u001b[48;5;68mimple\u001b[48;5;134mB\u001b[48;5;167myte\u001b[48;5;179mP\u001b[48;5;185ma\u001b[48;5;77mir\u001b[48;5;80mEncoding\u001b[48;5;68m:\u001b[48;5;134m\n", + " \u001b[48;5;167m def\u001b[48;5;179m \u001b[48;5;185m__\u001b[48;5;77min\u001b[48;5;80mit\u001b[48;5;68m__\u001b[48;5;134m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'u' + b'e'\n", + "So we made b'ue' our 478th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185men\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134m of\u001b[48;5;167m the\u001b[48;5;179m b\u001b[48;5;185myte\u001b[48;5;77m pair\u001b[48;5;80m en\u001b[48;5;68mcoding\u001b[48;5;134m al\u001b[48;5;167mg\u001b[48;5;179mor\u001b[48;5;185mit\u001b[48;5;77mh\u001b[48;5;80mm\u001b[48;5;68m.\u001b[48;5;134m\"\"\"\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mro\u001b[48;5;77mm\u001b[48;5;80m \u001b[48;5;68m__\u001b[48;5;134mf\u001b[48;5;167mut\u001b[48;5;179mu\u001b[48;5;185mre\u001b[48;5;77m__\u001b[48;5;80m i\u001b[48;5;68mmp\u001b[48;5;134mort\u001b[48;5;167m an\u001b[48;5;179mn\u001b[48;5;185mo\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mort\u001b[48;5;80m \u001b[48;5;68mco\u001b[48;5;134ml\u001b[48;5;167mle\u001b[48;5;179mct\u001b[48;5;185mion\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68mimp\u001b[48;5;134mort\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mro\u001b[48;5;77mm\u001b[48;5;80m t\u001b[48;5;68my\u001b[48;5;134mp\u001b[48;5;167ming\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mort\u001b[48;5;80m O\u001b[48;5;68mpt\u001b[48;5;134mional\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mort\u001b[48;5;80m regex\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mort\u001b[48;5;185m t\u001b[48;5;77mi\u001b[48;5;80mk\u001b[48;5;68mtoken\u001b[48;5;134m\n", + "\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mc\u001b[48;5;185mla\u001b[48;5;77mss\u001b[48;5;80m S\u001b[48;5;68mimple\u001b[48;5;134mB\u001b[48;5;167myte\u001b[48;5;179mP\u001b[48;5;185ma\u001b[48;5;77mir\u001b[48;5;80mEncoding\u001b[48;5;68m:\u001b[48;5;134m\n", + " \u001b[48;5;167m def\u001b[48;5;179m \u001b[48;5;185m__\u001b[48;5;77min\u001b[48;5;80mit\u001b[48;5;68m__\u001b[48;5;134m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'[' + b':'\n", + "So we made b'[:' our 479th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185men\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134m of\u001b[48;5;167m the\u001b[48;5;179m b\u001b[48;5;185myte\u001b[48;5;77m pair\u001b[48;5;80m en\u001b[48;5;68mcoding\u001b[48;5;134m al\u001b[48;5;167mg\u001b[48;5;179mor\u001b[48;5;185mit\u001b[48;5;77mh\u001b[48;5;80mm\u001b[48;5;68m.\u001b[48;5;134m\"\"\"\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mro\u001b[48;5;77mm\u001b[48;5;80m \u001b[48;5;68m__\u001b[48;5;134mf\u001b[48;5;167mut\u001b[48;5;179mu\u001b[48;5;185mre\u001b[48;5;77m__\u001b[48;5;80m i\u001b[48;5;68mmp\u001b[48;5;134mort\u001b[48;5;167m an\u001b[48;5;179mn\u001b[48;5;185mo\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mort\u001b[48;5;80m \u001b[48;5;68mco\u001b[48;5;134ml\u001b[48;5;167mle\u001b[48;5;179mct\u001b[48;5;185mion\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68mimp\u001b[48;5;134mort\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mro\u001b[48;5;77mm\u001b[48;5;80m t\u001b[48;5;68my\u001b[48;5;134mp\u001b[48;5;167ming\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mort\u001b[48;5;80m O\u001b[48;5;68mpt\u001b[48;5;134mional\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mort\u001b[48;5;80m regex\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mort\u001b[48;5;185m t\u001b[48;5;77mi\u001b[48;5;80mk\u001b[48;5;68mtoken\u001b[48;5;134m\n", + "\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mc\u001b[48;5;185mla\u001b[48;5;77mss\u001b[48;5;80m S\u001b[48;5;68mimple\u001b[48;5;134mB\u001b[48;5;167myte\u001b[48;5;179mP\u001b[48;5;185ma\u001b[48;5;77mir\u001b[48;5;80mEncoding\u001b[48;5;68m:\u001b[48;5;134m\n", + " \u001b[48;5;167m def\u001b[48;5;179m \u001b[48;5;185m__\u001b[48;5;77min\u001b[48;5;80mit\u001b[48;5;68m__\u001b[48;5;134m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'm' + b'in'\n", + "So we made b'min' our 480th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185men\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134m of\u001b[48;5;167m the\u001b[48;5;179m b\u001b[48;5;185myte\u001b[48;5;77m pair\u001b[48;5;80m en\u001b[48;5;68mcoding\u001b[48;5;134m al\u001b[48;5;167mg\u001b[48;5;179mor\u001b[48;5;185mit\u001b[48;5;77mh\u001b[48;5;80mm\u001b[48;5;68m.\u001b[48;5;134m\"\"\"\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mro\u001b[48;5;77mm\u001b[48;5;80m \u001b[48;5;68m__\u001b[48;5;134mf\u001b[48;5;167mut\u001b[48;5;179mu\u001b[48;5;185mre\u001b[48;5;77m__\u001b[48;5;80m i\u001b[48;5;68mmp\u001b[48;5;134mort\u001b[48;5;167m an\u001b[48;5;179mn\u001b[48;5;185mo\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mort\u001b[48;5;80m \u001b[48;5;68mco\u001b[48;5;134ml\u001b[48;5;167mle\u001b[48;5;179mct\u001b[48;5;185mion\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68mimp\u001b[48;5;134mort\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mro\u001b[48;5;77mm\u001b[48;5;80m t\u001b[48;5;68my\u001b[48;5;134mp\u001b[48;5;167ming\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mort\u001b[48;5;80m O\u001b[48;5;68mpt\u001b[48;5;134mional\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mort\u001b[48;5;80m regex\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mort\u001b[48;5;185m t\u001b[48;5;77mi\u001b[48;5;80mk\u001b[48;5;68mtoken\u001b[48;5;134m\n", + "\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mc\u001b[48;5;185mla\u001b[48;5;77mss\u001b[48;5;80m S\u001b[48;5;68mimple\u001b[48;5;134mB\u001b[48;5;167myte\u001b[48;5;179mP\u001b[48;5;185ma\u001b[48;5;77mir\u001b[48;5;80mEncoding\u001b[48;5;68m:\u001b[48;5;134m\n", + " \u001b[48;5;167m def\u001b[48;5;179m \u001b[48;5;185m__\u001b[48;5;77min\u001b[48;5;80mit\u001b[48;5;68m__\u001b[48;5;134m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'k' + b'e'\n", + "So we made b'ke' our 481th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185men\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134m of\u001b[48;5;167m the\u001b[48;5;179m b\u001b[48;5;185myte\u001b[48;5;77m pair\u001b[48;5;80m en\u001b[48;5;68mcoding\u001b[48;5;134m al\u001b[48;5;167mg\u001b[48;5;179mor\u001b[48;5;185mit\u001b[48;5;77mh\u001b[48;5;80mm\u001b[48;5;68m.\u001b[48;5;134m\"\"\"\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mro\u001b[48;5;77mm\u001b[48;5;80m \u001b[48;5;68m__\u001b[48;5;134mf\u001b[48;5;167mut\u001b[48;5;179mu\u001b[48;5;185mre\u001b[48;5;77m__\u001b[48;5;80m i\u001b[48;5;68mmp\u001b[48;5;134mort\u001b[48;5;167m an\u001b[48;5;179mn\u001b[48;5;185mo\u001b[48;5;77mt\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mort\u001b[48;5;80m \u001b[48;5;68mco\u001b[48;5;134ml\u001b[48;5;167mle\u001b[48;5;179mct\u001b[48;5;185mion\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68mimp\u001b[48;5;134mort\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mro\u001b[48;5;77mm\u001b[48;5;80m t\u001b[48;5;68my\u001b[48;5;134mp\u001b[48;5;167ming\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mort\u001b[48;5;80m O\u001b[48;5;68mpt\u001b[48;5;134mional\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mort\u001b[48;5;80m regex\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mort\u001b[48;5;185m t\u001b[48;5;77mi\u001b[48;5;80mk\u001b[48;5;68mtoken\u001b[48;5;134m\n", + "\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mc\u001b[48;5;185mla\u001b[48;5;77mss\u001b[48;5;80m S\u001b[48;5;68mimple\u001b[48;5;134mB\u001b[48;5;167myte\u001b[48;5;179mP\u001b[48;5;185ma\u001b[48;5;77mir\u001b[48;5;80mEncoding\u001b[48;5;68m:\u001b[48;5;134m\n", + " \u001b[48;5;167m def\u001b[48;5;179m \u001b[48;5;185m__\u001b[48;5;77min\u001b[48;5;80mit\u001b[48;5;68m__\u001b[48;5;134m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'en' + b't'\n", + "So we made b'ent' our 482th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185ment\u001b[48;5;77mat\u001b[48;5;80mion\u001b[48;5;68m of\u001b[48;5;134m the\u001b[48;5;167m b\u001b[48;5;179myte\u001b[48;5;185m pair\u001b[48;5;77m en\u001b[48;5;80mcoding\u001b[48;5;68m al\u001b[48;5;134mg\u001b[48;5;167mor\u001b[48;5;179mit\u001b[48;5;185mh\u001b[48;5;77mm\u001b[48;5;80m.\u001b[48;5;68m\"\"\"\u001b[48;5;134m\n", + "\u001b[48;5;167mf\u001b[48;5;179mro\u001b[48;5;185mm\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68mf\u001b[48;5;134mut\u001b[48;5;167mu\u001b[48;5;179mre\u001b[48;5;185m__\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mort\u001b[48;5;134m an\u001b[48;5;167mn\u001b[48;5;179mo\u001b[48;5;185mt\u001b[48;5;77mat\u001b[48;5;80mion\u001b[48;5;68ms\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mimp\u001b[48;5;185mort\u001b[48;5;77m \u001b[48;5;80mco\u001b[48;5;68ml\u001b[48;5;134mle\u001b[48;5;167mct\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mimp\u001b[48;5;68mort\u001b[48;5;134m i\u001b[48;5;167mte\u001b[48;5;179mrt\u001b[48;5;185mo\u001b[48;5;77mo\u001b[48;5;80ml\u001b[48;5;68ms\u001b[48;5;134m\n", + "\u001b[48;5;167mf\u001b[48;5;179mro\u001b[48;5;185mm\u001b[48;5;77m t\u001b[48;5;80my\u001b[48;5;68mp\u001b[48;5;134ming\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mort\u001b[48;5;77m O\u001b[48;5;80mpt\u001b[48;5;68mional\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mimp\u001b[48;5;185mort\u001b[48;5;77m regex\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mort\u001b[48;5;179m t\u001b[48;5;185mi\u001b[48;5;77mk\u001b[48;5;80mtoken\u001b[48;5;68m\n", + "\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mc\u001b[48;5;179mla\u001b[48;5;185mss\u001b[48;5;77m S\u001b[48;5;80mimple\u001b[48;5;68mB\u001b[48;5;134myte\u001b[48;5;167mP\u001b[48;5;179ma\u001b[48;5;185mir\u001b[48;5;77mEncoding\u001b[48;5;80m:\u001b[48;5;68m\n", + " \u001b[48;5;134m def\u001b[48;5;167m \u001b[48;5;179m__\u001b[48;5;185min\u001b[48;5;77mit\u001b[48;5;80m__\u001b[48;5;68m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'it' + b'h'\n", + "So we made b'ith' our 483th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185ment\u001b[48;5;77mat\u001b[48;5;80mion\u001b[48;5;68m of\u001b[48;5;134m the\u001b[48;5;167m b\u001b[48;5;179myte\u001b[48;5;185m pair\u001b[48;5;77m en\u001b[48;5;80mcoding\u001b[48;5;68m al\u001b[48;5;134mg\u001b[48;5;167mor\u001b[48;5;179mith\u001b[48;5;185mm\u001b[48;5;77m.\u001b[48;5;80m\"\"\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mro\u001b[48;5;179mm\u001b[48;5;185m \u001b[48;5;77m__\u001b[48;5;80mf\u001b[48;5;68mut\u001b[48;5;134mu\u001b[48;5;167mre\u001b[48;5;179m__\u001b[48;5;185m i\u001b[48;5;77mmp\u001b[48;5;80mort\u001b[48;5;68m an\u001b[48;5;134mn\u001b[48;5;167mo\u001b[48;5;179mt\u001b[48;5;185mat\u001b[48;5;77mion\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mort\u001b[48;5;185m \u001b[48;5;77mco\u001b[48;5;80ml\u001b[48;5;68mle\u001b[48;5;134mct\u001b[48;5;167mion\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mimp\u001b[48;5;80mort\u001b[48;5;68m i\u001b[48;5;134mte\u001b[48;5;167mrt\u001b[48;5;179mo\u001b[48;5;185mo\u001b[48;5;77ml\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mro\u001b[48;5;179mm\u001b[48;5;185m t\u001b[48;5;77my\u001b[48;5;80mp\u001b[48;5;68ming\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mort\u001b[48;5;185m O\u001b[48;5;77mpt\u001b[48;5;80mional\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimp\u001b[48;5;179mort\u001b[48;5;185m regex\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimp\u001b[48;5;134mort\u001b[48;5;167m t\u001b[48;5;179mi\u001b[48;5;185mk\u001b[48;5;77mtoken\u001b[48;5;80m\n", + "\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mc\u001b[48;5;167mla\u001b[48;5;179mss\u001b[48;5;185m S\u001b[48;5;77mimple\u001b[48;5;80mB\u001b[48;5;68myte\u001b[48;5;134mP\u001b[48;5;167ma\u001b[48;5;179mir\u001b[48;5;185mEncoding\u001b[48;5;77m:\u001b[48;5;80m\n", + " \u001b[48;5;68m def\u001b[48;5;134m \u001b[48;5;167m__\u001b[48;5;179min\u001b[48;5;185mit\u001b[48;5;77m__\u001b[48;5;80m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'ro' + b'm'\n", + "So we made b'rom' our 484th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185ment\u001b[48;5;77mat\u001b[48;5;80mion\u001b[48;5;68m of\u001b[48;5;134m the\u001b[48;5;167m b\u001b[48;5;179myte\u001b[48;5;185m pair\u001b[48;5;77m en\u001b[48;5;80mcoding\u001b[48;5;68m al\u001b[48;5;134mg\u001b[48;5;167mor\u001b[48;5;179mith\u001b[48;5;185mm\u001b[48;5;77m.\u001b[48;5;80m\"\"\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mrom\u001b[48;5;179m \u001b[48;5;185m__\u001b[48;5;77mf\u001b[48;5;80mut\u001b[48;5;68mu\u001b[48;5;134mre\u001b[48;5;167m__\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mort\u001b[48;5;80m an\u001b[48;5;68mn\u001b[48;5;134mo\u001b[48;5;167mt\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimp\u001b[48;5;167mort\u001b[48;5;179m \u001b[48;5;185mco\u001b[48;5;77ml\u001b[48;5;80mle\u001b[48;5;68mct\u001b[48;5;134mion\u001b[48;5;167ms\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mort\u001b[48;5;80m i\u001b[48;5;68mte\u001b[48;5;134mrt\u001b[48;5;167mo\u001b[48;5;179mo\u001b[48;5;185ml\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68mf\u001b[48;5;134mrom\u001b[48;5;167m t\u001b[48;5;179my\u001b[48;5;185mp\u001b[48;5;77ming\u001b[48;5;80m i\u001b[48;5;68mmp\u001b[48;5;134mort\u001b[48;5;167m O\u001b[48;5;179mpt\u001b[48;5;185mional\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimp\u001b[48;5;134mort\u001b[48;5;167m regex\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimp\u001b[48;5;80mort\u001b[48;5;68m t\u001b[48;5;134mi\u001b[48;5;167mk\u001b[48;5;179mtoken\u001b[48;5;185m\n", + "\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mc\u001b[48;5;68mla\u001b[48;5;134mss\u001b[48;5;167m S\u001b[48;5;179mimple\u001b[48;5;185mB\u001b[48;5;77myte\u001b[48;5;80mP\u001b[48;5;68ma\u001b[48;5;134mir\u001b[48;5;167mEncoding\u001b[48;5;179m:\u001b[48;5;185m\n", + " \u001b[48;5;77m def\u001b[48;5;80m \u001b[48;5;68m__\u001b[48;5;134min\u001b[48;5;167mit\u001b[48;5;179m__\u001b[48;5;185m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'o' + b't'\n", + "So we made b'ot' our 485th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185ment\u001b[48;5;77mat\u001b[48;5;80mion\u001b[48;5;68m of\u001b[48;5;134m the\u001b[48;5;167m b\u001b[48;5;179myte\u001b[48;5;185m pair\u001b[48;5;77m en\u001b[48;5;80mcoding\u001b[48;5;68m al\u001b[48;5;134mg\u001b[48;5;167mor\u001b[48;5;179mith\u001b[48;5;185mm\u001b[48;5;77m.\u001b[48;5;80m\"\"\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mrom\u001b[48;5;179m \u001b[48;5;185m__\u001b[48;5;77mf\u001b[48;5;80mut\u001b[48;5;68mu\u001b[48;5;134mre\u001b[48;5;167m__\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mort\u001b[48;5;80m an\u001b[48;5;68mn\u001b[48;5;134mot\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimp\u001b[48;5;134mort\u001b[48;5;167m \u001b[48;5;179mco\u001b[48;5;185ml\u001b[48;5;77mle\u001b[48;5;80mct\u001b[48;5;68mion\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mimp\u001b[48;5;185mort\u001b[48;5;77m i\u001b[48;5;80mte\u001b[48;5;68mrt\u001b[48;5;134mo\u001b[48;5;167mo\u001b[48;5;179ml\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mf\u001b[48;5;68mrom\u001b[48;5;134m t\u001b[48;5;167my\u001b[48;5;179mp\u001b[48;5;185ming\u001b[48;5;77m i\u001b[48;5;80mmp\u001b[48;5;68mort\u001b[48;5;134m O\u001b[48;5;167mpt\u001b[48;5;179mional\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mimp\u001b[48;5;68mort\u001b[48;5;134m regex\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimp\u001b[48;5;77mort\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mc\u001b[48;5;80mla\u001b[48;5;68mss\u001b[48;5;134m S\u001b[48;5;167mimple\u001b[48;5;179mB\u001b[48;5;185myte\u001b[48;5;77mP\u001b[48;5;80ma\u001b[48;5;68mir\u001b[48;5;134mEncoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m def\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68min\u001b[48;5;134mit\u001b[48;5;167m__\u001b[48;5;179m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'imp' + b'ort'\n", + "So we made b'import' our 486th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185ment\u001b[48;5;77mat\u001b[48;5;80mion\u001b[48;5;68m of\u001b[48;5;134m the\u001b[48;5;167m b\u001b[48;5;179myte\u001b[48;5;185m pair\u001b[48;5;77m en\u001b[48;5;80mcoding\u001b[48;5;68m al\u001b[48;5;134mg\u001b[48;5;167mor\u001b[48;5;179mith\u001b[48;5;185mm\u001b[48;5;77m.\u001b[48;5;80m\"\"\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mrom\u001b[48;5;179m \u001b[48;5;185m__\u001b[48;5;77mf\u001b[48;5;80mut\u001b[48;5;68mu\u001b[48;5;134mre\u001b[48;5;167m__\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mort\u001b[48;5;80m an\u001b[48;5;68mn\u001b[48;5;134mot\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mco\u001b[48;5;179ml\u001b[48;5;185mle\u001b[48;5;77mct\u001b[48;5;80mion\u001b[48;5;68ms\u001b[48;5;134m\n", + "\u001b[48;5;167mimport\u001b[48;5;179m i\u001b[48;5;185mte\u001b[48;5;77mrt\u001b[48;5;80mo\u001b[48;5;68mo\u001b[48;5;134ml\u001b[48;5;167ms\u001b[48;5;179m\n", + "\u001b[48;5;185mf\u001b[48;5;77mrom\u001b[48;5;80m t\u001b[48;5;68my\u001b[48;5;134mp\u001b[48;5;167ming\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mort\u001b[48;5;80m O\u001b[48;5;68mpt\u001b[48;5;134mional\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimport\u001b[48;5;77m regex\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m t\u001b[48;5;179mi\u001b[48;5;185mk\u001b[48;5;77mtoken\u001b[48;5;80m\n", + "\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mc\u001b[48;5;167mla\u001b[48;5;179mss\u001b[48;5;185m S\u001b[48;5;77mimple\u001b[48;5;80mB\u001b[48;5;68myte\u001b[48;5;134mP\u001b[48;5;167ma\u001b[48;5;179mir\u001b[48;5;185mEncoding\u001b[48;5;77m:\u001b[48;5;80m\n", + " \u001b[48;5;68m def\u001b[48;5;134m \u001b[48;5;167m__\u001b[48;5;179min\u001b[48;5;185mit\u001b[48;5;77m__\u001b[48;5;80m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'co' + b'l'\n", + "So we made b'col' our 487th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185ment\u001b[48;5;77mat\u001b[48;5;80mion\u001b[48;5;68m of\u001b[48;5;134m the\u001b[48;5;167m b\u001b[48;5;179myte\u001b[48;5;185m pair\u001b[48;5;77m en\u001b[48;5;80mcoding\u001b[48;5;68m al\u001b[48;5;134mg\u001b[48;5;167mor\u001b[48;5;179mith\u001b[48;5;185mm\u001b[48;5;77m.\u001b[48;5;80m\"\"\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mrom\u001b[48;5;179m \u001b[48;5;185m__\u001b[48;5;77mf\u001b[48;5;80mut\u001b[48;5;68mu\u001b[48;5;134mre\u001b[48;5;167m__\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mort\u001b[48;5;80m an\u001b[48;5;68mn\u001b[48;5;134mot\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mle\u001b[48;5;185mct\u001b[48;5;77mion\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mrom\u001b[48;5;77m t\u001b[48;5;80my\u001b[48;5;68mp\u001b[48;5;134ming\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mort\u001b[48;5;77m O\u001b[48;5;80mpt\u001b[48;5;68mional\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mimport\u001b[48;5;185m regex\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m t\u001b[48;5;167mi\u001b[48;5;179mk\u001b[48;5;185mtoken\u001b[48;5;77m\n", + "\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mc\u001b[48;5;134mla\u001b[48;5;167mss\u001b[48;5;179m S\u001b[48;5;185mimple\u001b[48;5;77mB\u001b[48;5;80myte\u001b[48;5;68mP\u001b[48;5;134ma\u001b[48;5;167mir\u001b[48;5;179mEncoding\u001b[48;5;185m:\u001b[48;5;77m\n", + " \u001b[48;5;80m def\u001b[48;5;68m \u001b[48;5;134m__\u001b[48;5;167min\u001b[48;5;179mit\u001b[48;5;185m__\u001b[48;5;77m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' O' + b'pt'\n", + "So we made b' Opt' our 488th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185ment\u001b[48;5;77mat\u001b[48;5;80mion\u001b[48;5;68m of\u001b[48;5;134m the\u001b[48;5;167m b\u001b[48;5;179myte\u001b[48;5;185m pair\u001b[48;5;77m en\u001b[48;5;80mcoding\u001b[48;5;68m al\u001b[48;5;134mg\u001b[48;5;167mor\u001b[48;5;179mith\u001b[48;5;185mm\u001b[48;5;77m.\u001b[48;5;80m\"\"\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mrom\u001b[48;5;179m \u001b[48;5;185m__\u001b[48;5;77mf\u001b[48;5;80mut\u001b[48;5;68mu\u001b[48;5;134mre\u001b[48;5;167m__\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mort\u001b[48;5;80m an\u001b[48;5;68mn\u001b[48;5;134mot\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mle\u001b[48;5;185mct\u001b[48;5;77mion\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mrom\u001b[48;5;77m t\u001b[48;5;80my\u001b[48;5;68mp\u001b[48;5;134ming\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mort\u001b[48;5;77m Opt\u001b[48;5;80mional\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimport\u001b[48;5;179m regex\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mimport\u001b[48;5;68m t\u001b[48;5;134mi\u001b[48;5;167mk\u001b[48;5;179mtoken\u001b[48;5;185m\n", + "\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mc\u001b[48;5;68mla\u001b[48;5;134mss\u001b[48;5;167m S\u001b[48;5;179mimple\u001b[48;5;185mB\u001b[48;5;77myte\u001b[48;5;80mP\u001b[48;5;68ma\u001b[48;5;134mir\u001b[48;5;167mEncoding\u001b[48;5;179m:\u001b[48;5;185m\n", + " \u001b[48;5;77m def\u001b[48;5;80m \u001b[48;5;68m__\u001b[48;5;134min\u001b[48;5;167mit\u001b[48;5;179m__\u001b[48;5;185m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' Opt' + b'ional'\n", + "So we made b' Optional' our 489th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185ment\u001b[48;5;77mat\u001b[48;5;80mion\u001b[48;5;68m of\u001b[48;5;134m the\u001b[48;5;167m b\u001b[48;5;179myte\u001b[48;5;185m pair\u001b[48;5;77m en\u001b[48;5;80mcoding\u001b[48;5;68m al\u001b[48;5;134mg\u001b[48;5;167mor\u001b[48;5;179mith\u001b[48;5;185mm\u001b[48;5;77m.\u001b[48;5;80m\"\"\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mrom\u001b[48;5;179m \u001b[48;5;185m__\u001b[48;5;77mf\u001b[48;5;80mut\u001b[48;5;68mu\u001b[48;5;134mre\u001b[48;5;167m__\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mort\u001b[48;5;80m an\u001b[48;5;68mn\u001b[48;5;134mot\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mle\u001b[48;5;185mct\u001b[48;5;77mion\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mrom\u001b[48;5;77m t\u001b[48;5;80my\u001b[48;5;68mp\u001b[48;5;134ming\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mort\u001b[48;5;77m Optional\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m regex\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mc\u001b[48;5;80mla\u001b[48;5;68mss\u001b[48;5;134m S\u001b[48;5;167mimple\u001b[48;5;179mB\u001b[48;5;185myte\u001b[48;5;77mP\u001b[48;5;80ma\u001b[48;5;68mir\u001b[48;5;134mEncoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m def\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68min\u001b[48;5;134mit\u001b[48;5;167m__\u001b[48;5;179m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' S' + b'imple'\n", + "So we made b' Simple' our 490th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185ment\u001b[48;5;77mat\u001b[48;5;80mion\u001b[48;5;68m of\u001b[48;5;134m the\u001b[48;5;167m b\u001b[48;5;179myte\u001b[48;5;185m pair\u001b[48;5;77m en\u001b[48;5;80mcoding\u001b[48;5;68m al\u001b[48;5;134mg\u001b[48;5;167mor\u001b[48;5;179mith\u001b[48;5;185mm\u001b[48;5;77m.\u001b[48;5;80m\"\"\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mrom\u001b[48;5;179m \u001b[48;5;185m__\u001b[48;5;77mf\u001b[48;5;80mut\u001b[48;5;68mu\u001b[48;5;134mre\u001b[48;5;167m__\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mort\u001b[48;5;80m an\u001b[48;5;68mn\u001b[48;5;134mot\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mle\u001b[48;5;185mct\u001b[48;5;77mion\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mrom\u001b[48;5;77m t\u001b[48;5;80my\u001b[48;5;68mp\u001b[48;5;134ming\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mort\u001b[48;5;77m Optional\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m regex\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mc\u001b[48;5;80mla\u001b[48;5;68mss\u001b[48;5;134m Simple\u001b[48;5;167mB\u001b[48;5;179myte\u001b[48;5;185mP\u001b[48;5;77ma\u001b[48;5;80mir\u001b[48;5;68mEncoding\u001b[48;5;134m:\u001b[48;5;167m\n", + " \u001b[48;5;179m def\u001b[48;5;185m \u001b[48;5;77m__\u001b[48;5;80min\u001b[48;5;68mit\u001b[48;5;134m__\u001b[48;5;167m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' Simple' + b'B'\n", + "So we made b' SimpleB' our 491th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185ment\u001b[48;5;77mat\u001b[48;5;80mion\u001b[48;5;68m of\u001b[48;5;134m the\u001b[48;5;167m b\u001b[48;5;179myte\u001b[48;5;185m pair\u001b[48;5;77m en\u001b[48;5;80mcoding\u001b[48;5;68m al\u001b[48;5;134mg\u001b[48;5;167mor\u001b[48;5;179mith\u001b[48;5;185mm\u001b[48;5;77m.\u001b[48;5;80m\"\"\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mrom\u001b[48;5;179m \u001b[48;5;185m__\u001b[48;5;77mf\u001b[48;5;80mut\u001b[48;5;68mu\u001b[48;5;134mre\u001b[48;5;167m__\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mort\u001b[48;5;80m an\u001b[48;5;68mn\u001b[48;5;134mot\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mle\u001b[48;5;185mct\u001b[48;5;77mion\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mrom\u001b[48;5;77m t\u001b[48;5;80my\u001b[48;5;68mp\u001b[48;5;134ming\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mort\u001b[48;5;77m Optional\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m regex\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mc\u001b[48;5;80mla\u001b[48;5;68mss\u001b[48;5;134m SimpleB\u001b[48;5;167myte\u001b[48;5;179mP\u001b[48;5;185ma\u001b[48;5;77mir\u001b[48;5;80mEncoding\u001b[48;5;68m:\u001b[48;5;134m\n", + " \u001b[48;5;167m def\u001b[48;5;179m \u001b[48;5;185m__\u001b[48;5;77min\u001b[48;5;80mit\u001b[48;5;68m__\u001b[48;5;134m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' SimpleB' + b'yte'\n", + "So we made b' SimpleByte' our 492th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185ment\u001b[48;5;77mat\u001b[48;5;80mion\u001b[48;5;68m of\u001b[48;5;134m the\u001b[48;5;167m b\u001b[48;5;179myte\u001b[48;5;185m pair\u001b[48;5;77m en\u001b[48;5;80mcoding\u001b[48;5;68m al\u001b[48;5;134mg\u001b[48;5;167mor\u001b[48;5;179mith\u001b[48;5;185mm\u001b[48;5;77m.\u001b[48;5;80m\"\"\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mrom\u001b[48;5;179m \u001b[48;5;185m__\u001b[48;5;77mf\u001b[48;5;80mut\u001b[48;5;68mu\u001b[48;5;134mre\u001b[48;5;167m__\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mort\u001b[48;5;80m an\u001b[48;5;68mn\u001b[48;5;134mot\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mle\u001b[48;5;185mct\u001b[48;5;77mion\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mrom\u001b[48;5;77m t\u001b[48;5;80my\u001b[48;5;68mp\u001b[48;5;134ming\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mort\u001b[48;5;77m Optional\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m regex\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mc\u001b[48;5;80mla\u001b[48;5;68mss\u001b[48;5;134m SimpleByte\u001b[48;5;167mP\u001b[48;5;179ma\u001b[48;5;185mir\u001b[48;5;77mEncoding\u001b[48;5;80m:\u001b[48;5;68m\n", + " \u001b[48;5;134m def\u001b[48;5;167m \u001b[48;5;179m__\u001b[48;5;185min\u001b[48;5;77mit\u001b[48;5;80m__\u001b[48;5;68m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' SimpleByte' + b'P'\n", + "So we made b' SimpleByteP' our 493th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185ment\u001b[48;5;77mat\u001b[48;5;80mion\u001b[48;5;68m of\u001b[48;5;134m the\u001b[48;5;167m b\u001b[48;5;179myte\u001b[48;5;185m pair\u001b[48;5;77m en\u001b[48;5;80mcoding\u001b[48;5;68m al\u001b[48;5;134mg\u001b[48;5;167mor\u001b[48;5;179mith\u001b[48;5;185mm\u001b[48;5;77m.\u001b[48;5;80m\"\"\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mrom\u001b[48;5;179m \u001b[48;5;185m__\u001b[48;5;77mf\u001b[48;5;80mut\u001b[48;5;68mu\u001b[48;5;134mre\u001b[48;5;167m__\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mort\u001b[48;5;80m an\u001b[48;5;68mn\u001b[48;5;134mot\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mle\u001b[48;5;185mct\u001b[48;5;77mion\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mrom\u001b[48;5;77m t\u001b[48;5;80my\u001b[48;5;68mp\u001b[48;5;134ming\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mort\u001b[48;5;77m Optional\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m regex\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mc\u001b[48;5;80mla\u001b[48;5;68mss\u001b[48;5;134m SimpleByteP\u001b[48;5;167ma\u001b[48;5;179mir\u001b[48;5;185mEncoding\u001b[48;5;77m:\u001b[48;5;80m\n", + " \u001b[48;5;68m def\u001b[48;5;134m \u001b[48;5;167m__\u001b[48;5;179min\u001b[48;5;185mit\u001b[48;5;77m__\u001b[48;5;80m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' SimpleByteP' + b'a'\n", + "So we made b' SimpleBytePa' our 494th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185ment\u001b[48;5;77mat\u001b[48;5;80mion\u001b[48;5;68m of\u001b[48;5;134m the\u001b[48;5;167m b\u001b[48;5;179myte\u001b[48;5;185m pair\u001b[48;5;77m en\u001b[48;5;80mcoding\u001b[48;5;68m al\u001b[48;5;134mg\u001b[48;5;167mor\u001b[48;5;179mith\u001b[48;5;185mm\u001b[48;5;77m.\u001b[48;5;80m\"\"\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mrom\u001b[48;5;179m \u001b[48;5;185m__\u001b[48;5;77mf\u001b[48;5;80mut\u001b[48;5;68mu\u001b[48;5;134mre\u001b[48;5;167m__\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mort\u001b[48;5;80m an\u001b[48;5;68mn\u001b[48;5;134mot\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mle\u001b[48;5;185mct\u001b[48;5;77mion\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mrom\u001b[48;5;77m t\u001b[48;5;80my\u001b[48;5;68mp\u001b[48;5;134ming\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mort\u001b[48;5;77m Optional\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m regex\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mc\u001b[48;5;80mla\u001b[48;5;68mss\u001b[48;5;134m SimpleBytePa\u001b[48;5;167mir\u001b[48;5;179mEncoding\u001b[48;5;185m:\u001b[48;5;77m\n", + " \u001b[48;5;80m def\u001b[48;5;68m \u001b[48;5;134m__\u001b[48;5;167min\u001b[48;5;179mit\u001b[48;5;185m__\u001b[48;5;77m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' SimpleBytePa' + b'ir'\n", + "So we made b' SimpleBytePair' our 495th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185ment\u001b[48;5;77mat\u001b[48;5;80mion\u001b[48;5;68m of\u001b[48;5;134m the\u001b[48;5;167m b\u001b[48;5;179myte\u001b[48;5;185m pair\u001b[48;5;77m en\u001b[48;5;80mcoding\u001b[48;5;68m al\u001b[48;5;134mg\u001b[48;5;167mor\u001b[48;5;179mith\u001b[48;5;185mm\u001b[48;5;77m.\u001b[48;5;80m\"\"\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mrom\u001b[48;5;179m \u001b[48;5;185m__\u001b[48;5;77mf\u001b[48;5;80mut\u001b[48;5;68mu\u001b[48;5;134mre\u001b[48;5;167m__\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mort\u001b[48;5;80m an\u001b[48;5;68mn\u001b[48;5;134mot\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mle\u001b[48;5;185mct\u001b[48;5;77mion\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mrom\u001b[48;5;77m t\u001b[48;5;80my\u001b[48;5;68mp\u001b[48;5;134ming\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mort\u001b[48;5;77m Optional\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m regex\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mc\u001b[48;5;80mla\u001b[48;5;68mss\u001b[48;5;134m SimpleBytePair\u001b[48;5;167mEncoding\u001b[48;5;179m:\u001b[48;5;185m\n", + " \u001b[48;5;77m def\u001b[48;5;80m \u001b[48;5;68m__\u001b[48;5;134min\u001b[48;5;167mit\u001b[48;5;179m__\u001b[48;5;185m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' SimpleBytePair' + b'Encoding'\n", + "So we made b' SimpleBytePairEncoding' our 496th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185ment\u001b[48;5;77mat\u001b[48;5;80mion\u001b[48;5;68m of\u001b[48;5;134m the\u001b[48;5;167m b\u001b[48;5;179myte\u001b[48;5;185m pair\u001b[48;5;77m en\u001b[48;5;80mcoding\u001b[48;5;68m al\u001b[48;5;134mg\u001b[48;5;167mor\u001b[48;5;179mith\u001b[48;5;185mm\u001b[48;5;77m.\u001b[48;5;80m\"\"\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mrom\u001b[48;5;179m \u001b[48;5;185m__\u001b[48;5;77mf\u001b[48;5;80mut\u001b[48;5;68mu\u001b[48;5;134mre\u001b[48;5;167m__\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mort\u001b[48;5;80m an\u001b[48;5;68mn\u001b[48;5;134mot\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mle\u001b[48;5;185mct\u001b[48;5;77mion\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mrom\u001b[48;5;77m t\u001b[48;5;80my\u001b[48;5;68mp\u001b[48;5;134ming\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mort\u001b[48;5;77m Optional\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m regex\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mc\u001b[48;5;80mla\u001b[48;5;68mss\u001b[48;5;134m SimpleBytePairEncoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m def\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68min\u001b[48;5;134mit\u001b[48;5;167m__\u001b[48;5;179m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' d' + b'i'\n", + "So we made b' di' our 497th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185ment\u001b[48;5;77mat\u001b[48;5;80mion\u001b[48;5;68m of\u001b[48;5;134m the\u001b[48;5;167m b\u001b[48;5;179myte\u001b[48;5;185m pair\u001b[48;5;77m en\u001b[48;5;80mcoding\u001b[48;5;68m al\u001b[48;5;134mg\u001b[48;5;167mor\u001b[48;5;179mith\u001b[48;5;185mm\u001b[48;5;77m.\u001b[48;5;80m\"\"\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mrom\u001b[48;5;179m \u001b[48;5;185m__\u001b[48;5;77mf\u001b[48;5;80mut\u001b[48;5;68mu\u001b[48;5;134mre\u001b[48;5;167m__\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mort\u001b[48;5;80m an\u001b[48;5;68mn\u001b[48;5;134mot\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mle\u001b[48;5;185mct\u001b[48;5;77mion\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mrom\u001b[48;5;77m t\u001b[48;5;80my\u001b[48;5;68mp\u001b[48;5;134ming\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mort\u001b[48;5;77m Optional\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m regex\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mc\u001b[48;5;80mla\u001b[48;5;68mss\u001b[48;5;134m SimpleBytePairEncoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m def\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68min\u001b[48;5;134mit\u001b[48;5;167m__\u001b[48;5;179m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' di' + b'ct'\n", + "So we made b' dict' our 498th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185ment\u001b[48;5;77mat\u001b[48;5;80mion\u001b[48;5;68m of\u001b[48;5;134m the\u001b[48;5;167m b\u001b[48;5;179myte\u001b[48;5;185m pair\u001b[48;5;77m en\u001b[48;5;80mcoding\u001b[48;5;68m al\u001b[48;5;134mg\u001b[48;5;167mor\u001b[48;5;179mith\u001b[48;5;185mm\u001b[48;5;77m.\u001b[48;5;80m\"\"\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mrom\u001b[48;5;179m \u001b[48;5;185m__\u001b[48;5;77mf\u001b[48;5;80mut\u001b[48;5;68mu\u001b[48;5;134mre\u001b[48;5;167m__\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mort\u001b[48;5;80m an\u001b[48;5;68mn\u001b[48;5;134mot\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mle\u001b[48;5;185mct\u001b[48;5;77mion\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mrom\u001b[48;5;77m t\u001b[48;5;80my\u001b[48;5;68mp\u001b[48;5;134ming\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mort\u001b[48;5;77m Optional\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m regex\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mc\u001b[48;5;80mla\u001b[48;5;68mss\u001b[48;5;134m SimpleBytePairEncoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m def\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68min\u001b[48;5;134mit\u001b[48;5;167m__\u001b[48;5;179m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' str' + b'ing'\n", + "So we made b' string' our 499th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185ment\u001b[48;5;77mat\u001b[48;5;80mion\u001b[48;5;68m of\u001b[48;5;134m the\u001b[48;5;167m b\u001b[48;5;179myte\u001b[48;5;185m pair\u001b[48;5;77m en\u001b[48;5;80mcoding\u001b[48;5;68m al\u001b[48;5;134mg\u001b[48;5;167mor\u001b[48;5;179mith\u001b[48;5;185mm\u001b[48;5;77m.\u001b[48;5;80m\"\"\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mrom\u001b[48;5;179m \u001b[48;5;185m__\u001b[48;5;77mf\u001b[48;5;80mut\u001b[48;5;68mu\u001b[48;5;134mre\u001b[48;5;167m__\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mort\u001b[48;5;80m an\u001b[48;5;68mn\u001b[48;5;134mot\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mle\u001b[48;5;185mct\u001b[48;5;77mion\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mrom\u001b[48;5;77m t\u001b[48;5;80my\u001b[48;5;68mp\u001b[48;5;134ming\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mort\u001b[48;5;77m Optional\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m regex\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mc\u001b[48;5;80mla\u001b[48;5;68mss\u001b[48;5;134m SimpleBytePairEncoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m def\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68min\u001b[48;5;134mit\u001b[48;5;167m__\u001b[48;5;179m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'e' + b'xt'\n", + "So we made b'ext' our 500th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185ment\u001b[48;5;77mat\u001b[48;5;80mion\u001b[48;5;68m of\u001b[48;5;134m the\u001b[48;5;167m b\u001b[48;5;179myte\u001b[48;5;185m pair\u001b[48;5;77m en\u001b[48;5;80mcoding\u001b[48;5;68m al\u001b[48;5;134mg\u001b[48;5;167mor\u001b[48;5;179mith\u001b[48;5;185mm\u001b[48;5;77m.\u001b[48;5;80m\"\"\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mrom\u001b[48;5;179m \u001b[48;5;185m__\u001b[48;5;77mf\u001b[48;5;80mut\u001b[48;5;68mu\u001b[48;5;134mre\u001b[48;5;167m__\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mort\u001b[48;5;80m an\u001b[48;5;68mn\u001b[48;5;134mot\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mle\u001b[48;5;185mct\u001b[48;5;77mion\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mrom\u001b[48;5;77m t\u001b[48;5;80my\u001b[48;5;68mp\u001b[48;5;134ming\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mort\u001b[48;5;77m Optional\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m regex\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mc\u001b[48;5;80mla\u001b[48;5;68mss\u001b[48;5;134m SimpleBytePairEncoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m def\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68min\u001b[48;5;134mit\u001b[48;5;167m__\u001b[48;5;179m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' ' + b'c'\n", + "So we made b' c' our 501th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185ment\u001b[48;5;77mat\u001b[48;5;80mion\u001b[48;5;68m of\u001b[48;5;134m the\u001b[48;5;167m b\u001b[48;5;179myte\u001b[48;5;185m pair\u001b[48;5;77m en\u001b[48;5;80mcoding\u001b[48;5;68m al\u001b[48;5;134mg\u001b[48;5;167mor\u001b[48;5;179mith\u001b[48;5;185mm\u001b[48;5;77m.\u001b[48;5;80m\"\"\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mrom\u001b[48;5;179m \u001b[48;5;185m__\u001b[48;5;77mf\u001b[48;5;80mut\u001b[48;5;68mu\u001b[48;5;134mre\u001b[48;5;167m__\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mort\u001b[48;5;80m an\u001b[48;5;68mn\u001b[48;5;134mot\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mle\u001b[48;5;185mct\u001b[48;5;77mion\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mrom\u001b[48;5;77m t\u001b[48;5;80my\u001b[48;5;68mp\u001b[48;5;134ming\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mort\u001b[48;5;77m Optional\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m regex\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mc\u001b[48;5;80mla\u001b[48;5;68mss\u001b[48;5;134m SimpleBytePairEncoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m def\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68min\u001b[48;5;134mit\u001b[48;5;167m__\u001b[48;5;179m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'code' + b's'\n", + "So we made b'codes' our 502th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185ment\u001b[48;5;77mat\u001b[48;5;80mion\u001b[48;5;68m of\u001b[48;5;134m the\u001b[48;5;167m b\u001b[48;5;179myte\u001b[48;5;185m pair\u001b[48;5;77m en\u001b[48;5;80mcoding\u001b[48;5;68m al\u001b[48;5;134mg\u001b[48;5;167mor\u001b[48;5;179mith\u001b[48;5;185mm\u001b[48;5;77m.\u001b[48;5;80m\"\"\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mrom\u001b[48;5;179m \u001b[48;5;185m__\u001b[48;5;77mf\u001b[48;5;80mut\u001b[48;5;68mu\u001b[48;5;134mre\u001b[48;5;167m__\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mort\u001b[48;5;80m an\u001b[48;5;68mn\u001b[48;5;134mot\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mle\u001b[48;5;185mct\u001b[48;5;77mion\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mrom\u001b[48;5;77m t\u001b[48;5;80my\u001b[48;5;68mp\u001b[48;5;134ming\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mort\u001b[48;5;77m Optional\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m regex\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mc\u001b[48;5;80mla\u001b[48;5;68mss\u001b[48;5;134m SimpleBytePairEncoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m def\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68min\u001b[48;5;134mit\u001b[48;5;167m__\u001b[48;5;179m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' ' + b'>>'\n", + "So we made b' >>' our 503th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185ment\u001b[48;5;77mat\u001b[48;5;80mion\u001b[48;5;68m of\u001b[48;5;134m the\u001b[48;5;167m b\u001b[48;5;179myte\u001b[48;5;185m pair\u001b[48;5;77m en\u001b[48;5;80mcoding\u001b[48;5;68m al\u001b[48;5;134mg\u001b[48;5;167mor\u001b[48;5;179mith\u001b[48;5;185mm\u001b[48;5;77m.\u001b[48;5;80m\"\"\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mrom\u001b[48;5;179m \u001b[48;5;185m__\u001b[48;5;77mf\u001b[48;5;80mut\u001b[48;5;68mu\u001b[48;5;134mre\u001b[48;5;167m__\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mort\u001b[48;5;80m an\u001b[48;5;68mn\u001b[48;5;134mot\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mle\u001b[48;5;185mct\u001b[48;5;77mion\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mrom\u001b[48;5;77m t\u001b[48;5;80my\u001b[48;5;68mp\u001b[48;5;134ming\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mort\u001b[48;5;77m Optional\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m regex\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mc\u001b[48;5;80mla\u001b[48;5;68mss\u001b[48;5;134m SimpleBytePairEncoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m def\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68min\u001b[48;5;134mit\u001b[48;5;167m__\u001b[48;5;179m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' >>' + b'>'\n", + "So we made b' >>>' our 504th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185ment\u001b[48;5;77mat\u001b[48;5;80mion\u001b[48;5;68m of\u001b[48;5;134m the\u001b[48;5;167m b\u001b[48;5;179myte\u001b[48;5;185m pair\u001b[48;5;77m en\u001b[48;5;80mcoding\u001b[48;5;68m al\u001b[48;5;134mg\u001b[48;5;167mor\u001b[48;5;179mith\u001b[48;5;185mm\u001b[48;5;77m.\u001b[48;5;80m\"\"\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mrom\u001b[48;5;179m \u001b[48;5;185m__\u001b[48;5;77mf\u001b[48;5;80mut\u001b[48;5;68mu\u001b[48;5;134mre\u001b[48;5;167m__\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mort\u001b[48;5;80m an\u001b[48;5;68mn\u001b[48;5;134mot\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mle\u001b[48;5;185mct\u001b[48;5;77mion\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mrom\u001b[48;5;77m t\u001b[48;5;80my\u001b[48;5;68mp\u001b[48;5;134ming\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mort\u001b[48;5;77m Optional\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m regex\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mc\u001b[48;5;80mla\u001b[48;5;68mss\u001b[48;5;134m SimpleBytePairEncoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m def\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68min\u001b[48;5;134mit\u001b[48;5;167m__\u001b[48;5;179m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'3' + b'8'\n", + "So we made b'38' our 505th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185ment\u001b[48;5;77mat\u001b[48;5;80mion\u001b[48;5;68m of\u001b[48;5;134m the\u001b[48;5;167m b\u001b[48;5;179myte\u001b[48;5;185m pair\u001b[48;5;77m en\u001b[48;5;80mcoding\u001b[48;5;68m al\u001b[48;5;134mg\u001b[48;5;167mor\u001b[48;5;179mith\u001b[48;5;185mm\u001b[48;5;77m.\u001b[48;5;80m\"\"\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mrom\u001b[48;5;179m \u001b[48;5;185m__\u001b[48;5;77mf\u001b[48;5;80mut\u001b[48;5;68mu\u001b[48;5;134mre\u001b[48;5;167m__\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mort\u001b[48;5;80m an\u001b[48;5;68mn\u001b[48;5;134mot\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mle\u001b[48;5;185mct\u001b[48;5;77mion\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mrom\u001b[48;5;77m t\u001b[48;5;80my\u001b[48;5;68mp\u001b[48;5;134ming\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mort\u001b[48;5;77m Optional\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m regex\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mc\u001b[48;5;80mla\u001b[48;5;68mss\u001b[48;5;134m SimpleBytePairEncoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m def\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68min\u001b[48;5;134mit\u001b[48;5;167m__\u001b[48;5;179m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'38' + b'8'\n", + "So we made b'388' our 506th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185ment\u001b[48;5;77mat\u001b[48;5;80mion\u001b[48;5;68m of\u001b[48;5;134m the\u001b[48;5;167m b\u001b[48;5;179myte\u001b[48;5;185m pair\u001b[48;5;77m en\u001b[48;5;80mcoding\u001b[48;5;68m al\u001b[48;5;134mg\u001b[48;5;167mor\u001b[48;5;179mith\u001b[48;5;185mm\u001b[48;5;77m.\u001b[48;5;80m\"\"\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mrom\u001b[48;5;179m \u001b[48;5;185m__\u001b[48;5;77mf\u001b[48;5;80mut\u001b[48;5;68mu\u001b[48;5;134mre\u001b[48;5;167m__\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mort\u001b[48;5;80m an\u001b[48;5;68mn\u001b[48;5;134mot\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mle\u001b[48;5;185mct\u001b[48;5;77mion\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mrom\u001b[48;5;77m t\u001b[48;5;80my\u001b[48;5;68mp\u001b[48;5;134ming\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mort\u001b[48;5;77m Optional\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m regex\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mc\u001b[48;5;80mla\u001b[48;5;68mss\u001b[48;5;134m SimpleBytePairEncoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m def\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68min\u001b[48;5;134mit\u001b[48;5;167m__\u001b[48;5;179m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' ' + b'3'\n", + "So we made b' 3' our 507th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185ment\u001b[48;5;77mat\u001b[48;5;80mion\u001b[48;5;68m of\u001b[48;5;134m the\u001b[48;5;167m b\u001b[48;5;179myte\u001b[48;5;185m pair\u001b[48;5;77m en\u001b[48;5;80mcoding\u001b[48;5;68m al\u001b[48;5;134mg\u001b[48;5;167mor\u001b[48;5;179mith\u001b[48;5;185mm\u001b[48;5;77m.\u001b[48;5;80m\"\"\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mrom\u001b[48;5;179m \u001b[48;5;185m__\u001b[48;5;77mf\u001b[48;5;80mut\u001b[48;5;68mu\u001b[48;5;134mre\u001b[48;5;167m__\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mort\u001b[48;5;80m an\u001b[48;5;68mn\u001b[48;5;134mot\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mle\u001b[48;5;185mct\u001b[48;5;77mion\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mrom\u001b[48;5;77m t\u001b[48;5;80my\u001b[48;5;68mp\u001b[48;5;134ming\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mort\u001b[48;5;77m Optional\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m regex\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mc\u001b[48;5;80mla\u001b[48;5;68mss\u001b[48;5;134m SimpleBytePairEncoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m def\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68min\u001b[48;5;134mit\u001b[48;5;167m__\u001b[48;5;179m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' 3' + b'7'\n", + "So we made b' 37' our 508th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185ment\u001b[48;5;77mat\u001b[48;5;80mion\u001b[48;5;68m of\u001b[48;5;134m the\u001b[48;5;167m b\u001b[48;5;179myte\u001b[48;5;185m pair\u001b[48;5;77m en\u001b[48;5;80mcoding\u001b[48;5;68m al\u001b[48;5;134mg\u001b[48;5;167mor\u001b[48;5;179mith\u001b[48;5;185mm\u001b[48;5;77m.\u001b[48;5;80m\"\"\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mrom\u001b[48;5;179m \u001b[48;5;185m__\u001b[48;5;77mf\u001b[48;5;80mut\u001b[48;5;68mu\u001b[48;5;134mre\u001b[48;5;167m__\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mort\u001b[48;5;80m an\u001b[48;5;68mn\u001b[48;5;134mot\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mle\u001b[48;5;185mct\u001b[48;5;77mion\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mrom\u001b[48;5;77m t\u001b[48;5;80my\u001b[48;5;68mp\u001b[48;5;134ming\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mort\u001b[48;5;77m Optional\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m regex\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mc\u001b[48;5;80mla\u001b[48;5;68mss\u001b[48;5;134m SimpleBytePairEncoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m def\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68min\u001b[48;5;134mit\u001b[48;5;167m__\u001b[48;5;179m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' 37' + b'2'\n", + "So we made b' 372' our 509th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185ment\u001b[48;5;77mat\u001b[48;5;80mion\u001b[48;5;68m of\u001b[48;5;134m the\u001b[48;5;167m b\u001b[48;5;179myte\u001b[48;5;185m pair\u001b[48;5;77m en\u001b[48;5;80mcoding\u001b[48;5;68m al\u001b[48;5;134mg\u001b[48;5;167mor\u001b[48;5;179mith\u001b[48;5;185mm\u001b[48;5;77m.\u001b[48;5;80m\"\"\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mrom\u001b[48;5;179m \u001b[48;5;185m__\u001b[48;5;77mf\u001b[48;5;80mut\u001b[48;5;68mu\u001b[48;5;134mre\u001b[48;5;167m__\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mort\u001b[48;5;80m an\u001b[48;5;68mn\u001b[48;5;134mot\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mle\u001b[48;5;185mct\u001b[48;5;77mion\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mrom\u001b[48;5;77m t\u001b[48;5;80my\u001b[48;5;68mp\u001b[48;5;134ming\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mort\u001b[48;5;77m Optional\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m regex\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mc\u001b[48;5;80mla\u001b[48;5;68mss\u001b[48;5;134m SimpleBytePairEncoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m def\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68min\u001b[48;5;134mit\u001b[48;5;167m__\u001b[48;5;179m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' ' + b'('\n", + "So we made b' (' our 510th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185ment\u001b[48;5;77mat\u001b[48;5;80mion\u001b[48;5;68m of\u001b[48;5;134m the\u001b[48;5;167m b\u001b[48;5;179myte\u001b[48;5;185m pair\u001b[48;5;77m en\u001b[48;5;80mcoding\u001b[48;5;68m al\u001b[48;5;134mg\u001b[48;5;167mor\u001b[48;5;179mith\u001b[48;5;185mm\u001b[48;5;77m.\u001b[48;5;80m\"\"\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mrom\u001b[48;5;179m \u001b[48;5;185m__\u001b[48;5;77mf\u001b[48;5;80mut\u001b[48;5;68mu\u001b[48;5;134mre\u001b[48;5;167m__\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mort\u001b[48;5;80m an\u001b[48;5;68mn\u001b[48;5;134mot\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mle\u001b[48;5;185mct\u001b[48;5;77mion\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mrom\u001b[48;5;77m t\u001b[48;5;80my\u001b[48;5;68mp\u001b[48;5;134ming\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mort\u001b[48;5;77m Optional\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m regex\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mc\u001b[48;5;80mla\u001b[48;5;68mss\u001b[48;5;134m SimpleBytePairEncoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m def\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68min\u001b[48;5;134mit\u001b[48;5;167m__\u001b[48;5;179m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'in' + b'd'\n", + "So we made b'ind' our 511th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185ment\u001b[48;5;77mat\u001b[48;5;80mion\u001b[48;5;68m of\u001b[48;5;134m the\u001b[48;5;167m b\u001b[48;5;179myte\u001b[48;5;185m pair\u001b[48;5;77m en\u001b[48;5;80mcoding\u001b[48;5;68m al\u001b[48;5;134mg\u001b[48;5;167mor\u001b[48;5;179mith\u001b[48;5;185mm\u001b[48;5;77m.\u001b[48;5;80m\"\"\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mrom\u001b[48;5;179m \u001b[48;5;185m__\u001b[48;5;77mf\u001b[48;5;80mut\u001b[48;5;68mu\u001b[48;5;134mre\u001b[48;5;167m__\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mort\u001b[48;5;80m an\u001b[48;5;68mn\u001b[48;5;134mot\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mle\u001b[48;5;185mct\u001b[48;5;77mion\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mrom\u001b[48;5;77m t\u001b[48;5;80my\u001b[48;5;68mp\u001b[48;5;134ming\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mort\u001b[48;5;77m Optional\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m regex\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mc\u001b[48;5;80mla\u001b[48;5;68mss\u001b[48;5;134m SimpleBytePairEncoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m def\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68min\u001b[48;5;134mit\u001b[48;5;167m__\u001b[48;5;179m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'ut' + b'f'\n", + "So we made b'utf' our 512th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185ment\u001b[48;5;77mat\u001b[48;5;80mion\u001b[48;5;68m of\u001b[48;5;134m the\u001b[48;5;167m b\u001b[48;5;179myte\u001b[48;5;185m pair\u001b[48;5;77m en\u001b[48;5;80mcoding\u001b[48;5;68m al\u001b[48;5;134mg\u001b[48;5;167mor\u001b[48;5;179mith\u001b[48;5;185mm\u001b[48;5;77m.\u001b[48;5;80m\"\"\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mrom\u001b[48;5;179m \u001b[48;5;185m__\u001b[48;5;77mf\u001b[48;5;80mut\u001b[48;5;68mu\u001b[48;5;134mre\u001b[48;5;167m__\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mort\u001b[48;5;80m an\u001b[48;5;68mn\u001b[48;5;134mot\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mle\u001b[48;5;185mct\u001b[48;5;77mion\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mrom\u001b[48;5;77m t\u001b[48;5;80my\u001b[48;5;68mp\u001b[48;5;134ming\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mort\u001b[48;5;77m Optional\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m regex\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mc\u001b[48;5;80mla\u001b[48;5;68mss\u001b[48;5;134m SimpleBytePairEncoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m def\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68min\u001b[48;5;134mit\u001b[48;5;167m__\u001b[48;5;179m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' b' + b'pe'\n", + "So we made b' bpe' our 513th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185ment\u001b[48;5;77mat\u001b[48;5;80mion\u001b[48;5;68m of\u001b[48;5;134m the\u001b[48;5;167m b\u001b[48;5;179myte\u001b[48;5;185m pair\u001b[48;5;77m en\u001b[48;5;80mcoding\u001b[48;5;68m al\u001b[48;5;134mg\u001b[48;5;167mor\u001b[48;5;179mith\u001b[48;5;185mm\u001b[48;5;77m.\u001b[48;5;80m\"\"\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mrom\u001b[48;5;179m \u001b[48;5;185m__\u001b[48;5;77mf\u001b[48;5;80mut\u001b[48;5;68mu\u001b[48;5;134mre\u001b[48;5;167m__\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mort\u001b[48;5;80m an\u001b[48;5;68mn\u001b[48;5;134mot\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mle\u001b[48;5;185mct\u001b[48;5;77mion\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mrom\u001b[48;5;77m t\u001b[48;5;80my\u001b[48;5;68mp\u001b[48;5;134ming\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mort\u001b[48;5;77m Optional\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m regex\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mc\u001b[48;5;80mla\u001b[48;5;68mss\u001b[48;5;134m SimpleBytePairEncoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m def\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68min\u001b[48;5;134mit\u001b[48;5;167m__\u001b[48;5;179m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'D' + b'e'\n", + "So we made b'De' our 514th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185ment\u001b[48;5;77mat\u001b[48;5;80mion\u001b[48;5;68m of\u001b[48;5;134m the\u001b[48;5;167m b\u001b[48;5;179myte\u001b[48;5;185m pair\u001b[48;5;77m en\u001b[48;5;80mcoding\u001b[48;5;68m al\u001b[48;5;134mg\u001b[48;5;167mor\u001b[48;5;179mith\u001b[48;5;185mm\u001b[48;5;77m.\u001b[48;5;80m\"\"\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mrom\u001b[48;5;179m \u001b[48;5;185m__\u001b[48;5;77mf\u001b[48;5;80mut\u001b[48;5;68mu\u001b[48;5;134mre\u001b[48;5;167m__\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mort\u001b[48;5;80m an\u001b[48;5;68mn\u001b[48;5;134mot\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mle\u001b[48;5;185mct\u001b[48;5;77mion\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mrom\u001b[48;5;77m t\u001b[48;5;80my\u001b[48;5;68mp\u001b[48;5;134ming\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mort\u001b[48;5;77m Optional\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m regex\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mc\u001b[48;5;80mla\u001b[48;5;68mss\u001b[48;5;134m SimpleBytePairEncoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m def\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68min\u001b[48;5;134mit\u001b[48;5;167m__\u001b[48;5;179m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'\"' + b','\n", + "So we made b'\",' our 515th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185ment\u001b[48;5;77mat\u001b[48;5;80mion\u001b[48;5;68m of\u001b[48;5;134m the\u001b[48;5;167m b\u001b[48;5;179myte\u001b[48;5;185m pair\u001b[48;5;77m en\u001b[48;5;80mcoding\u001b[48;5;68m al\u001b[48;5;134mg\u001b[48;5;167mor\u001b[48;5;179mith\u001b[48;5;185mm\u001b[48;5;77m.\u001b[48;5;80m\"\"\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mrom\u001b[48;5;179m \u001b[48;5;185m__\u001b[48;5;77mf\u001b[48;5;80mut\u001b[48;5;68mu\u001b[48;5;134mre\u001b[48;5;167m__\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mort\u001b[48;5;80m an\u001b[48;5;68mn\u001b[48;5;134mot\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mle\u001b[48;5;185mct\u001b[48;5;77mion\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mrom\u001b[48;5;77m t\u001b[48;5;80my\u001b[48;5;68mp\u001b[48;5;134ming\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mort\u001b[48;5;77m Optional\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m regex\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mc\u001b[48;5;80mla\u001b[48;5;68mss\u001b[48;5;134m SimpleBytePairEncoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m def\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68min\u001b[48;5;134mit\u001b[48;5;167m__\u001b[48;5;179m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'm' + b'e'\n", + "So we made b'me' our 516th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185ment\u001b[48;5;77mat\u001b[48;5;80mion\u001b[48;5;68m of\u001b[48;5;134m the\u001b[48;5;167m b\u001b[48;5;179myte\u001b[48;5;185m pair\u001b[48;5;77m en\u001b[48;5;80mcoding\u001b[48;5;68m al\u001b[48;5;134mg\u001b[48;5;167mor\u001b[48;5;179mith\u001b[48;5;185mm\u001b[48;5;77m.\u001b[48;5;80m\"\"\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mrom\u001b[48;5;179m \u001b[48;5;185m__\u001b[48;5;77mf\u001b[48;5;80mut\u001b[48;5;68mu\u001b[48;5;134mre\u001b[48;5;167m__\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mort\u001b[48;5;80m an\u001b[48;5;68mn\u001b[48;5;134mot\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mle\u001b[48;5;185mct\u001b[48;5;77mion\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mrom\u001b[48;5;77m t\u001b[48;5;80my\u001b[48;5;68mp\u001b[48;5;134ming\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mort\u001b[48;5;77m Optional\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m regex\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mc\u001b[48;5;80mla\u001b[48;5;68mss\u001b[48;5;134m SimpleBytePairEncoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m def\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68min\u001b[48;5;134mit\u001b[48;5;167m__\u001b[48;5;179m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b't' + b'h'\n", + "So we made b'th' our 517th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185ment\u001b[48;5;77mat\u001b[48;5;80mion\u001b[48;5;68m of\u001b[48;5;134m the\u001b[48;5;167m b\u001b[48;5;179myte\u001b[48;5;185m pair\u001b[48;5;77m en\u001b[48;5;80mcoding\u001b[48;5;68m al\u001b[48;5;134mg\u001b[48;5;167mor\u001b[48;5;179mith\u001b[48;5;185mm\u001b[48;5;77m.\u001b[48;5;80m\"\"\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mrom\u001b[48;5;179m \u001b[48;5;185m__\u001b[48;5;77mf\u001b[48;5;80mut\u001b[48;5;68mu\u001b[48;5;134mre\u001b[48;5;167m__\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mort\u001b[48;5;80m an\u001b[48;5;68mn\u001b[48;5;134mot\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mle\u001b[48;5;185mct\u001b[48;5;77mion\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mrom\u001b[48;5;77m t\u001b[48;5;80my\u001b[48;5;68mp\u001b[48;5;134ming\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mort\u001b[48;5;77m Optional\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m regex\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mc\u001b[48;5;80mla\u001b[48;5;68mss\u001b[48;5;134m SimpleBytePairEncoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m def\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68min\u001b[48;5;134mit\u001b[48;5;167m__\u001b[48;5;179m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'd' + b'ata'\n", + "So we made b'data' our 518th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185ment\u001b[48;5;77mat\u001b[48;5;80mion\u001b[48;5;68m of\u001b[48;5;134m the\u001b[48;5;167m b\u001b[48;5;179myte\u001b[48;5;185m pair\u001b[48;5;77m en\u001b[48;5;80mcoding\u001b[48;5;68m al\u001b[48;5;134mg\u001b[48;5;167mor\u001b[48;5;179mith\u001b[48;5;185mm\u001b[48;5;77m.\u001b[48;5;80m\"\"\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mrom\u001b[48;5;179m \u001b[48;5;185m__\u001b[48;5;77mf\u001b[48;5;80mut\u001b[48;5;68mu\u001b[48;5;134mre\u001b[48;5;167m__\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mort\u001b[48;5;80m an\u001b[48;5;68mn\u001b[48;5;134mot\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mle\u001b[48;5;185mct\u001b[48;5;77mion\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mrom\u001b[48;5;77m t\u001b[48;5;80my\u001b[48;5;68mp\u001b[48;5;134ming\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mort\u001b[48;5;77m Optional\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m regex\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mc\u001b[48;5;80mla\u001b[48;5;68mss\u001b[48;5;134m SimpleBytePairEncoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m def\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68min\u001b[48;5;134mit\u001b[48;5;167m__\u001b[48;5;179m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'a' + b'n'\n", + "So we made b'an' our 519th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185ment\u001b[48;5;77mat\u001b[48;5;80mion\u001b[48;5;68m of\u001b[48;5;134m the\u001b[48;5;167m b\u001b[48;5;179myte\u001b[48;5;185m pair\u001b[48;5;77m en\u001b[48;5;80mcoding\u001b[48;5;68m al\u001b[48;5;134mg\u001b[48;5;167mor\u001b[48;5;179mith\u001b[48;5;185mm\u001b[48;5;77m.\u001b[48;5;80m\"\"\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mrom\u001b[48;5;179m \u001b[48;5;185m__\u001b[48;5;77mf\u001b[48;5;80mut\u001b[48;5;68mu\u001b[48;5;134mre\u001b[48;5;167m__\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mort\u001b[48;5;80m an\u001b[48;5;68mn\u001b[48;5;134mot\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mle\u001b[48;5;185mct\u001b[48;5;77mion\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mrom\u001b[48;5;77m t\u001b[48;5;80my\u001b[48;5;68mp\u001b[48;5;134ming\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mort\u001b[48;5;77m Optional\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m regex\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mc\u001b[48;5;80mla\u001b[48;5;68mss\u001b[48;5;134m SimpleBytePairEncoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m def\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68min\u001b[48;5;134mit\u001b[48;5;167m__\u001b[48;5;179m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' w' + b'h'\n", + "So we made b' wh' our 520th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185ment\u001b[48;5;77mat\u001b[48;5;80mion\u001b[48;5;68m of\u001b[48;5;134m the\u001b[48;5;167m b\u001b[48;5;179myte\u001b[48;5;185m pair\u001b[48;5;77m en\u001b[48;5;80mcoding\u001b[48;5;68m al\u001b[48;5;134mg\u001b[48;5;167mor\u001b[48;5;179mith\u001b[48;5;185mm\u001b[48;5;77m.\u001b[48;5;80m\"\"\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mrom\u001b[48;5;179m \u001b[48;5;185m__\u001b[48;5;77mf\u001b[48;5;80mut\u001b[48;5;68mu\u001b[48;5;134mre\u001b[48;5;167m__\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mort\u001b[48;5;80m an\u001b[48;5;68mn\u001b[48;5;134mot\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mle\u001b[48;5;185mct\u001b[48;5;77mion\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mrom\u001b[48;5;77m t\u001b[48;5;80my\u001b[48;5;68mp\u001b[48;5;134ming\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mort\u001b[48;5;77m Optional\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m regex\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mc\u001b[48;5;80mla\u001b[48;5;68mss\u001b[48;5;134m SimpleBytePairEncoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m def\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68min\u001b[48;5;134mit\u001b[48;5;167m__\u001b[48;5;179m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' merge' + b's'\n", + "So we made b' merges' our 521th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185ment\u001b[48;5;77mat\u001b[48;5;80mion\u001b[48;5;68m of\u001b[48;5;134m the\u001b[48;5;167m b\u001b[48;5;179myte\u001b[48;5;185m pair\u001b[48;5;77m en\u001b[48;5;80mcoding\u001b[48;5;68m al\u001b[48;5;134mg\u001b[48;5;167mor\u001b[48;5;179mith\u001b[48;5;185mm\u001b[48;5;77m.\u001b[48;5;80m\"\"\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mrom\u001b[48;5;179m \u001b[48;5;185m__\u001b[48;5;77mf\u001b[48;5;80mut\u001b[48;5;68mu\u001b[48;5;134mre\u001b[48;5;167m__\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mort\u001b[48;5;80m an\u001b[48;5;68mn\u001b[48;5;134mot\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mle\u001b[48;5;185mct\u001b[48;5;77mion\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mrom\u001b[48;5;77m t\u001b[48;5;80my\u001b[48;5;68mp\u001b[48;5;134ming\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mort\u001b[48;5;77m Optional\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m regex\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mc\u001b[48;5;80mla\u001b[48;5;68mss\u001b[48;5;134m SimpleBytePairEncoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m def\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68min\u001b[48;5;134mit\u001b[48;5;167m__\u001b[48;5;179m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'pa' + b'rts'\n", + "So we made b'parts' our 522th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185ment\u001b[48;5;77mat\u001b[48;5;80mion\u001b[48;5;68m of\u001b[48;5;134m the\u001b[48;5;167m b\u001b[48;5;179myte\u001b[48;5;185m pair\u001b[48;5;77m en\u001b[48;5;80mcoding\u001b[48;5;68m al\u001b[48;5;134mg\u001b[48;5;167mor\u001b[48;5;179mith\u001b[48;5;185mm\u001b[48;5;77m.\u001b[48;5;80m\"\"\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mrom\u001b[48;5;179m \u001b[48;5;185m__\u001b[48;5;77mf\u001b[48;5;80mut\u001b[48;5;68mu\u001b[48;5;134mre\u001b[48;5;167m__\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mort\u001b[48;5;80m an\u001b[48;5;68mn\u001b[48;5;134mot\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mle\u001b[48;5;185mct\u001b[48;5;77mion\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mrom\u001b[48;5;77m t\u001b[48;5;80my\u001b[48;5;68mp\u001b[48;5;134ming\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mort\u001b[48;5;77m Optional\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m regex\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mc\u001b[48;5;80mla\u001b[48;5;68mss\u001b[48;5;134m SimpleBytePairEncoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m def\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68min\u001b[48;5;134mit\u001b[48;5;167m__\u001b[48;5;179m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' ' + b'rank'\n", + "So we made b' rank' our 523th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185ment\u001b[48;5;77mat\u001b[48;5;80mion\u001b[48;5;68m of\u001b[48;5;134m the\u001b[48;5;167m b\u001b[48;5;179myte\u001b[48;5;185m pair\u001b[48;5;77m en\u001b[48;5;80mcoding\u001b[48;5;68m al\u001b[48;5;134mg\u001b[48;5;167mor\u001b[48;5;179mith\u001b[48;5;185mm\u001b[48;5;77m.\u001b[48;5;80m\"\"\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mrom\u001b[48;5;179m \u001b[48;5;185m__\u001b[48;5;77mf\u001b[48;5;80mut\u001b[48;5;68mu\u001b[48;5;134mre\u001b[48;5;167m__\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mort\u001b[48;5;80m an\u001b[48;5;68mn\u001b[48;5;134mot\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mle\u001b[48;5;185mct\u001b[48;5;77mion\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mrom\u001b[48;5;77m t\u001b[48;5;80my\u001b[48;5;68mp\u001b[48;5;134ming\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mort\u001b[48;5;77m Optional\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m regex\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mc\u001b[48;5;80mla\u001b[48;5;68mss\u001b[48;5;134m SimpleBytePairEncoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m def\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68min\u001b[48;5;134mit\u001b[48;5;167m__\u001b[48;5;179m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' ' + b'<'\n", + "So we made b' <' our 524th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185ment\u001b[48;5;77mat\u001b[48;5;80mion\u001b[48;5;68m of\u001b[48;5;134m the\u001b[48;5;167m b\u001b[48;5;179myte\u001b[48;5;185m pair\u001b[48;5;77m en\u001b[48;5;80mcoding\u001b[48;5;68m al\u001b[48;5;134mg\u001b[48;5;167mor\u001b[48;5;179mith\u001b[48;5;185mm\u001b[48;5;77m.\u001b[48;5;80m\"\"\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mrom\u001b[48;5;179m \u001b[48;5;185m__\u001b[48;5;77mf\u001b[48;5;80mut\u001b[48;5;68mu\u001b[48;5;134mre\u001b[48;5;167m__\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mort\u001b[48;5;80m an\u001b[48;5;68mn\u001b[48;5;134mot\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mle\u001b[48;5;185mct\u001b[48;5;77mion\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mrom\u001b[48;5;77m t\u001b[48;5;80my\u001b[48;5;68mp\u001b[48;5;134ming\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mort\u001b[48;5;77m Optional\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m regex\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mc\u001b[48;5;80mla\u001b[48;5;68mss\u001b[48;5;134m SimpleBytePairEncoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m def\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68min\u001b[48;5;134mit\u001b[48;5;167m__\u001b[48;5;179m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' a' + b'ss'\n", + "So we made b' ass' our 525th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185ment\u001b[48;5;77mat\u001b[48;5;80mion\u001b[48;5;68m of\u001b[48;5;134m the\u001b[48;5;167m b\u001b[48;5;179myte\u001b[48;5;185m pair\u001b[48;5;77m en\u001b[48;5;80mcoding\u001b[48;5;68m al\u001b[48;5;134mg\u001b[48;5;167mor\u001b[48;5;179mith\u001b[48;5;185mm\u001b[48;5;77m.\u001b[48;5;80m\"\"\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mrom\u001b[48;5;179m \u001b[48;5;185m__\u001b[48;5;77mf\u001b[48;5;80mut\u001b[48;5;68mu\u001b[48;5;134mre\u001b[48;5;167m__\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mort\u001b[48;5;80m an\u001b[48;5;68mn\u001b[48;5;134mot\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mle\u001b[48;5;185mct\u001b[48;5;77mion\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mrom\u001b[48;5;77m t\u001b[48;5;80my\u001b[48;5;68mp\u001b[48;5;134ming\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mort\u001b[48;5;77m Optional\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m regex\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mc\u001b[48;5;80mla\u001b[48;5;68mss\u001b[48;5;134m SimpleBytePairEncoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m def\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68min\u001b[48;5;134mit\u001b[48;5;167m__\u001b[48;5;179m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' ass' + b'er'\n", + "So we made b' asser' our 526th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185ment\u001b[48;5;77mat\u001b[48;5;80mion\u001b[48;5;68m of\u001b[48;5;134m the\u001b[48;5;167m b\u001b[48;5;179myte\u001b[48;5;185m pair\u001b[48;5;77m en\u001b[48;5;80mcoding\u001b[48;5;68m al\u001b[48;5;134mg\u001b[48;5;167mor\u001b[48;5;179mith\u001b[48;5;185mm\u001b[48;5;77m.\u001b[48;5;80m\"\"\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mrom\u001b[48;5;179m \u001b[48;5;185m__\u001b[48;5;77mf\u001b[48;5;80mut\u001b[48;5;68mu\u001b[48;5;134mre\u001b[48;5;167m__\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mort\u001b[48;5;80m an\u001b[48;5;68mn\u001b[48;5;134mot\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mle\u001b[48;5;185mct\u001b[48;5;77mion\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mrom\u001b[48;5;77m t\u001b[48;5;80my\u001b[48;5;68mp\u001b[48;5;134ming\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mort\u001b[48;5;77m Optional\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m regex\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mc\u001b[48;5;80mla\u001b[48;5;68mss\u001b[48;5;134m SimpleBytePairEncoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m def\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68min\u001b[48;5;134mit\u001b[48;5;167m__\u001b[48;5;179m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' asser' + b't'\n", + "So we made b' assert' our 527th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185ment\u001b[48;5;77mat\u001b[48;5;80mion\u001b[48;5;68m of\u001b[48;5;134m the\u001b[48;5;167m b\u001b[48;5;179myte\u001b[48;5;185m pair\u001b[48;5;77m en\u001b[48;5;80mcoding\u001b[48;5;68m al\u001b[48;5;134mg\u001b[48;5;167mor\u001b[48;5;179mith\u001b[48;5;185mm\u001b[48;5;77m.\u001b[48;5;80m\"\"\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mrom\u001b[48;5;179m \u001b[48;5;185m__\u001b[48;5;77mf\u001b[48;5;80mut\u001b[48;5;68mu\u001b[48;5;134mre\u001b[48;5;167m__\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mort\u001b[48;5;80m an\u001b[48;5;68mn\u001b[48;5;134mot\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mle\u001b[48;5;185mct\u001b[48;5;77mion\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mrom\u001b[48;5;77m t\u001b[48;5;80my\u001b[48;5;68mp\u001b[48;5;134ming\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mort\u001b[48;5;77m Optional\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m regex\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mc\u001b[48;5;80mla\u001b[48;5;68mss\u001b[48;5;134m SimpleBytePairEncoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m def\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68min\u001b[48;5;134mit\u001b[48;5;167m__\u001b[48;5;179m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'le' + b'a'\n", + "So we made b'lea' our 528th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185ment\u001b[48;5;77mat\u001b[48;5;80mion\u001b[48;5;68m of\u001b[48;5;134m the\u001b[48;5;167m b\u001b[48;5;179myte\u001b[48;5;185m pair\u001b[48;5;77m en\u001b[48;5;80mcoding\u001b[48;5;68m al\u001b[48;5;134mg\u001b[48;5;167mor\u001b[48;5;179mith\u001b[48;5;185mm\u001b[48;5;77m.\u001b[48;5;80m\"\"\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mrom\u001b[48;5;179m \u001b[48;5;185m__\u001b[48;5;77mf\u001b[48;5;80mut\u001b[48;5;68mu\u001b[48;5;134mre\u001b[48;5;167m__\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mort\u001b[48;5;80m an\u001b[48;5;68mn\u001b[48;5;134mot\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mle\u001b[48;5;185mct\u001b[48;5;77mion\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mrom\u001b[48;5;77m t\u001b[48;5;80my\u001b[48;5;68mp\u001b[48;5;134ming\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mort\u001b[48;5;77m Optional\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m regex\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mc\u001b[48;5;80mla\u001b[48;5;68mss\u001b[48;5;134m SimpleBytePairEncoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m def\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68min\u001b[48;5;134mit\u001b[48;5;167m__\u001b[48;5;179m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' ' + b'2'\n", + "So we made b' 2' our 529th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185ment\u001b[48;5;77mat\u001b[48;5;80mion\u001b[48;5;68m of\u001b[48;5;134m the\u001b[48;5;167m b\u001b[48;5;179myte\u001b[48;5;185m pair\u001b[48;5;77m en\u001b[48;5;80mcoding\u001b[48;5;68m al\u001b[48;5;134mg\u001b[48;5;167mor\u001b[48;5;179mith\u001b[48;5;185mm\u001b[48;5;77m.\u001b[48;5;80m\"\"\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mrom\u001b[48;5;179m \u001b[48;5;185m__\u001b[48;5;77mf\u001b[48;5;80mut\u001b[48;5;68mu\u001b[48;5;134mre\u001b[48;5;167m__\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mort\u001b[48;5;80m an\u001b[48;5;68mn\u001b[48;5;134mot\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mle\u001b[48;5;185mct\u001b[48;5;77mion\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mrom\u001b[48;5;77m t\u001b[48;5;80my\u001b[48;5;68mp\u001b[48;5;134ming\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mort\u001b[48;5;77m Optional\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m regex\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mc\u001b[48;5;80mla\u001b[48;5;68mss\u001b[48;5;134m SimpleBytePairEncoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m def\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68min\u001b[48;5;134mit\u001b[48;5;167m__\u001b[48;5;179m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'al' + b'ue'\n", + "So we made b'alue' our 530th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185ment\u001b[48;5;77mat\u001b[48;5;80mion\u001b[48;5;68m of\u001b[48;5;134m the\u001b[48;5;167m b\u001b[48;5;179myte\u001b[48;5;185m pair\u001b[48;5;77m en\u001b[48;5;80mcoding\u001b[48;5;68m al\u001b[48;5;134mg\u001b[48;5;167mor\u001b[48;5;179mith\u001b[48;5;185mm\u001b[48;5;77m.\u001b[48;5;80m\"\"\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mrom\u001b[48;5;179m \u001b[48;5;185m__\u001b[48;5;77mf\u001b[48;5;80mut\u001b[48;5;68mu\u001b[48;5;134mre\u001b[48;5;167m__\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mort\u001b[48;5;80m an\u001b[48;5;68mn\u001b[48;5;134mot\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mle\u001b[48;5;185mct\u001b[48;5;77mion\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mrom\u001b[48;5;77m t\u001b[48;5;80my\u001b[48;5;68mp\u001b[48;5;134ming\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mort\u001b[48;5;77m Optional\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m regex\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mc\u001b[48;5;80mla\u001b[48;5;68mss\u001b[48;5;134m SimpleBytePairEncoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m def\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68min\u001b[48;5;134mit\u001b[48;5;167m__\u001b[48;5;179m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' m' + b'a'\n", + "So we made b' ma' our 531th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185ment\u001b[48;5;77mat\u001b[48;5;80mion\u001b[48;5;68m of\u001b[48;5;134m the\u001b[48;5;167m b\u001b[48;5;179myte\u001b[48;5;185m pair\u001b[48;5;77m en\u001b[48;5;80mcoding\u001b[48;5;68m al\u001b[48;5;134mg\u001b[48;5;167mor\u001b[48;5;179mith\u001b[48;5;185mm\u001b[48;5;77m.\u001b[48;5;80m\"\"\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mrom\u001b[48;5;179m \u001b[48;5;185m__\u001b[48;5;77mf\u001b[48;5;80mut\u001b[48;5;68mu\u001b[48;5;134mre\u001b[48;5;167m__\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mort\u001b[48;5;80m an\u001b[48;5;68mn\u001b[48;5;134mot\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mle\u001b[48;5;185mct\u001b[48;5;77mion\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mrom\u001b[48;5;77m t\u001b[48;5;80my\u001b[48;5;68mp\u001b[48;5;134ming\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mort\u001b[48;5;77m Optional\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m regex\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mc\u001b[48;5;80mla\u001b[48;5;68mss\u001b[48;5;134m SimpleBytePairEncoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m def\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68min\u001b[48;5;134mit\u001b[48;5;167m__\u001b[48;5;179m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' l' + b'en'\n", + "So we made b' len' our 532th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185ment\u001b[48;5;77mat\u001b[48;5;80mion\u001b[48;5;68m of\u001b[48;5;134m the\u001b[48;5;167m b\u001b[48;5;179myte\u001b[48;5;185m pair\u001b[48;5;77m en\u001b[48;5;80mcoding\u001b[48;5;68m al\u001b[48;5;134mg\u001b[48;5;167mor\u001b[48;5;179mith\u001b[48;5;185mm\u001b[48;5;77m.\u001b[48;5;80m\"\"\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mrom\u001b[48;5;179m \u001b[48;5;185m__\u001b[48;5;77mf\u001b[48;5;80mut\u001b[48;5;68mu\u001b[48;5;134mre\u001b[48;5;167m__\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mort\u001b[48;5;80m an\u001b[48;5;68mn\u001b[48;5;134mot\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mle\u001b[48;5;185mct\u001b[48;5;77mion\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mrom\u001b[48;5;77m t\u001b[48;5;80my\u001b[48;5;68mp\u001b[48;5;134ming\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mort\u001b[48;5;77m Optional\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m regex\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mc\u001b[48;5;80mla\u001b[48;5;68mss\u001b[48;5;134m SimpleBytePairEncoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m def\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68min\u001b[48;5;134mit\u001b[48;5;167m__\u001b[48;5;179m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'stat' + b's'\n", + "So we made b'stats' our 533th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185ment\u001b[48;5;77mat\u001b[48;5;80mion\u001b[48;5;68m of\u001b[48;5;134m the\u001b[48;5;167m b\u001b[48;5;179myte\u001b[48;5;185m pair\u001b[48;5;77m en\u001b[48;5;80mcoding\u001b[48;5;68m al\u001b[48;5;134mg\u001b[48;5;167mor\u001b[48;5;179mith\u001b[48;5;185mm\u001b[48;5;77m.\u001b[48;5;80m\"\"\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mrom\u001b[48;5;179m \u001b[48;5;185m__\u001b[48;5;77mf\u001b[48;5;80mut\u001b[48;5;68mu\u001b[48;5;134mre\u001b[48;5;167m__\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mort\u001b[48;5;80m an\u001b[48;5;68mn\u001b[48;5;134mot\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mle\u001b[48;5;185mct\u001b[48;5;77mion\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mrom\u001b[48;5;77m t\u001b[48;5;80my\u001b[48;5;68mp\u001b[48;5;134ming\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mort\u001b[48;5;77m Optional\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m regex\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mc\u001b[48;5;80mla\u001b[48;5;68mss\u001b[48;5;134m SimpleBytePairEncoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m def\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68min\u001b[48;5;134mit\u001b[48;5;167m__\u001b[48;5;179m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'u' + b'n'\n", + "So we made b'un' our 534th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185ment\u001b[48;5;77mat\u001b[48;5;80mion\u001b[48;5;68m of\u001b[48;5;134m the\u001b[48;5;167m b\u001b[48;5;179myte\u001b[48;5;185m pair\u001b[48;5;77m en\u001b[48;5;80mcoding\u001b[48;5;68m al\u001b[48;5;134mg\u001b[48;5;167mor\u001b[48;5;179mith\u001b[48;5;185mm\u001b[48;5;77m.\u001b[48;5;80m\"\"\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mrom\u001b[48;5;179m \u001b[48;5;185m__\u001b[48;5;77mf\u001b[48;5;80mut\u001b[48;5;68mu\u001b[48;5;134mre\u001b[48;5;167m__\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mort\u001b[48;5;80m an\u001b[48;5;68mn\u001b[48;5;134mot\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mle\u001b[48;5;185mct\u001b[48;5;77mion\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mrom\u001b[48;5;77m t\u001b[48;5;80my\u001b[48;5;68mp\u001b[48;5;134ming\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mort\u001b[48;5;77m Optional\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m regex\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mc\u001b[48;5;80mla\u001b[48;5;68mss\u001b[48;5;134m SimpleBytePairEncoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m def\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68min\u001b[48;5;134mit\u001b[48;5;167m__\u001b[48;5;179m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'app' + b'end'\n", + "So we made b'append' our 535th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mh\u001b[48;5;77mis\u001b[48;5;80m is\u001b[48;5;68m an\u001b[48;5;134m \u001b[48;5;167med\u001b[48;5;179mu\u001b[48;5;185mc\u001b[48;5;77mat\u001b[48;5;80mional\u001b[48;5;68m i\u001b[48;5;134mmp\u001b[48;5;167mle\u001b[48;5;179mm\u001b[48;5;185ment\u001b[48;5;77mat\u001b[48;5;80mion\u001b[48;5;68m of\u001b[48;5;134m the\u001b[48;5;167m b\u001b[48;5;179myte\u001b[48;5;185m pair\u001b[48;5;77m en\u001b[48;5;80mcoding\u001b[48;5;68m al\u001b[48;5;134mg\u001b[48;5;167mor\u001b[48;5;179mith\u001b[48;5;185mm\u001b[48;5;77m.\u001b[48;5;80m\"\"\"\u001b[48;5;68m\n", + "\u001b[48;5;134mf\u001b[48;5;167mrom\u001b[48;5;179m \u001b[48;5;185m__\u001b[48;5;77mf\u001b[48;5;80mut\u001b[48;5;68mu\u001b[48;5;134mre\u001b[48;5;167m__\u001b[48;5;179m i\u001b[48;5;185mmp\u001b[48;5;77mort\u001b[48;5;80m an\u001b[48;5;68mn\u001b[48;5;134mot\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mle\u001b[48;5;185mct\u001b[48;5;77mion\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m i\u001b[48;5;179mte\u001b[48;5;185mrt\u001b[48;5;77mo\u001b[48;5;80mo\u001b[48;5;68ml\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mf\u001b[48;5;185mrom\u001b[48;5;77m t\u001b[48;5;80my\u001b[48;5;68mp\u001b[48;5;134ming\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mort\u001b[48;5;77m Optional\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m regex\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mc\u001b[48;5;80mla\u001b[48;5;68mss\u001b[48;5;134m SimpleBytePairEncoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m def\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68min\u001b[48;5;134mit\u001b[48;5;167m__\u001b[48;5;179m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'h' + b'is'\n", + "So we made b'his' our 536th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mhis\u001b[48;5;77m is\u001b[48;5;80m an\u001b[48;5;68m \u001b[48;5;134med\u001b[48;5;167mu\u001b[48;5;179mc\u001b[48;5;185mat\u001b[48;5;77mional\u001b[48;5;80m i\u001b[48;5;68mmp\u001b[48;5;134mle\u001b[48;5;167mm\u001b[48;5;179ment\u001b[48;5;185mat\u001b[48;5;77mion\u001b[48;5;80m of\u001b[48;5;68m the\u001b[48;5;134m b\u001b[48;5;167myte\u001b[48;5;179m pair\u001b[48;5;185m en\u001b[48;5;77mcoding\u001b[48;5;80m al\u001b[48;5;68mg\u001b[48;5;134mor\u001b[48;5;167mith\u001b[48;5;179mm\u001b[48;5;185m.\u001b[48;5;77m\"\"\"\u001b[48;5;80m\n", + "\u001b[48;5;68mf\u001b[48;5;134mrom\u001b[48;5;167m \u001b[48;5;179m__\u001b[48;5;185mf\u001b[48;5;77mut\u001b[48;5;80mu\u001b[48;5;68mre\u001b[48;5;134m__\u001b[48;5;167m i\u001b[48;5;179mmp\u001b[48;5;185mort\u001b[48;5;77m an\u001b[48;5;80mn\u001b[48;5;68mot\u001b[48;5;134mat\u001b[48;5;167mion\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mimport\u001b[48;5;68m \u001b[48;5;134mcol\u001b[48;5;167mle\u001b[48;5;179mct\u001b[48;5;185mion\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m i\u001b[48;5;167mte\u001b[48;5;179mrt\u001b[48;5;185mo\u001b[48;5;77mo\u001b[48;5;80ml\u001b[48;5;68ms\u001b[48;5;134m\n", + "\u001b[48;5;167mf\u001b[48;5;179mrom\u001b[48;5;185m t\u001b[48;5;77my\u001b[48;5;80mp\u001b[48;5;68ming\u001b[48;5;134m i\u001b[48;5;167mmp\u001b[48;5;179mort\u001b[48;5;185m Optional\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m regex\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimport\u001b[48;5;77m t\u001b[48;5;80mi\u001b[48;5;68mk\u001b[48;5;134mtoken\u001b[48;5;167m\n", + "\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mc\u001b[48;5;77mla\u001b[48;5;80mss\u001b[48;5;68m SimpleBytePairEncoding\u001b[48;5;134m:\u001b[48;5;167m\n", + " \u001b[48;5;179m def\u001b[48;5;185m \u001b[48;5;77m__\u001b[48;5;80min\u001b[48;5;68mit\u001b[48;5;134m__\u001b[48;5;167m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' i' + b'mp'\n", + "So we made b' imp' our 537th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mhis\u001b[48;5;77m is\u001b[48;5;80m an\u001b[48;5;68m \u001b[48;5;134med\u001b[48;5;167mu\u001b[48;5;179mc\u001b[48;5;185mat\u001b[48;5;77mional\u001b[48;5;80m imp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167ment\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77m of\u001b[48;5;80m the\u001b[48;5;68m b\u001b[48;5;134myte\u001b[48;5;167m pair\u001b[48;5;179m en\u001b[48;5;185mcoding\u001b[48;5;77m al\u001b[48;5;80mg\u001b[48;5;68mor\u001b[48;5;134mith\u001b[48;5;167mm\u001b[48;5;179m.\u001b[48;5;185m\"\"\"\u001b[48;5;77m\n", + "\u001b[48;5;80mf\u001b[48;5;68mrom\u001b[48;5;134m \u001b[48;5;167m__\u001b[48;5;179mf\u001b[48;5;185mut\u001b[48;5;77mu\u001b[48;5;80mre\u001b[48;5;68m__\u001b[48;5;134m imp\u001b[48;5;167mort\u001b[48;5;179m an\u001b[48;5;185mn\u001b[48;5;77mot\u001b[48;5;80mat\u001b[48;5;68mion\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimport\u001b[48;5;77m \u001b[48;5;80mcol\u001b[48;5;68mle\u001b[48;5;134mct\u001b[48;5;167mion\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m i\u001b[48;5;68mte\u001b[48;5;134mrt\u001b[48;5;167mo\u001b[48;5;179mo\u001b[48;5;185ml\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68mf\u001b[48;5;134mrom\u001b[48;5;167m t\u001b[48;5;179my\u001b[48;5;185mp\u001b[48;5;77ming\u001b[48;5;80m imp\u001b[48;5;68mort\u001b[48;5;134m Optional\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimport\u001b[48;5;77m regex\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m t\u001b[48;5;179mi\u001b[48;5;185mk\u001b[48;5;77mtoken\u001b[48;5;80m\n", + "\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mc\u001b[48;5;167mla\u001b[48;5;179mss\u001b[48;5;185m SimpleBytePairEncoding\u001b[48;5;77m:\u001b[48;5;80m\n", + " \u001b[48;5;68m def\u001b[48;5;134m \u001b[48;5;167m__\u001b[48;5;179min\u001b[48;5;185mit\u001b[48;5;77m__\u001b[48;5;80m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' b' + b'yte'\n", + "So we made b' byte' our 538th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mhis\u001b[48;5;77m is\u001b[48;5;80m an\u001b[48;5;68m \u001b[48;5;134med\u001b[48;5;167mu\u001b[48;5;179mc\u001b[48;5;185mat\u001b[48;5;77mional\u001b[48;5;80m imp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167ment\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77m of\u001b[48;5;80m the\u001b[48;5;68m byte\u001b[48;5;134m pair\u001b[48;5;167m en\u001b[48;5;179mcoding\u001b[48;5;185m al\u001b[48;5;77mg\u001b[48;5;80mor\u001b[48;5;68mith\u001b[48;5;134mm\u001b[48;5;167m.\u001b[48;5;179m\"\"\"\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mrom\u001b[48;5;68m \u001b[48;5;134m__\u001b[48;5;167mf\u001b[48;5;179mut\u001b[48;5;185mu\u001b[48;5;77mre\u001b[48;5;80m__\u001b[48;5;68m imp\u001b[48;5;134mort\u001b[48;5;167m an\u001b[48;5;179mn\u001b[48;5;185mot\u001b[48;5;77mat\u001b[48;5;80mion\u001b[48;5;68ms\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mimport\u001b[48;5;185m \u001b[48;5;77mcol\u001b[48;5;80mle\u001b[48;5;68mct\u001b[48;5;134mion\u001b[48;5;167ms\u001b[48;5;179m\n", + "\u001b[48;5;185mimport\u001b[48;5;77m i\u001b[48;5;80mte\u001b[48;5;68mrt\u001b[48;5;134mo\u001b[48;5;167mo\u001b[48;5;179ml\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mf\u001b[48;5;68mrom\u001b[48;5;134m t\u001b[48;5;167my\u001b[48;5;179mp\u001b[48;5;185ming\u001b[48;5;77m imp\u001b[48;5;80mort\u001b[48;5;68m Optional\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mimport\u001b[48;5;185m regex\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m t\u001b[48;5;167mi\u001b[48;5;179mk\u001b[48;5;185mtoken\u001b[48;5;77m\n", + "\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mc\u001b[48;5;134mla\u001b[48;5;167mss\u001b[48;5;179m SimpleBytePairEncoding\u001b[48;5;185m:\u001b[48;5;77m\n", + " \u001b[48;5;80m def\u001b[48;5;68m \u001b[48;5;134m__\u001b[48;5;167min\u001b[48;5;179mit\u001b[48;5;185m__\u001b[48;5;77m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' en' + b'coding'\n", + "So we made b' encoding' our 539th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mhis\u001b[48;5;77m is\u001b[48;5;80m an\u001b[48;5;68m \u001b[48;5;134med\u001b[48;5;167mu\u001b[48;5;179mc\u001b[48;5;185mat\u001b[48;5;77mional\u001b[48;5;80m imp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167ment\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77m of\u001b[48;5;80m the\u001b[48;5;68m byte\u001b[48;5;134m pair\u001b[48;5;167m encoding\u001b[48;5;179m al\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mith\u001b[48;5;68mm\u001b[48;5;134m.\u001b[48;5;167m\"\"\"\u001b[48;5;179m\n", + "\u001b[48;5;185mf\u001b[48;5;77mrom\u001b[48;5;80m \u001b[48;5;68m__\u001b[48;5;134mf\u001b[48;5;167mut\u001b[48;5;179mu\u001b[48;5;185mre\u001b[48;5;77m__\u001b[48;5;80m imp\u001b[48;5;68mort\u001b[48;5;134m an\u001b[48;5;167mn\u001b[48;5;179mot\u001b[48;5;185mat\u001b[48;5;77mion\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimport\u001b[48;5;179m \u001b[48;5;185mcol\u001b[48;5;77mle\u001b[48;5;80mct\u001b[48;5;68mion\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mimport\u001b[48;5;185m i\u001b[48;5;77mte\u001b[48;5;80mrt\u001b[48;5;68mo\u001b[48;5;134mo\u001b[48;5;167ml\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mf\u001b[48;5;80mrom\u001b[48;5;68m t\u001b[48;5;134my\u001b[48;5;167mp\u001b[48;5;179ming\u001b[48;5;185m imp\u001b[48;5;77mort\u001b[48;5;80m Optional\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimport\u001b[48;5;179m regex\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mimport\u001b[48;5;68m t\u001b[48;5;134mi\u001b[48;5;167mk\u001b[48;5;179mtoken\u001b[48;5;185m\n", + "\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mc\u001b[48;5;68mla\u001b[48;5;134mss\u001b[48;5;167m SimpleBytePairEncoding\u001b[48;5;179m:\u001b[48;5;185m\n", + " \u001b[48;5;77m def\u001b[48;5;80m \u001b[48;5;68m__\u001b[48;5;134min\u001b[48;5;167mit\u001b[48;5;179m__\u001b[48;5;185m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'f' + b'rom'\n", + "So we made b'from' our 540th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mhis\u001b[48;5;77m is\u001b[48;5;80m an\u001b[48;5;68m \u001b[48;5;134med\u001b[48;5;167mu\u001b[48;5;179mc\u001b[48;5;185mat\u001b[48;5;77mional\u001b[48;5;80m imp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167ment\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77m of\u001b[48;5;80m the\u001b[48;5;68m byte\u001b[48;5;134m pair\u001b[48;5;167m encoding\u001b[48;5;179m al\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mith\u001b[48;5;68mm\u001b[48;5;134m.\u001b[48;5;167m\"\"\"\u001b[48;5;179m\n", + "\u001b[48;5;185mfrom\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68mf\u001b[48;5;134mut\u001b[48;5;167mu\u001b[48;5;179mre\u001b[48;5;185m__\u001b[48;5;77m imp\u001b[48;5;80mort\u001b[48;5;68m an\u001b[48;5;134mn\u001b[48;5;167mot\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m \u001b[48;5;179mcol\u001b[48;5;185mle\u001b[48;5;77mct\u001b[48;5;80mion\u001b[48;5;68ms\u001b[48;5;134m\n", + "\u001b[48;5;167mimport\u001b[48;5;179m i\u001b[48;5;185mte\u001b[48;5;77mrt\u001b[48;5;80mo\u001b[48;5;68mo\u001b[48;5;134ml\u001b[48;5;167ms\u001b[48;5;179m\n", + "\u001b[48;5;185mfrom\u001b[48;5;77m t\u001b[48;5;80my\u001b[48;5;68mp\u001b[48;5;134ming\u001b[48;5;167m imp\u001b[48;5;179mort\u001b[48;5;185m Optional\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m regex\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimport\u001b[48;5;77m t\u001b[48;5;80mi\u001b[48;5;68mk\u001b[48;5;134mtoken\u001b[48;5;167m\n", + "\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mc\u001b[48;5;77mla\u001b[48;5;80mss\u001b[48;5;68m SimpleBytePairEncoding\u001b[48;5;134m:\u001b[48;5;167m\n", + " \u001b[48;5;179m def\u001b[48;5;185m \u001b[48;5;77m__\u001b[48;5;80min\u001b[48;5;68mit\u001b[48;5;134m__\u001b[48;5;167m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'ion' + b's'\n", + "So we made b'ions' our 541th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mhis\u001b[48;5;77m is\u001b[48;5;80m an\u001b[48;5;68m \u001b[48;5;134med\u001b[48;5;167mu\u001b[48;5;179mc\u001b[48;5;185mat\u001b[48;5;77mional\u001b[48;5;80m imp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167ment\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77m of\u001b[48;5;80m the\u001b[48;5;68m byte\u001b[48;5;134m pair\u001b[48;5;167m encoding\u001b[48;5;179m al\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mith\u001b[48;5;68mm\u001b[48;5;134m.\u001b[48;5;167m\"\"\"\u001b[48;5;179m\n", + "\u001b[48;5;185mfrom\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68mf\u001b[48;5;134mut\u001b[48;5;167mu\u001b[48;5;179mre\u001b[48;5;185m__\u001b[48;5;77m imp\u001b[48;5;80mort\u001b[48;5;68m an\u001b[48;5;134mn\u001b[48;5;167mot\u001b[48;5;179mat\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mle\u001b[48;5;185mct\u001b[48;5;77mions\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m i\u001b[48;5;167mte\u001b[48;5;179mrt\u001b[48;5;185mo\u001b[48;5;77mo\u001b[48;5;80ml\u001b[48;5;68ms\u001b[48;5;134m\n", + "\u001b[48;5;167mfrom\u001b[48;5;179m t\u001b[48;5;185my\u001b[48;5;77mp\u001b[48;5;80ming\u001b[48;5;68m imp\u001b[48;5;134mort\u001b[48;5;167m Optional\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m regex\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimport\u001b[48;5;179m t\u001b[48;5;185mi\u001b[48;5;77mk\u001b[48;5;80mtoken\u001b[48;5;68m\n", + "\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mc\u001b[48;5;179mla\u001b[48;5;185mss\u001b[48;5;77m SimpleBytePairEncoding\u001b[48;5;80m:\u001b[48;5;68m\n", + " \u001b[48;5;134m def\u001b[48;5;167m \u001b[48;5;179m__\u001b[48;5;185min\u001b[48;5;77mit\u001b[48;5;80m__\u001b[48;5;68m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'le' + b'ct'\n", + "So we made b'lect' our 542th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mhis\u001b[48;5;77m is\u001b[48;5;80m an\u001b[48;5;68m \u001b[48;5;134med\u001b[48;5;167mu\u001b[48;5;179mc\u001b[48;5;185mat\u001b[48;5;77mional\u001b[48;5;80m imp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167ment\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77m of\u001b[48;5;80m the\u001b[48;5;68m byte\u001b[48;5;134m pair\u001b[48;5;167m encoding\u001b[48;5;179m al\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mith\u001b[48;5;68mm\u001b[48;5;134m.\u001b[48;5;167m\"\"\"\u001b[48;5;179m\n", + "\u001b[48;5;185mfrom\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68mf\u001b[48;5;134mut\u001b[48;5;167mu\u001b[48;5;179mre\u001b[48;5;185m__\u001b[48;5;77m imp\u001b[48;5;80mort\u001b[48;5;68m an\u001b[48;5;134mn\u001b[48;5;167mot\u001b[48;5;179mat\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mlect\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80mimport\u001b[48;5;68m i\u001b[48;5;134mte\u001b[48;5;167mrt\u001b[48;5;179mo\u001b[48;5;185mo\u001b[48;5;77ml\u001b[48;5;80ms\u001b[48;5;68m\n", + "\u001b[48;5;134mfrom\u001b[48;5;167m t\u001b[48;5;179my\u001b[48;5;185mp\u001b[48;5;77ming\u001b[48;5;80m imp\u001b[48;5;68mort\u001b[48;5;134m Optional\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimport\u001b[48;5;77m regex\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m t\u001b[48;5;179mi\u001b[48;5;185mk\u001b[48;5;77mtoken\u001b[48;5;80m\n", + "\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mc\u001b[48;5;167mla\u001b[48;5;179mss\u001b[48;5;185m SimpleBytePairEncoding\u001b[48;5;77m:\u001b[48;5;80m\n", + " \u001b[48;5;68m def\u001b[48;5;134m \u001b[48;5;167m__\u001b[48;5;179min\u001b[48;5;185mit\u001b[48;5;77m__\u001b[48;5;80m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' i' + b'te'\n", + "So we made b' ite' our 543th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mhis\u001b[48;5;77m is\u001b[48;5;80m an\u001b[48;5;68m \u001b[48;5;134med\u001b[48;5;167mu\u001b[48;5;179mc\u001b[48;5;185mat\u001b[48;5;77mional\u001b[48;5;80m imp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167ment\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77m of\u001b[48;5;80m the\u001b[48;5;68m byte\u001b[48;5;134m pair\u001b[48;5;167m encoding\u001b[48;5;179m al\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mith\u001b[48;5;68mm\u001b[48;5;134m.\u001b[48;5;167m\"\"\"\u001b[48;5;179m\n", + "\u001b[48;5;185mfrom\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68mf\u001b[48;5;134mut\u001b[48;5;167mu\u001b[48;5;179mre\u001b[48;5;185m__\u001b[48;5;77m imp\u001b[48;5;80mort\u001b[48;5;68m an\u001b[48;5;134mn\u001b[48;5;167mot\u001b[48;5;179mat\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mlect\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80mimport\u001b[48;5;68m ite\u001b[48;5;134mrt\u001b[48;5;167mo\u001b[48;5;179mo\u001b[48;5;185ml\u001b[48;5;77ms\u001b[48;5;80m\n", + "\u001b[48;5;68mfrom\u001b[48;5;134m t\u001b[48;5;167my\u001b[48;5;179mp\u001b[48;5;185ming\u001b[48;5;77m imp\u001b[48;5;80mort\u001b[48;5;68m Optional\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mimport\u001b[48;5;185m regex\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m t\u001b[48;5;167mi\u001b[48;5;179mk\u001b[48;5;185mtoken\u001b[48;5;77m\n", + "\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mc\u001b[48;5;134mla\u001b[48;5;167mss\u001b[48;5;179m SimpleBytePairEncoding\u001b[48;5;185m:\u001b[48;5;77m\n", + " \u001b[48;5;80m def\u001b[48;5;68m \u001b[48;5;134m__\u001b[48;5;167min\u001b[48;5;179mit\u001b[48;5;185m__\u001b[48;5;77m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' ite' + b'rt'\n", + "So we made b' itert' our 544th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mhis\u001b[48;5;77m is\u001b[48;5;80m an\u001b[48;5;68m \u001b[48;5;134med\u001b[48;5;167mu\u001b[48;5;179mc\u001b[48;5;185mat\u001b[48;5;77mional\u001b[48;5;80m imp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167ment\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77m of\u001b[48;5;80m the\u001b[48;5;68m byte\u001b[48;5;134m pair\u001b[48;5;167m encoding\u001b[48;5;179m al\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mith\u001b[48;5;68mm\u001b[48;5;134m.\u001b[48;5;167m\"\"\"\u001b[48;5;179m\n", + "\u001b[48;5;185mfrom\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68mf\u001b[48;5;134mut\u001b[48;5;167mu\u001b[48;5;179mre\u001b[48;5;185m__\u001b[48;5;77m imp\u001b[48;5;80mort\u001b[48;5;68m an\u001b[48;5;134mn\u001b[48;5;167mot\u001b[48;5;179mat\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mlect\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80mimport\u001b[48;5;68m itert\u001b[48;5;134mo\u001b[48;5;167mo\u001b[48;5;179ml\u001b[48;5;185ms\u001b[48;5;77m\n", + "\u001b[48;5;80mfrom\u001b[48;5;68m t\u001b[48;5;134my\u001b[48;5;167mp\u001b[48;5;179ming\u001b[48;5;185m imp\u001b[48;5;77mort\u001b[48;5;80m Optional\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimport\u001b[48;5;179m regex\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mimport\u001b[48;5;68m t\u001b[48;5;134mi\u001b[48;5;167mk\u001b[48;5;179mtoken\u001b[48;5;185m\n", + "\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mc\u001b[48;5;68mla\u001b[48;5;134mss\u001b[48;5;167m SimpleBytePairEncoding\u001b[48;5;179m:\u001b[48;5;185m\n", + " \u001b[48;5;77m def\u001b[48;5;80m \u001b[48;5;68m__\u001b[48;5;134min\u001b[48;5;167mit\u001b[48;5;179m__\u001b[48;5;185m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' itert' + b'o'\n", + "So we made b' iterto' our 545th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mhis\u001b[48;5;77m is\u001b[48;5;80m an\u001b[48;5;68m \u001b[48;5;134med\u001b[48;5;167mu\u001b[48;5;179mc\u001b[48;5;185mat\u001b[48;5;77mional\u001b[48;5;80m imp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167ment\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77m of\u001b[48;5;80m the\u001b[48;5;68m byte\u001b[48;5;134m pair\u001b[48;5;167m encoding\u001b[48;5;179m al\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mith\u001b[48;5;68mm\u001b[48;5;134m.\u001b[48;5;167m\"\"\"\u001b[48;5;179m\n", + "\u001b[48;5;185mfrom\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68mf\u001b[48;5;134mut\u001b[48;5;167mu\u001b[48;5;179mre\u001b[48;5;185m__\u001b[48;5;77m imp\u001b[48;5;80mort\u001b[48;5;68m an\u001b[48;5;134mn\u001b[48;5;167mot\u001b[48;5;179mat\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mlect\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80mimport\u001b[48;5;68m iterto\u001b[48;5;134mo\u001b[48;5;167ml\u001b[48;5;179ms\u001b[48;5;185m\n", + "\u001b[48;5;77mfrom\u001b[48;5;80m t\u001b[48;5;68my\u001b[48;5;134mp\u001b[48;5;167ming\u001b[48;5;179m imp\u001b[48;5;185mort\u001b[48;5;77m Optional\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m regex\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m t\u001b[48;5;68mi\u001b[48;5;134mk\u001b[48;5;167mtoken\u001b[48;5;179m\n", + "\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mc\u001b[48;5;80mla\u001b[48;5;68mss\u001b[48;5;134m SimpleBytePairEncoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m def\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68min\u001b[48;5;134mit\u001b[48;5;167m__\u001b[48;5;179m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' iterto' + b'o'\n", + "So we made b' itertoo' our 546th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mhis\u001b[48;5;77m is\u001b[48;5;80m an\u001b[48;5;68m \u001b[48;5;134med\u001b[48;5;167mu\u001b[48;5;179mc\u001b[48;5;185mat\u001b[48;5;77mional\u001b[48;5;80m imp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167ment\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77m of\u001b[48;5;80m the\u001b[48;5;68m byte\u001b[48;5;134m pair\u001b[48;5;167m encoding\u001b[48;5;179m al\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mith\u001b[48;5;68mm\u001b[48;5;134m.\u001b[48;5;167m\"\"\"\u001b[48;5;179m\n", + "\u001b[48;5;185mfrom\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68mf\u001b[48;5;134mut\u001b[48;5;167mu\u001b[48;5;179mre\u001b[48;5;185m__\u001b[48;5;77m imp\u001b[48;5;80mort\u001b[48;5;68m an\u001b[48;5;134mn\u001b[48;5;167mot\u001b[48;5;179mat\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mlect\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80mimport\u001b[48;5;68m itertoo\u001b[48;5;134ml\u001b[48;5;167ms\u001b[48;5;179m\n", + "\u001b[48;5;185mfrom\u001b[48;5;77m t\u001b[48;5;80my\u001b[48;5;68mp\u001b[48;5;134ming\u001b[48;5;167m imp\u001b[48;5;179mort\u001b[48;5;185m Optional\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m regex\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimport\u001b[48;5;77m t\u001b[48;5;80mi\u001b[48;5;68mk\u001b[48;5;134mtoken\u001b[48;5;167m\n", + "\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mc\u001b[48;5;77mla\u001b[48;5;80mss\u001b[48;5;68m SimpleBytePairEncoding\u001b[48;5;134m:\u001b[48;5;167m\n", + " \u001b[48;5;179m def\u001b[48;5;185m \u001b[48;5;77m__\u001b[48;5;80min\u001b[48;5;68mit\u001b[48;5;134m__\u001b[48;5;167m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' itertoo' + b'l'\n", + "So we made b' itertool' our 547th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mhis\u001b[48;5;77m is\u001b[48;5;80m an\u001b[48;5;68m \u001b[48;5;134med\u001b[48;5;167mu\u001b[48;5;179mc\u001b[48;5;185mat\u001b[48;5;77mional\u001b[48;5;80m imp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167ment\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77m of\u001b[48;5;80m the\u001b[48;5;68m byte\u001b[48;5;134m pair\u001b[48;5;167m encoding\u001b[48;5;179m al\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mith\u001b[48;5;68mm\u001b[48;5;134m.\u001b[48;5;167m\"\"\"\u001b[48;5;179m\n", + "\u001b[48;5;185mfrom\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68mf\u001b[48;5;134mut\u001b[48;5;167mu\u001b[48;5;179mre\u001b[48;5;185m__\u001b[48;5;77m imp\u001b[48;5;80mort\u001b[48;5;68m an\u001b[48;5;134mn\u001b[48;5;167mot\u001b[48;5;179mat\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mlect\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80mimport\u001b[48;5;68m itertool\u001b[48;5;134ms\u001b[48;5;167m\n", + "\u001b[48;5;179mfrom\u001b[48;5;185m t\u001b[48;5;77my\u001b[48;5;80mp\u001b[48;5;68ming\u001b[48;5;134m imp\u001b[48;5;167mort\u001b[48;5;179m Optional\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mimport\u001b[48;5;68m regex\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mimport\u001b[48;5;185m t\u001b[48;5;77mi\u001b[48;5;80mk\u001b[48;5;68mtoken\u001b[48;5;134m\n", + "\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mc\u001b[48;5;185mla\u001b[48;5;77mss\u001b[48;5;80m SimpleBytePairEncoding\u001b[48;5;68m:\u001b[48;5;134m\n", + " \u001b[48;5;167m def\u001b[48;5;179m \u001b[48;5;185m__\u001b[48;5;77min\u001b[48;5;80mit\u001b[48;5;68m__\u001b[48;5;134m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' itertool' + b's'\n", + "So we made b' itertools' our 548th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mhis\u001b[48;5;77m is\u001b[48;5;80m an\u001b[48;5;68m \u001b[48;5;134med\u001b[48;5;167mu\u001b[48;5;179mc\u001b[48;5;185mat\u001b[48;5;77mional\u001b[48;5;80m imp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167ment\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77m of\u001b[48;5;80m the\u001b[48;5;68m byte\u001b[48;5;134m pair\u001b[48;5;167m encoding\u001b[48;5;179m al\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mith\u001b[48;5;68mm\u001b[48;5;134m.\u001b[48;5;167m\"\"\"\u001b[48;5;179m\n", + "\u001b[48;5;185mfrom\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68mf\u001b[48;5;134mut\u001b[48;5;167mu\u001b[48;5;179mre\u001b[48;5;185m__\u001b[48;5;77m imp\u001b[48;5;80mort\u001b[48;5;68m an\u001b[48;5;134mn\u001b[48;5;167mot\u001b[48;5;179mat\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mlect\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80mimport\u001b[48;5;68m itertools\u001b[48;5;134m\n", + "\u001b[48;5;167mfrom\u001b[48;5;179m t\u001b[48;5;185my\u001b[48;5;77mp\u001b[48;5;80ming\u001b[48;5;68m imp\u001b[48;5;134mort\u001b[48;5;167m Optional\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m regex\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimport\u001b[48;5;179m t\u001b[48;5;185mi\u001b[48;5;77mk\u001b[48;5;80mtoken\u001b[48;5;68m\n", + "\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mc\u001b[48;5;179mla\u001b[48;5;185mss\u001b[48;5;77m SimpleBytePairEncoding\u001b[48;5;80m:\u001b[48;5;68m\n", + " \u001b[48;5;134m def\u001b[48;5;167m \u001b[48;5;179m__\u001b[48;5;185min\u001b[48;5;77mit\u001b[48;5;80m__\u001b[48;5;68m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'i' + b'k'\n", + "So we made b'ik' our 549th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mhis\u001b[48;5;77m is\u001b[48;5;80m an\u001b[48;5;68m \u001b[48;5;134med\u001b[48;5;167mu\u001b[48;5;179mc\u001b[48;5;185mat\u001b[48;5;77mional\u001b[48;5;80m imp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167ment\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77m of\u001b[48;5;80m the\u001b[48;5;68m byte\u001b[48;5;134m pair\u001b[48;5;167m encoding\u001b[48;5;179m al\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mith\u001b[48;5;68mm\u001b[48;5;134m.\u001b[48;5;167m\"\"\"\u001b[48;5;179m\n", + "\u001b[48;5;185mfrom\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68mf\u001b[48;5;134mut\u001b[48;5;167mu\u001b[48;5;179mre\u001b[48;5;185m__\u001b[48;5;77m imp\u001b[48;5;80mort\u001b[48;5;68m an\u001b[48;5;134mn\u001b[48;5;167mot\u001b[48;5;179mat\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mlect\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80mimport\u001b[48;5;68m itertools\u001b[48;5;134m\n", + "\u001b[48;5;167mfrom\u001b[48;5;179m t\u001b[48;5;185my\u001b[48;5;77mp\u001b[48;5;80ming\u001b[48;5;68m imp\u001b[48;5;134mort\u001b[48;5;167m Optional\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m regex\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimport\u001b[48;5;179m t\u001b[48;5;185mik\u001b[48;5;77mtoken\u001b[48;5;80m\n", + "\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mc\u001b[48;5;167mla\u001b[48;5;179mss\u001b[48;5;185m SimpleBytePairEncoding\u001b[48;5;77m:\u001b[48;5;80m\n", + " \u001b[48;5;68m def\u001b[48;5;134m \u001b[48;5;167m__\u001b[48;5;179min\u001b[48;5;185mit\u001b[48;5;77m__\u001b[48;5;80m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'ik' + b'token'\n", + "So we made b'iktoken' our 550th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mhis\u001b[48;5;77m is\u001b[48;5;80m an\u001b[48;5;68m \u001b[48;5;134med\u001b[48;5;167mu\u001b[48;5;179mc\u001b[48;5;185mat\u001b[48;5;77mional\u001b[48;5;80m imp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167ment\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77m of\u001b[48;5;80m the\u001b[48;5;68m byte\u001b[48;5;134m pair\u001b[48;5;167m encoding\u001b[48;5;179m al\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mith\u001b[48;5;68mm\u001b[48;5;134m.\u001b[48;5;167m\"\"\"\u001b[48;5;179m\n", + "\u001b[48;5;185mfrom\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68mf\u001b[48;5;134mut\u001b[48;5;167mu\u001b[48;5;179mre\u001b[48;5;185m__\u001b[48;5;77m imp\u001b[48;5;80mort\u001b[48;5;68m an\u001b[48;5;134mn\u001b[48;5;167mot\u001b[48;5;179mat\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mlect\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80mimport\u001b[48;5;68m itertools\u001b[48;5;134m\n", + "\u001b[48;5;167mfrom\u001b[48;5;179m t\u001b[48;5;185my\u001b[48;5;77mp\u001b[48;5;80ming\u001b[48;5;68m imp\u001b[48;5;134mort\u001b[48;5;167m Optional\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m regex\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimport\u001b[48;5;179m t\u001b[48;5;185miktoken\u001b[48;5;77m\n", + "\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mc\u001b[48;5;134mla\u001b[48;5;167mss\u001b[48;5;179m SimpleBytePairEncoding\u001b[48;5;185m:\u001b[48;5;77m\n", + " \u001b[48;5;80m def\u001b[48;5;68m \u001b[48;5;134m__\u001b[48;5;167min\u001b[48;5;179mit\u001b[48;5;185m__\u001b[48;5;77m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' ' + b'A'\n", + "So we made b' A' our 551th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mhis\u001b[48;5;77m is\u001b[48;5;80m an\u001b[48;5;68m \u001b[48;5;134med\u001b[48;5;167mu\u001b[48;5;179mc\u001b[48;5;185mat\u001b[48;5;77mional\u001b[48;5;80m imp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167ment\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77m of\u001b[48;5;80m the\u001b[48;5;68m byte\u001b[48;5;134m pair\u001b[48;5;167m encoding\u001b[48;5;179m al\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mith\u001b[48;5;68mm\u001b[48;5;134m.\u001b[48;5;167m\"\"\"\u001b[48;5;179m\n", + "\u001b[48;5;185mfrom\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68mf\u001b[48;5;134mut\u001b[48;5;167mu\u001b[48;5;179mre\u001b[48;5;185m__\u001b[48;5;77m imp\u001b[48;5;80mort\u001b[48;5;68m an\u001b[48;5;134mn\u001b[48;5;167mot\u001b[48;5;179mat\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mlect\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80mimport\u001b[48;5;68m itertools\u001b[48;5;134m\n", + "\u001b[48;5;167mfrom\u001b[48;5;179m t\u001b[48;5;185my\u001b[48;5;77mp\u001b[48;5;80ming\u001b[48;5;68m imp\u001b[48;5;134mort\u001b[48;5;167m Optional\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m regex\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimport\u001b[48;5;179m t\u001b[48;5;185miktoken\u001b[48;5;77m\n", + "\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mc\u001b[48;5;134mla\u001b[48;5;167mss\u001b[48;5;179m SimpleBytePairEncoding\u001b[48;5;185m:\u001b[48;5;77m\n", + " \u001b[48;5;80m def\u001b[48;5;68m \u001b[48;5;134m__\u001b[48;5;167min\u001b[48;5;179mit\u001b[48;5;185m__\u001b[48;5;77m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'ter' + b'n'\n", + "So we made b'tern' our 552th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mhis\u001b[48;5;77m is\u001b[48;5;80m an\u001b[48;5;68m \u001b[48;5;134med\u001b[48;5;167mu\u001b[48;5;179mc\u001b[48;5;185mat\u001b[48;5;77mional\u001b[48;5;80m imp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167ment\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77m of\u001b[48;5;80m the\u001b[48;5;68m byte\u001b[48;5;134m pair\u001b[48;5;167m encoding\u001b[48;5;179m al\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mith\u001b[48;5;68mm\u001b[48;5;134m.\u001b[48;5;167m\"\"\"\u001b[48;5;179m\n", + "\u001b[48;5;185mfrom\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68mf\u001b[48;5;134mut\u001b[48;5;167mu\u001b[48;5;179mre\u001b[48;5;185m__\u001b[48;5;77m imp\u001b[48;5;80mort\u001b[48;5;68m an\u001b[48;5;134mn\u001b[48;5;167mot\u001b[48;5;179mat\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mlect\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80mimport\u001b[48;5;68m itertools\u001b[48;5;134m\n", + "\u001b[48;5;167mfrom\u001b[48;5;179m t\u001b[48;5;185my\u001b[48;5;77mp\u001b[48;5;80ming\u001b[48;5;68m imp\u001b[48;5;134mort\u001b[48;5;167m Optional\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m regex\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimport\u001b[48;5;179m t\u001b[48;5;185miktoken\u001b[48;5;77m\n", + "\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mc\u001b[48;5;134mla\u001b[48;5;167mss\u001b[48;5;179m SimpleBytePairEncoding\u001b[48;5;185m:\u001b[48;5;77m\n", + " \u001b[48;5;80m def\u001b[48;5;68m \u001b[48;5;134m__\u001b[48;5;167min\u001b[48;5;179mit\u001b[48;5;185m__\u001b[48;5;77m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'p' + b'l'\n", + "So we made b'pl' our 553th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mhis\u001b[48;5;77m is\u001b[48;5;80m an\u001b[48;5;68m \u001b[48;5;134med\u001b[48;5;167mu\u001b[48;5;179mc\u001b[48;5;185mat\u001b[48;5;77mional\u001b[48;5;80m imp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167ment\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77m of\u001b[48;5;80m the\u001b[48;5;68m byte\u001b[48;5;134m pair\u001b[48;5;167m encoding\u001b[48;5;179m al\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mith\u001b[48;5;68mm\u001b[48;5;134m.\u001b[48;5;167m\"\"\"\u001b[48;5;179m\n", + "\u001b[48;5;185mfrom\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68mf\u001b[48;5;134mut\u001b[48;5;167mu\u001b[48;5;179mre\u001b[48;5;185m__\u001b[48;5;77m imp\u001b[48;5;80mort\u001b[48;5;68m an\u001b[48;5;134mn\u001b[48;5;167mot\u001b[48;5;179mat\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mlect\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80mimport\u001b[48;5;68m itertools\u001b[48;5;134m\n", + "\u001b[48;5;167mfrom\u001b[48;5;179m t\u001b[48;5;185my\u001b[48;5;77mp\u001b[48;5;80ming\u001b[48;5;68m imp\u001b[48;5;134mort\u001b[48;5;167m Optional\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m regex\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimport\u001b[48;5;179m t\u001b[48;5;185miktoken\u001b[48;5;77m\n", + "\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mc\u001b[48;5;134mla\u001b[48;5;167mss\u001b[48;5;179m SimpleBytePairEncoding\u001b[48;5;185m:\u001b[48;5;77m\n", + " \u001b[48;5;80m def\u001b[48;5;68m \u001b[48;5;134m__\u001b[48;5;167min\u001b[48;5;179mit\u001b[48;5;185m__\u001b[48;5;77m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' in' + b'p'\n", + "So we made b' inp' our 554th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mhis\u001b[48;5;77m is\u001b[48;5;80m an\u001b[48;5;68m \u001b[48;5;134med\u001b[48;5;167mu\u001b[48;5;179mc\u001b[48;5;185mat\u001b[48;5;77mional\u001b[48;5;80m imp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167ment\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77m of\u001b[48;5;80m the\u001b[48;5;68m byte\u001b[48;5;134m pair\u001b[48;5;167m encoding\u001b[48;5;179m al\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mith\u001b[48;5;68mm\u001b[48;5;134m.\u001b[48;5;167m\"\"\"\u001b[48;5;179m\n", + "\u001b[48;5;185mfrom\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68mf\u001b[48;5;134mut\u001b[48;5;167mu\u001b[48;5;179mre\u001b[48;5;185m__\u001b[48;5;77m imp\u001b[48;5;80mort\u001b[48;5;68m an\u001b[48;5;134mn\u001b[48;5;167mot\u001b[48;5;179mat\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mlect\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80mimport\u001b[48;5;68m itertools\u001b[48;5;134m\n", + "\u001b[48;5;167mfrom\u001b[48;5;179m t\u001b[48;5;185my\u001b[48;5;77mp\u001b[48;5;80ming\u001b[48;5;68m imp\u001b[48;5;134mort\u001b[48;5;167m Optional\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m regex\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimport\u001b[48;5;179m t\u001b[48;5;185miktoken\u001b[48;5;77m\n", + "\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mc\u001b[48;5;134mla\u001b[48;5;167mss\u001b[48;5;179m SimpleBytePairEncoding\u001b[48;5;185m:\u001b[48;5;77m\n", + " \u001b[48;5;80m def\u001b[48;5;68m \u001b[48;5;134m__\u001b[48;5;167min\u001b[48;5;179mit\u001b[48;5;185m__\u001b[48;5;77m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' inp' + b'ut'\n", + "So we made b' input' our 555th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mhis\u001b[48;5;77m is\u001b[48;5;80m an\u001b[48;5;68m \u001b[48;5;134med\u001b[48;5;167mu\u001b[48;5;179mc\u001b[48;5;185mat\u001b[48;5;77mional\u001b[48;5;80m imp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167ment\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77m of\u001b[48;5;80m the\u001b[48;5;68m byte\u001b[48;5;134m pair\u001b[48;5;167m encoding\u001b[48;5;179m al\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mith\u001b[48;5;68mm\u001b[48;5;134m.\u001b[48;5;167m\"\"\"\u001b[48;5;179m\n", + "\u001b[48;5;185mfrom\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68mf\u001b[48;5;134mut\u001b[48;5;167mu\u001b[48;5;179mre\u001b[48;5;185m__\u001b[48;5;77m imp\u001b[48;5;80mort\u001b[48;5;68m an\u001b[48;5;134mn\u001b[48;5;167mot\u001b[48;5;179mat\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mlect\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80mimport\u001b[48;5;68m itertools\u001b[48;5;134m\n", + "\u001b[48;5;167mfrom\u001b[48;5;179m t\u001b[48;5;185my\u001b[48;5;77mp\u001b[48;5;80ming\u001b[48;5;68m imp\u001b[48;5;134mort\u001b[48;5;167m Optional\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m regex\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimport\u001b[48;5;179m t\u001b[48;5;185miktoken\u001b[48;5;77m\n", + "\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mc\u001b[48;5;134mla\u001b[48;5;167mss\u001b[48;5;179m SimpleBytePairEncoding\u001b[48;5;185m:\u001b[48;5;77m\n", + " \u001b[48;5;80m def\u001b[48;5;68m \u001b[48;5;134m__\u001b[48;5;167min\u001b[48;5;179mit\u001b[48;5;185m__\u001b[48;5;77m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' t' + b'ext'\n", + "So we made b' text' our 556th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mhis\u001b[48;5;77m is\u001b[48;5;80m an\u001b[48;5;68m \u001b[48;5;134med\u001b[48;5;167mu\u001b[48;5;179mc\u001b[48;5;185mat\u001b[48;5;77mional\u001b[48;5;80m imp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167ment\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77m of\u001b[48;5;80m the\u001b[48;5;68m byte\u001b[48;5;134m pair\u001b[48;5;167m encoding\u001b[48;5;179m al\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mith\u001b[48;5;68mm\u001b[48;5;134m.\u001b[48;5;167m\"\"\"\u001b[48;5;179m\n", + "\u001b[48;5;185mfrom\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68mf\u001b[48;5;134mut\u001b[48;5;167mu\u001b[48;5;179mre\u001b[48;5;185m__\u001b[48;5;77m imp\u001b[48;5;80mort\u001b[48;5;68m an\u001b[48;5;134mn\u001b[48;5;167mot\u001b[48;5;179mat\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mlect\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80mimport\u001b[48;5;68m itertools\u001b[48;5;134m\n", + "\u001b[48;5;167mfrom\u001b[48;5;179m t\u001b[48;5;185my\u001b[48;5;77mp\u001b[48;5;80ming\u001b[48;5;68m imp\u001b[48;5;134mort\u001b[48;5;167m Optional\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m regex\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimport\u001b[48;5;179m t\u001b[48;5;185miktoken\u001b[48;5;77m\n", + "\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mc\u001b[48;5;134mla\u001b[48;5;167mss\u001b[48;5;179m SimpleBytePairEncoding\u001b[48;5;185m:\u001b[48;5;77m\n", + " \u001b[48;5;80m def\u001b[48;5;68m \u001b[48;5;134m__\u001b[48;5;167min\u001b[48;5;179mit\u001b[48;5;185m__\u001b[48;5;77m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'decode' + b'r'\n", + "So we made b'decoder' our 557th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mhis\u001b[48;5;77m is\u001b[48;5;80m an\u001b[48;5;68m \u001b[48;5;134med\u001b[48;5;167mu\u001b[48;5;179mc\u001b[48;5;185mat\u001b[48;5;77mional\u001b[48;5;80m imp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167ment\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77m of\u001b[48;5;80m the\u001b[48;5;68m byte\u001b[48;5;134m pair\u001b[48;5;167m encoding\u001b[48;5;179m al\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mith\u001b[48;5;68mm\u001b[48;5;134m.\u001b[48;5;167m\"\"\"\u001b[48;5;179m\n", + "\u001b[48;5;185mfrom\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68mf\u001b[48;5;134mut\u001b[48;5;167mu\u001b[48;5;179mre\u001b[48;5;185m__\u001b[48;5;77m imp\u001b[48;5;80mort\u001b[48;5;68m an\u001b[48;5;134mn\u001b[48;5;167mot\u001b[48;5;179mat\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mlect\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80mimport\u001b[48;5;68m itertools\u001b[48;5;134m\n", + "\u001b[48;5;167mfrom\u001b[48;5;179m t\u001b[48;5;185my\u001b[48;5;77mp\u001b[48;5;80ming\u001b[48;5;68m imp\u001b[48;5;134mort\u001b[48;5;167m Optional\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m regex\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimport\u001b[48;5;179m t\u001b[48;5;185miktoken\u001b[48;5;77m\n", + "\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mc\u001b[48;5;134mla\u001b[48;5;167mss\u001b[48;5;179m SimpleBytePairEncoding\u001b[48;5;185m:\u001b[48;5;77m\n", + " \u001b[48;5;80m def\u001b[48;5;68m \u001b[48;5;134m__\u001b[48;5;167min\u001b[48;5;179mit\u001b[48;5;185m__\u001b[48;5;77m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' en' + b'code'\n", + "So we made b' encode' our 558th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mhis\u001b[48;5;77m is\u001b[48;5;80m an\u001b[48;5;68m \u001b[48;5;134med\u001b[48;5;167mu\u001b[48;5;179mc\u001b[48;5;185mat\u001b[48;5;77mional\u001b[48;5;80m imp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167ment\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77m of\u001b[48;5;80m the\u001b[48;5;68m byte\u001b[48;5;134m pair\u001b[48;5;167m encoding\u001b[48;5;179m al\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mith\u001b[48;5;68mm\u001b[48;5;134m.\u001b[48;5;167m\"\"\"\u001b[48;5;179m\n", + "\u001b[48;5;185mfrom\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68mf\u001b[48;5;134mut\u001b[48;5;167mu\u001b[48;5;179mre\u001b[48;5;185m__\u001b[48;5;77m imp\u001b[48;5;80mort\u001b[48;5;68m an\u001b[48;5;134mn\u001b[48;5;167mot\u001b[48;5;179mat\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mlect\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80mimport\u001b[48;5;68m itertools\u001b[48;5;134m\n", + "\u001b[48;5;167mfrom\u001b[48;5;179m t\u001b[48;5;185my\u001b[48;5;77mp\u001b[48;5;80ming\u001b[48;5;68m imp\u001b[48;5;134mort\u001b[48;5;167m Optional\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m regex\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimport\u001b[48;5;179m t\u001b[48;5;185miktoken\u001b[48;5;77m\n", + "\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mc\u001b[48;5;134mla\u001b[48;5;167mss\u001b[48;5;179m SimpleBytePairEncoding\u001b[48;5;185m:\u001b[48;5;77m\n", + " \u001b[48;5;80m def\u001b[48;5;68m \u001b[48;5;134m__\u001b[48;5;167min\u001b[48;5;179mit\u001b[48;5;185m__\u001b[48;5;77m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' ' + b'U'\n", + "So we made b' U' our 559th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mhis\u001b[48;5;77m is\u001b[48;5;80m an\u001b[48;5;68m \u001b[48;5;134med\u001b[48;5;167mu\u001b[48;5;179mc\u001b[48;5;185mat\u001b[48;5;77mional\u001b[48;5;80m imp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167ment\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77m of\u001b[48;5;80m the\u001b[48;5;68m byte\u001b[48;5;134m pair\u001b[48;5;167m encoding\u001b[48;5;179m al\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mith\u001b[48;5;68mm\u001b[48;5;134m.\u001b[48;5;167m\"\"\"\u001b[48;5;179m\n", + "\u001b[48;5;185mfrom\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68mf\u001b[48;5;134mut\u001b[48;5;167mu\u001b[48;5;179mre\u001b[48;5;185m__\u001b[48;5;77m imp\u001b[48;5;80mort\u001b[48;5;68m an\u001b[48;5;134mn\u001b[48;5;167mot\u001b[48;5;179mat\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mlect\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80mimport\u001b[48;5;68m itertools\u001b[48;5;134m\n", + "\u001b[48;5;167mfrom\u001b[48;5;179m t\u001b[48;5;185my\u001b[48;5;77mp\u001b[48;5;80ming\u001b[48;5;68m imp\u001b[48;5;134mort\u001b[48;5;167m Optional\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m regex\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimport\u001b[48;5;179m t\u001b[48;5;185miktoken\u001b[48;5;77m\n", + "\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mc\u001b[48;5;134mla\u001b[48;5;167mss\u001b[48;5;179m SimpleBytePairEncoding\u001b[48;5;185m:\u001b[48;5;77m\n", + " \u001b[48;5;80m def\u001b[48;5;68m \u001b[48;5;134m__\u001b[48;5;167min\u001b[48;5;179mit\u001b[48;5;185m__\u001b[48;5;77m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' [' + b']'\n", + "So we made b' []' our 560th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mhis\u001b[48;5;77m is\u001b[48;5;80m an\u001b[48;5;68m \u001b[48;5;134med\u001b[48;5;167mu\u001b[48;5;179mc\u001b[48;5;185mat\u001b[48;5;77mional\u001b[48;5;80m imp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167ment\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77m of\u001b[48;5;80m the\u001b[48;5;68m byte\u001b[48;5;134m pair\u001b[48;5;167m encoding\u001b[48;5;179m al\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mith\u001b[48;5;68mm\u001b[48;5;134m.\u001b[48;5;167m\"\"\"\u001b[48;5;179m\n", + "\u001b[48;5;185mfrom\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68mf\u001b[48;5;134mut\u001b[48;5;167mu\u001b[48;5;179mre\u001b[48;5;185m__\u001b[48;5;77m imp\u001b[48;5;80mort\u001b[48;5;68m an\u001b[48;5;134mn\u001b[48;5;167mot\u001b[48;5;179mat\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mlect\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80mimport\u001b[48;5;68m itertools\u001b[48;5;134m\n", + "\u001b[48;5;167mfrom\u001b[48;5;179m t\u001b[48;5;185my\u001b[48;5;77mp\u001b[48;5;80ming\u001b[48;5;68m imp\u001b[48;5;134mort\u001b[48;5;167m Optional\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m regex\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimport\u001b[48;5;179m t\u001b[48;5;185miktoken\u001b[48;5;77m\n", + "\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mc\u001b[48;5;134mla\u001b[48;5;167mss\u001b[48;5;179m SimpleBytePairEncoding\u001b[48;5;185m:\u001b[48;5;77m\n", + " \u001b[48;5;80m def\u001b[48;5;68m \u001b[48;5;134m__\u001b[48;5;167min\u001b[48;5;179mit\u001b[48;5;185m__\u001b[48;5;77m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' ' + b'decode'\n", + "So we made b' decode' our 561th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mhis\u001b[48;5;77m is\u001b[48;5;80m an\u001b[48;5;68m \u001b[48;5;134med\u001b[48;5;167mu\u001b[48;5;179mc\u001b[48;5;185mat\u001b[48;5;77mional\u001b[48;5;80m imp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167ment\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77m of\u001b[48;5;80m the\u001b[48;5;68m byte\u001b[48;5;134m pair\u001b[48;5;167m encoding\u001b[48;5;179m al\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mith\u001b[48;5;68mm\u001b[48;5;134m.\u001b[48;5;167m\"\"\"\u001b[48;5;179m\n", + "\u001b[48;5;185mfrom\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68mf\u001b[48;5;134mut\u001b[48;5;167mu\u001b[48;5;179mre\u001b[48;5;185m__\u001b[48;5;77m imp\u001b[48;5;80mort\u001b[48;5;68m an\u001b[48;5;134mn\u001b[48;5;167mot\u001b[48;5;179mat\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mlect\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80mimport\u001b[48;5;68m itertools\u001b[48;5;134m\n", + "\u001b[48;5;167mfrom\u001b[48;5;179m t\u001b[48;5;185my\u001b[48;5;77mp\u001b[48;5;80ming\u001b[48;5;68m imp\u001b[48;5;134mort\u001b[48;5;167m Optional\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m regex\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimport\u001b[48;5;179m t\u001b[48;5;185miktoken\u001b[48;5;77m\n", + "\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mc\u001b[48;5;134mla\u001b[48;5;167mss\u001b[48;5;179m SimpleBytePairEncoding\u001b[48;5;185m:\u001b[48;5;77m\n", + " \u001b[48;5;80m def\u001b[48;5;68m \u001b[48;5;134m__\u001b[48;5;167min\u001b[48;5;179mit\u001b[48;5;185m__\u001b[48;5;77m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'De' + b'codes'\n", + "So we made b'Decodes' our 562th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mhis\u001b[48;5;77m is\u001b[48;5;80m an\u001b[48;5;68m \u001b[48;5;134med\u001b[48;5;167mu\u001b[48;5;179mc\u001b[48;5;185mat\u001b[48;5;77mional\u001b[48;5;80m imp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167ment\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77m of\u001b[48;5;80m the\u001b[48;5;68m byte\u001b[48;5;134m pair\u001b[48;5;167m encoding\u001b[48;5;179m al\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mith\u001b[48;5;68mm\u001b[48;5;134m.\u001b[48;5;167m\"\"\"\u001b[48;5;179m\n", + "\u001b[48;5;185mfrom\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68mf\u001b[48;5;134mut\u001b[48;5;167mu\u001b[48;5;179mre\u001b[48;5;185m__\u001b[48;5;77m imp\u001b[48;5;80mort\u001b[48;5;68m an\u001b[48;5;134mn\u001b[48;5;167mot\u001b[48;5;179mat\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mlect\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80mimport\u001b[48;5;68m itertools\u001b[48;5;134m\n", + "\u001b[48;5;167mfrom\u001b[48;5;179m t\u001b[48;5;185my\u001b[48;5;77mp\u001b[48;5;80ming\u001b[48;5;68m imp\u001b[48;5;134mort\u001b[48;5;167m Optional\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m regex\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimport\u001b[48;5;179m t\u001b[48;5;185miktoken\u001b[48;5;77m\n", + "\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mc\u001b[48;5;134mla\u001b[48;5;167mss\u001b[48;5;179m SimpleBytePairEncoding\u001b[48;5;185m:\u001b[48;5;77m\n", + " \u001b[48;5;80m def\u001b[48;5;68m \u001b[48;5;134m__\u001b[48;5;167min\u001b[48;5;179mit\u001b[48;5;185m__\u001b[48;5;77m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' n' + b'ot'\n", + "So we made b' not' our 563th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mhis\u001b[48;5;77m is\u001b[48;5;80m an\u001b[48;5;68m \u001b[48;5;134med\u001b[48;5;167mu\u001b[48;5;179mc\u001b[48;5;185mat\u001b[48;5;77mional\u001b[48;5;80m imp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167ment\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77m of\u001b[48;5;80m the\u001b[48;5;68m byte\u001b[48;5;134m pair\u001b[48;5;167m encoding\u001b[48;5;179m al\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mith\u001b[48;5;68mm\u001b[48;5;134m.\u001b[48;5;167m\"\"\"\u001b[48;5;179m\n", + "\u001b[48;5;185mfrom\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68mf\u001b[48;5;134mut\u001b[48;5;167mu\u001b[48;5;179mre\u001b[48;5;185m__\u001b[48;5;77m imp\u001b[48;5;80mort\u001b[48;5;68m an\u001b[48;5;134mn\u001b[48;5;167mot\u001b[48;5;179mat\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mlect\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80mimport\u001b[48;5;68m itertools\u001b[48;5;134m\n", + "\u001b[48;5;167mfrom\u001b[48;5;179m t\u001b[48;5;185my\u001b[48;5;77mp\u001b[48;5;80ming\u001b[48;5;68m imp\u001b[48;5;134mort\u001b[48;5;167m Optional\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m regex\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimport\u001b[48;5;179m t\u001b[48;5;185miktoken\u001b[48;5;77m\n", + "\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mc\u001b[48;5;134mla\u001b[48;5;167mss\u001b[48;5;179m SimpleBytePairEncoding\u001b[48;5;185m:\u001b[48;5;77m\n", + " \u001b[48;5;80m def\u001b[48;5;68m \u001b[48;5;134m__\u001b[48;5;167min\u001b[48;5;179mit\u001b[48;5;185m__\u001b[48;5;77m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' b' + b'e'\n", + "So we made b' be' our 564th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mhis\u001b[48;5;77m is\u001b[48;5;80m an\u001b[48;5;68m \u001b[48;5;134med\u001b[48;5;167mu\u001b[48;5;179mc\u001b[48;5;185mat\u001b[48;5;77mional\u001b[48;5;80m imp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167ment\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77m of\u001b[48;5;80m the\u001b[48;5;68m byte\u001b[48;5;134m pair\u001b[48;5;167m encoding\u001b[48;5;179m al\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mith\u001b[48;5;68mm\u001b[48;5;134m.\u001b[48;5;167m\"\"\"\u001b[48;5;179m\n", + "\u001b[48;5;185mfrom\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68mf\u001b[48;5;134mut\u001b[48;5;167mu\u001b[48;5;179mre\u001b[48;5;185m__\u001b[48;5;77m imp\u001b[48;5;80mort\u001b[48;5;68m an\u001b[48;5;134mn\u001b[48;5;167mot\u001b[48;5;179mat\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mlect\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80mimport\u001b[48;5;68m itertools\u001b[48;5;134m\n", + "\u001b[48;5;167mfrom\u001b[48;5;179m t\u001b[48;5;185my\u001b[48;5;77mp\u001b[48;5;80ming\u001b[48;5;68m imp\u001b[48;5;134mort\u001b[48;5;167m Optional\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m regex\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimport\u001b[48;5;179m t\u001b[48;5;185miktoken\u001b[48;5;77m\n", + "\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mc\u001b[48;5;134mla\u001b[48;5;167mss\u001b[48;5;179m SimpleBytePairEncoding\u001b[48;5;185m:\u001b[48;5;77m\n", + " \u001b[48;5;80m def\u001b[48;5;68m \u001b[48;5;134m__\u001b[48;5;167min\u001b[48;5;179mit\u001b[48;5;185m__\u001b[48;5;77m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' ' + b'I'\n", + "So we made b' I' our 565th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mhis\u001b[48;5;77m is\u001b[48;5;80m an\u001b[48;5;68m \u001b[48;5;134med\u001b[48;5;167mu\u001b[48;5;179mc\u001b[48;5;185mat\u001b[48;5;77mional\u001b[48;5;80m imp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167ment\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77m of\u001b[48;5;80m the\u001b[48;5;68m byte\u001b[48;5;134m pair\u001b[48;5;167m encoding\u001b[48;5;179m al\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mith\u001b[48;5;68mm\u001b[48;5;134m.\u001b[48;5;167m\"\"\"\u001b[48;5;179m\n", + "\u001b[48;5;185mfrom\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68mf\u001b[48;5;134mut\u001b[48;5;167mu\u001b[48;5;179mre\u001b[48;5;185m__\u001b[48;5;77m imp\u001b[48;5;80mort\u001b[48;5;68m an\u001b[48;5;134mn\u001b[48;5;167mot\u001b[48;5;179mat\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mlect\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80mimport\u001b[48;5;68m itertools\u001b[48;5;134m\n", + "\u001b[48;5;167mfrom\u001b[48;5;179m t\u001b[48;5;185my\u001b[48;5;77mp\u001b[48;5;80ming\u001b[48;5;68m imp\u001b[48;5;134mort\u001b[48;5;167m Optional\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m regex\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimport\u001b[48;5;179m t\u001b[48;5;185miktoken\u001b[48;5;77m\n", + "\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mc\u001b[48;5;134mla\u001b[48;5;167mss\u001b[48;5;179m SimpleBytePairEncoding\u001b[48;5;185m:\u001b[48;5;77m\n", + " \u001b[48;5;80m def\u001b[48;5;68m \u001b[48;5;134m__\u001b[48;5;167min\u001b[48;5;179mit\u001b[48;5;185m__\u001b[48;5;77m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'p' + b'la'\n", + "So we made b'pla' our 566th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mhis\u001b[48;5;77m is\u001b[48;5;80m an\u001b[48;5;68m \u001b[48;5;134med\u001b[48;5;167mu\u001b[48;5;179mc\u001b[48;5;185mat\u001b[48;5;77mional\u001b[48;5;80m imp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167ment\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77m of\u001b[48;5;80m the\u001b[48;5;68m byte\u001b[48;5;134m pair\u001b[48;5;167m encoding\u001b[48;5;179m al\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mith\u001b[48;5;68mm\u001b[48;5;134m.\u001b[48;5;167m\"\"\"\u001b[48;5;179m\n", + "\u001b[48;5;185mfrom\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68mf\u001b[48;5;134mut\u001b[48;5;167mu\u001b[48;5;179mre\u001b[48;5;185m__\u001b[48;5;77m imp\u001b[48;5;80mort\u001b[48;5;68m an\u001b[48;5;134mn\u001b[48;5;167mot\u001b[48;5;179mat\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mlect\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80mimport\u001b[48;5;68m itertools\u001b[48;5;134m\n", + "\u001b[48;5;167mfrom\u001b[48;5;179m t\u001b[48;5;185my\u001b[48;5;77mp\u001b[48;5;80ming\u001b[48;5;68m imp\u001b[48;5;134mort\u001b[48;5;167m Optional\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m regex\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimport\u001b[48;5;179m t\u001b[48;5;185miktoken\u001b[48;5;77m\n", + "\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mc\u001b[48;5;134mla\u001b[48;5;167mss\u001b[48;5;179m SimpleBytePairEncoding\u001b[48;5;185m:\u001b[48;5;77m\n", + " \u001b[48;5;80m def\u001b[48;5;68m \u001b[48;5;134m__\u001b[48;5;167min\u001b[48;5;179mit\u001b[48;5;185m__\u001b[48;5;77m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'pla' + b'ce'\n", + "So we made b'place' our 567th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mhis\u001b[48;5;77m is\u001b[48;5;80m an\u001b[48;5;68m \u001b[48;5;134med\u001b[48;5;167mu\u001b[48;5;179mc\u001b[48;5;185mat\u001b[48;5;77mional\u001b[48;5;80m imp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167ment\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77m of\u001b[48;5;80m the\u001b[48;5;68m byte\u001b[48;5;134m pair\u001b[48;5;167m encoding\u001b[48;5;179m al\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mith\u001b[48;5;68mm\u001b[48;5;134m.\u001b[48;5;167m\"\"\"\u001b[48;5;179m\n", + "\u001b[48;5;185mfrom\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68mf\u001b[48;5;134mut\u001b[48;5;167mu\u001b[48;5;179mre\u001b[48;5;185m__\u001b[48;5;77m imp\u001b[48;5;80mort\u001b[48;5;68m an\u001b[48;5;134mn\u001b[48;5;167mot\u001b[48;5;179mat\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mlect\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80mimport\u001b[48;5;68m itertools\u001b[48;5;134m\n", + "\u001b[48;5;167mfrom\u001b[48;5;179m t\u001b[48;5;185my\u001b[48;5;77mp\u001b[48;5;80ming\u001b[48;5;68m imp\u001b[48;5;134mort\u001b[48;5;167m Optional\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m regex\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimport\u001b[48;5;179m t\u001b[48;5;185miktoken\u001b[48;5;77m\n", + "\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mc\u001b[48;5;134mla\u001b[48;5;167mss\u001b[48;5;179m SimpleBytePairEncoding\u001b[48;5;185m:\u001b[48;5;77m\n", + " \u001b[48;5;80m def\u001b[48;5;68m \u001b[48;5;134m__\u001b[48;5;167min\u001b[48;5;179mit\u001b[48;5;185m__\u001b[48;5;77m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'\"' + b'.'\n", + "So we made b'\".' our 568th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mhis\u001b[48;5;77m is\u001b[48;5;80m an\u001b[48;5;68m \u001b[48;5;134med\u001b[48;5;167mu\u001b[48;5;179mc\u001b[48;5;185mat\u001b[48;5;77mional\u001b[48;5;80m imp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167ment\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77m of\u001b[48;5;80m the\u001b[48;5;68m byte\u001b[48;5;134m pair\u001b[48;5;167m encoding\u001b[48;5;179m al\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mith\u001b[48;5;68mm\u001b[48;5;134m.\u001b[48;5;167m\"\"\"\u001b[48;5;179m\n", + "\u001b[48;5;185mfrom\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68mf\u001b[48;5;134mut\u001b[48;5;167mu\u001b[48;5;179mre\u001b[48;5;185m__\u001b[48;5;77m imp\u001b[48;5;80mort\u001b[48;5;68m an\u001b[48;5;134mn\u001b[48;5;167mot\u001b[48;5;179mat\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mlect\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80mimport\u001b[48;5;68m itertools\u001b[48;5;134m\n", + "\u001b[48;5;167mfrom\u001b[48;5;179m t\u001b[48;5;185my\u001b[48;5;77mp\u001b[48;5;80ming\u001b[48;5;68m imp\u001b[48;5;134mort\u001b[48;5;167m Optional\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m regex\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimport\u001b[48;5;179m t\u001b[48;5;185miktoken\u001b[48;5;77m\n", + "\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mc\u001b[48;5;134mla\u001b[48;5;167mss\u001b[48;5;179m SimpleBytePairEncoding\u001b[48;5;185m:\u001b[48;5;77m\n", + " \u001b[48;5;80m def\u001b[48;5;68m \u001b[48;5;134m__\u001b[48;5;167min\u001b[48;5;179mit\u001b[48;5;185m__\u001b[48;5;77m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' ' + b')'\n", + "So we made b' )' our 569th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mhis\u001b[48;5;77m is\u001b[48;5;80m an\u001b[48;5;68m \u001b[48;5;134med\u001b[48;5;167mu\u001b[48;5;179mc\u001b[48;5;185mat\u001b[48;5;77mional\u001b[48;5;80m imp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167ment\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77m of\u001b[48;5;80m the\u001b[48;5;68m byte\u001b[48;5;134m pair\u001b[48;5;167m encoding\u001b[48;5;179m al\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mith\u001b[48;5;68mm\u001b[48;5;134m.\u001b[48;5;167m\"\"\"\u001b[48;5;179m\n", + "\u001b[48;5;185mfrom\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68mf\u001b[48;5;134mut\u001b[48;5;167mu\u001b[48;5;179mre\u001b[48;5;185m__\u001b[48;5;77m imp\u001b[48;5;80mort\u001b[48;5;68m an\u001b[48;5;134mn\u001b[48;5;167mot\u001b[48;5;179mat\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mlect\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80mimport\u001b[48;5;68m itertools\u001b[48;5;134m\n", + "\u001b[48;5;167mfrom\u001b[48;5;179m t\u001b[48;5;185my\u001b[48;5;77mp\u001b[48;5;80ming\u001b[48;5;68m imp\u001b[48;5;134mort\u001b[48;5;167m Optional\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m regex\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimport\u001b[48;5;179m t\u001b[48;5;185miktoken\u001b[48;5;77m\n", + "\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mc\u001b[48;5;134mla\u001b[48;5;167mss\u001b[48;5;179m SimpleBytePairEncoding\u001b[48;5;185m:\u001b[48;5;77m\n", + " \u001b[48;5;80m def\u001b[48;5;68m \u001b[48;5;134m__\u001b[48;5;167min\u001b[48;5;179mit\u001b[48;5;185m__\u001b[48;5;77m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' wh' + b'ile'\n", + "So we made b' while' our 570th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mhis\u001b[48;5;77m is\u001b[48;5;80m an\u001b[48;5;68m \u001b[48;5;134med\u001b[48;5;167mu\u001b[48;5;179mc\u001b[48;5;185mat\u001b[48;5;77mional\u001b[48;5;80m imp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167ment\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77m of\u001b[48;5;80m the\u001b[48;5;68m byte\u001b[48;5;134m pair\u001b[48;5;167m encoding\u001b[48;5;179m al\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mith\u001b[48;5;68mm\u001b[48;5;134m.\u001b[48;5;167m\"\"\"\u001b[48;5;179m\n", + "\u001b[48;5;185mfrom\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68mf\u001b[48;5;134mut\u001b[48;5;167mu\u001b[48;5;179mre\u001b[48;5;185m__\u001b[48;5;77m imp\u001b[48;5;80mort\u001b[48;5;68m an\u001b[48;5;134mn\u001b[48;5;167mot\u001b[48;5;179mat\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mlect\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80mimport\u001b[48;5;68m itertools\u001b[48;5;134m\n", + "\u001b[48;5;167mfrom\u001b[48;5;179m t\u001b[48;5;185my\u001b[48;5;77mp\u001b[48;5;80ming\u001b[48;5;68m imp\u001b[48;5;134mort\u001b[48;5;167m Optional\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m regex\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimport\u001b[48;5;179m t\u001b[48;5;185miktoken\u001b[48;5;77m\n", + "\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mc\u001b[48;5;134mla\u001b[48;5;167mss\u001b[48;5;179m SimpleBytePairEncoding\u001b[48;5;185m:\u001b[48;5;77m\n", + " \u001b[48;5;80m def\u001b[48;5;68m \u001b[48;5;134m__\u001b[48;5;167min\u001b[48;5;179mit\u001b[48;5;185m__\u001b[48;5;77m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' in' + b'ter'\n", + "So we made b' inter' our 571th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mhis\u001b[48;5;77m is\u001b[48;5;80m an\u001b[48;5;68m \u001b[48;5;134med\u001b[48;5;167mu\u001b[48;5;179mc\u001b[48;5;185mat\u001b[48;5;77mional\u001b[48;5;80m imp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167ment\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77m of\u001b[48;5;80m the\u001b[48;5;68m byte\u001b[48;5;134m pair\u001b[48;5;167m encoding\u001b[48;5;179m al\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mith\u001b[48;5;68mm\u001b[48;5;134m.\u001b[48;5;167m\"\"\"\u001b[48;5;179m\n", + "\u001b[48;5;185mfrom\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68mf\u001b[48;5;134mut\u001b[48;5;167mu\u001b[48;5;179mre\u001b[48;5;185m__\u001b[48;5;77m imp\u001b[48;5;80mort\u001b[48;5;68m an\u001b[48;5;134mn\u001b[48;5;167mot\u001b[48;5;179mat\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mlect\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80mimport\u001b[48;5;68m itertools\u001b[48;5;134m\n", + "\u001b[48;5;167mfrom\u001b[48;5;179m t\u001b[48;5;185my\u001b[48;5;77mp\u001b[48;5;80ming\u001b[48;5;68m imp\u001b[48;5;134mort\u001b[48;5;167m Optional\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m regex\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimport\u001b[48;5;179m t\u001b[48;5;185miktoken\u001b[48;5;77m\n", + "\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mc\u001b[48;5;134mla\u001b[48;5;167mss\u001b[48;5;179m SimpleBytePairEncoding\u001b[48;5;185m:\u001b[48;5;77m\n", + " \u001b[48;5;80m def\u001b[48;5;68m \u001b[48;5;134m__\u001b[48;5;167min\u001b[48;5;179mit\u001b[48;5;185m__\u001b[48;5;77m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'm' + b'ed'\n", + "So we made b'med' our 572th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mhis\u001b[48;5;77m is\u001b[48;5;80m an\u001b[48;5;68m \u001b[48;5;134med\u001b[48;5;167mu\u001b[48;5;179mc\u001b[48;5;185mat\u001b[48;5;77mional\u001b[48;5;80m imp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167ment\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77m of\u001b[48;5;80m the\u001b[48;5;68m byte\u001b[48;5;134m pair\u001b[48;5;167m encoding\u001b[48;5;179m al\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mith\u001b[48;5;68mm\u001b[48;5;134m.\u001b[48;5;167m\"\"\"\u001b[48;5;179m\n", + "\u001b[48;5;185mfrom\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68mf\u001b[48;5;134mut\u001b[48;5;167mu\u001b[48;5;179mre\u001b[48;5;185m__\u001b[48;5;77m imp\u001b[48;5;80mort\u001b[48;5;68m an\u001b[48;5;134mn\u001b[48;5;167mot\u001b[48;5;179mat\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mlect\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80mimport\u001b[48;5;68m itertools\u001b[48;5;134m\n", + "\u001b[48;5;167mfrom\u001b[48;5;179m t\u001b[48;5;185my\u001b[48;5;77mp\u001b[48;5;80ming\u001b[48;5;68m imp\u001b[48;5;134mort\u001b[48;5;167m Optional\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m regex\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimport\u001b[48;5;179m t\u001b[48;5;185miktoken\u001b[48;5;77m\n", + "\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mc\u001b[48;5;134mla\u001b[48;5;167mss\u001b[48;5;179m SimpleBytePairEncoding\u001b[48;5;185m:\u001b[48;5;77m\n", + " \u001b[48;5;80m def\u001b[48;5;68m \u001b[48;5;134m__\u001b[48;5;167min\u001b[48;5;179mit\u001b[48;5;185m__\u001b[48;5;77m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' o' + b'ut'\n", + "So we made b' out' our 573th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mhis\u001b[48;5;77m is\u001b[48;5;80m an\u001b[48;5;68m \u001b[48;5;134med\u001b[48;5;167mu\u001b[48;5;179mc\u001b[48;5;185mat\u001b[48;5;77mional\u001b[48;5;80m imp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167ment\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77m of\u001b[48;5;80m the\u001b[48;5;68m byte\u001b[48;5;134m pair\u001b[48;5;167m encoding\u001b[48;5;179m al\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mith\u001b[48;5;68mm\u001b[48;5;134m.\u001b[48;5;167m\"\"\"\u001b[48;5;179m\n", + "\u001b[48;5;185mfrom\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68mf\u001b[48;5;134mut\u001b[48;5;167mu\u001b[48;5;179mre\u001b[48;5;185m__\u001b[48;5;77m imp\u001b[48;5;80mort\u001b[48;5;68m an\u001b[48;5;134mn\u001b[48;5;167mot\u001b[48;5;179mat\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mlect\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80mimport\u001b[48;5;68m itertools\u001b[48;5;134m\n", + "\u001b[48;5;167mfrom\u001b[48;5;179m t\u001b[48;5;185my\u001b[48;5;77mp\u001b[48;5;80ming\u001b[48;5;68m imp\u001b[48;5;134mort\u001b[48;5;167m Optional\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m regex\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimport\u001b[48;5;179m t\u001b[48;5;185miktoken\u001b[48;5;77m\n", + "\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mc\u001b[48;5;134mla\u001b[48;5;167mss\u001b[48;5;179m SimpleBytePairEncoding\u001b[48;5;185m:\u001b[48;5;77m\n", + " \u001b[48;5;80m def\u001b[48;5;68m \u001b[48;5;134m__\u001b[48;5;167min\u001b[48;5;179mit\u001b[48;5;185m__\u001b[48;5;77m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' e' + b'l'\n", + "So we made b' el' our 574th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mhis\u001b[48;5;77m is\u001b[48;5;80m an\u001b[48;5;68m \u001b[48;5;134med\u001b[48;5;167mu\u001b[48;5;179mc\u001b[48;5;185mat\u001b[48;5;77mional\u001b[48;5;80m imp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167ment\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77m of\u001b[48;5;80m the\u001b[48;5;68m byte\u001b[48;5;134m pair\u001b[48;5;167m encoding\u001b[48;5;179m al\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mith\u001b[48;5;68mm\u001b[48;5;134m.\u001b[48;5;167m\"\"\"\u001b[48;5;179m\n", + "\u001b[48;5;185mfrom\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68mf\u001b[48;5;134mut\u001b[48;5;167mu\u001b[48;5;179mre\u001b[48;5;185m__\u001b[48;5;77m imp\u001b[48;5;80mort\u001b[48;5;68m an\u001b[48;5;134mn\u001b[48;5;167mot\u001b[48;5;179mat\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mlect\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80mimport\u001b[48;5;68m itertools\u001b[48;5;134m\n", + "\u001b[48;5;167mfrom\u001b[48;5;179m t\u001b[48;5;185my\u001b[48;5;77mp\u001b[48;5;80ming\u001b[48;5;68m imp\u001b[48;5;134mort\u001b[48;5;167m Optional\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m regex\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimport\u001b[48;5;179m t\u001b[48;5;185miktoken\u001b[48;5;77m\n", + "\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mc\u001b[48;5;134mla\u001b[48;5;167mss\u001b[48;5;179m SimpleBytePairEncoding\u001b[48;5;185m:\u001b[48;5;77m\n", + " \u001b[48;5;80m def\u001b[48;5;68m \u001b[48;5;134m__\u001b[48;5;167min\u001b[48;5;179mit\u001b[48;5;185m__\u001b[48;5;77m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'i' + b'f'\n", + "So we made b'if' our 575th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mhis\u001b[48;5;77m is\u001b[48;5;80m an\u001b[48;5;68m \u001b[48;5;134med\u001b[48;5;167mu\u001b[48;5;179mc\u001b[48;5;185mat\u001b[48;5;77mional\u001b[48;5;80m imp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167ment\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77m of\u001b[48;5;80m the\u001b[48;5;68m byte\u001b[48;5;134m pair\u001b[48;5;167m encoding\u001b[48;5;179m al\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mith\u001b[48;5;68mm\u001b[48;5;134m.\u001b[48;5;167m\"\"\"\u001b[48;5;179m\n", + "\u001b[48;5;185mfrom\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68mf\u001b[48;5;134mut\u001b[48;5;167mu\u001b[48;5;179mre\u001b[48;5;185m__\u001b[48;5;77m imp\u001b[48;5;80mort\u001b[48;5;68m an\u001b[48;5;134mn\u001b[48;5;167mot\u001b[48;5;179mat\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mlect\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80mimport\u001b[48;5;68m itertools\u001b[48;5;134m\n", + "\u001b[48;5;167mfrom\u001b[48;5;179m t\u001b[48;5;185my\u001b[48;5;77mp\u001b[48;5;80ming\u001b[48;5;68m imp\u001b[48;5;134mort\u001b[48;5;167m Optional\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m regex\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimport\u001b[48;5;179m t\u001b[48;5;185miktoken\u001b[48;5;77m\n", + "\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mc\u001b[48;5;134mla\u001b[48;5;167mss\u001b[48;5;179m SimpleBytePairEncoding\u001b[48;5;185m:\u001b[48;5;77m\n", + " \u001b[48;5;80m def\u001b[48;5;68m \u001b[48;5;134m__\u001b[48;5;167min\u001b[48;5;179mit\u001b[48;5;185m__\u001b[48;5;77m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b's' + b'imple'\n", + "So we made b'simple' our 576th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mhis\u001b[48;5;77m is\u001b[48;5;80m an\u001b[48;5;68m \u001b[48;5;134med\u001b[48;5;167mu\u001b[48;5;179mc\u001b[48;5;185mat\u001b[48;5;77mional\u001b[48;5;80m imp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167ment\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77m of\u001b[48;5;80m the\u001b[48;5;68m byte\u001b[48;5;134m pair\u001b[48;5;167m encoding\u001b[48;5;179m al\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mith\u001b[48;5;68mm\u001b[48;5;134m.\u001b[48;5;167m\"\"\"\u001b[48;5;179m\n", + "\u001b[48;5;185mfrom\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68mf\u001b[48;5;134mut\u001b[48;5;167mu\u001b[48;5;179mre\u001b[48;5;185m__\u001b[48;5;77m imp\u001b[48;5;80mort\u001b[48;5;68m an\u001b[48;5;134mn\u001b[48;5;167mot\u001b[48;5;179mat\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mlect\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80mimport\u001b[48;5;68m itertools\u001b[48;5;134m\n", + "\u001b[48;5;167mfrom\u001b[48;5;179m t\u001b[48;5;185my\u001b[48;5;77mp\u001b[48;5;80ming\u001b[48;5;68m imp\u001b[48;5;134mort\u001b[48;5;167m Optional\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m regex\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimport\u001b[48;5;179m t\u001b[48;5;185miktoken\u001b[48;5;77m\n", + "\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mc\u001b[48;5;134mla\u001b[48;5;167mss\u001b[48;5;179m SimpleBytePairEncoding\u001b[48;5;185m:\u001b[48;5;77m\n", + " \u001b[48;5;80m def\u001b[48;5;68m \u001b[48;5;134m__\u001b[48;5;167min\u001b[48;5;179mit\u001b[48;5;185m__\u001b[48;5;77m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' al' + b'l'\n", + "So we made b' all' our 577th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mhis\u001b[48;5;77m is\u001b[48;5;80m an\u001b[48;5;68m \u001b[48;5;134med\u001b[48;5;167mu\u001b[48;5;179mc\u001b[48;5;185mat\u001b[48;5;77mional\u001b[48;5;80m imp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167ment\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77m of\u001b[48;5;80m the\u001b[48;5;68m byte\u001b[48;5;134m pair\u001b[48;5;167m encoding\u001b[48;5;179m al\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mith\u001b[48;5;68mm\u001b[48;5;134m.\u001b[48;5;167m\"\"\"\u001b[48;5;179m\n", + "\u001b[48;5;185mfrom\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68mf\u001b[48;5;134mut\u001b[48;5;167mu\u001b[48;5;179mre\u001b[48;5;185m__\u001b[48;5;77m imp\u001b[48;5;80mort\u001b[48;5;68m an\u001b[48;5;134mn\u001b[48;5;167mot\u001b[48;5;179mat\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mlect\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80mimport\u001b[48;5;68m itertools\u001b[48;5;134m\n", + "\u001b[48;5;167mfrom\u001b[48;5;179m t\u001b[48;5;185my\u001b[48;5;77mp\u001b[48;5;80ming\u001b[48;5;68m imp\u001b[48;5;134mort\u001b[48;5;167m Optional\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m regex\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimport\u001b[48;5;179m t\u001b[48;5;185miktoken\u001b[48;5;77m\n", + "\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mc\u001b[48;5;134mla\u001b[48;5;167mss\u001b[48;5;179m SimpleBytePairEncoding\u001b[48;5;185m:\u001b[48;5;77m\n", + " \u001b[48;5;80m def\u001b[48;5;68m \u001b[48;5;134m__\u001b[48;5;167min\u001b[48;5;179mit\u001b[48;5;185m__\u001b[48;5;77m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' an' + b'd'\n", + "So we made b' and' our 578th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mhis\u001b[48;5;77m is\u001b[48;5;80m an\u001b[48;5;68m \u001b[48;5;134med\u001b[48;5;167mu\u001b[48;5;179mc\u001b[48;5;185mat\u001b[48;5;77mional\u001b[48;5;80m imp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167ment\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77m of\u001b[48;5;80m the\u001b[48;5;68m byte\u001b[48;5;134m pair\u001b[48;5;167m encoding\u001b[48;5;179m al\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mith\u001b[48;5;68mm\u001b[48;5;134m.\u001b[48;5;167m\"\"\"\u001b[48;5;179m\n", + "\u001b[48;5;185mfrom\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68mf\u001b[48;5;134mut\u001b[48;5;167mu\u001b[48;5;179mre\u001b[48;5;185m__\u001b[48;5;77m imp\u001b[48;5;80mort\u001b[48;5;68m an\u001b[48;5;134mn\u001b[48;5;167mot\u001b[48;5;179mat\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mlect\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80mimport\u001b[48;5;68m itertools\u001b[48;5;134m\n", + "\u001b[48;5;167mfrom\u001b[48;5;179m t\u001b[48;5;185my\u001b[48;5;77mp\u001b[48;5;80ming\u001b[48;5;68m imp\u001b[48;5;134mort\u001b[48;5;167m Optional\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m regex\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimport\u001b[48;5;179m t\u001b[48;5;185miktoken\u001b[48;5;77m\n", + "\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mc\u001b[48;5;134mla\u001b[48;5;167mss\u001b[48;5;179m SimpleBytePairEncoding\u001b[48;5;185m:\u001b[48;5;77m\n", + " \u001b[48;5;80m def\u001b[48;5;68m \u001b[48;5;134m__\u001b[48;5;167min\u001b[48;5;179mit\u001b[48;5;185m__\u001b[48;5;77m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'z' + b'i'\n", + "So we made b'zi' our 579th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mhis\u001b[48;5;77m is\u001b[48;5;80m an\u001b[48;5;68m \u001b[48;5;134med\u001b[48;5;167mu\u001b[48;5;179mc\u001b[48;5;185mat\u001b[48;5;77mional\u001b[48;5;80m imp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167ment\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77m of\u001b[48;5;80m the\u001b[48;5;68m byte\u001b[48;5;134m pair\u001b[48;5;167m encoding\u001b[48;5;179m al\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mith\u001b[48;5;68mm\u001b[48;5;134m.\u001b[48;5;167m\"\"\"\u001b[48;5;179m\n", + "\u001b[48;5;185mfrom\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68mf\u001b[48;5;134mut\u001b[48;5;167mu\u001b[48;5;179mre\u001b[48;5;185m__\u001b[48;5;77m imp\u001b[48;5;80mort\u001b[48;5;68m an\u001b[48;5;134mn\u001b[48;5;167mot\u001b[48;5;179mat\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mlect\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80mimport\u001b[48;5;68m itertools\u001b[48;5;134m\n", + "\u001b[48;5;167mfrom\u001b[48;5;179m t\u001b[48;5;185my\u001b[48;5;77mp\u001b[48;5;80ming\u001b[48;5;68m imp\u001b[48;5;134mort\u001b[48;5;167m Optional\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m regex\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimport\u001b[48;5;179m t\u001b[48;5;185miktoken\u001b[48;5;77m\n", + "\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mc\u001b[48;5;134mla\u001b[48;5;167mss\u001b[48;5;179m SimpleBytePairEncoding\u001b[48;5;185m:\u001b[48;5;77m\n", + " \u001b[48;5;80m def\u001b[48;5;68m \u001b[48;5;134m__\u001b[48;5;167min\u001b[48;5;179mit\u001b[48;5;185m__\u001b[48;5;77m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'zi' + b'p'\n", + "So we made b'zip' our 580th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mhis\u001b[48;5;77m is\u001b[48;5;80m an\u001b[48;5;68m \u001b[48;5;134med\u001b[48;5;167mu\u001b[48;5;179mc\u001b[48;5;185mat\u001b[48;5;77mional\u001b[48;5;80m imp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167ment\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77m of\u001b[48;5;80m the\u001b[48;5;68m byte\u001b[48;5;134m pair\u001b[48;5;167m encoding\u001b[48;5;179m al\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mith\u001b[48;5;68mm\u001b[48;5;134m.\u001b[48;5;167m\"\"\"\u001b[48;5;179m\n", + "\u001b[48;5;185mfrom\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68mf\u001b[48;5;134mut\u001b[48;5;167mu\u001b[48;5;179mre\u001b[48;5;185m__\u001b[48;5;77m imp\u001b[48;5;80mort\u001b[48;5;68m an\u001b[48;5;134mn\u001b[48;5;167mot\u001b[48;5;179mat\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mlect\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80mimport\u001b[48;5;68m itertools\u001b[48;5;134m\n", + "\u001b[48;5;167mfrom\u001b[48;5;179m t\u001b[48;5;185my\u001b[48;5;77mp\u001b[48;5;80ming\u001b[48;5;68m imp\u001b[48;5;134mort\u001b[48;5;167m Optional\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m regex\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimport\u001b[48;5;179m t\u001b[48;5;185miktoken\u001b[48;5;77m\n", + "\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mc\u001b[48;5;134mla\u001b[48;5;167mss\u001b[48;5;179m SimpleBytePairEncoding\u001b[48;5;185m:\u001b[48;5;77m\n", + " \u001b[48;5;80m def\u001b[48;5;68m \u001b[48;5;134m__\u001b[48;5;167min\u001b[48;5;179mit\u001b[48;5;185m__\u001b[48;5;77m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'lea' + b'v'\n", + "So we made b'leav' our 581th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mhis\u001b[48;5;77m is\u001b[48;5;80m an\u001b[48;5;68m \u001b[48;5;134med\u001b[48;5;167mu\u001b[48;5;179mc\u001b[48;5;185mat\u001b[48;5;77mional\u001b[48;5;80m imp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167ment\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77m of\u001b[48;5;80m the\u001b[48;5;68m byte\u001b[48;5;134m pair\u001b[48;5;167m encoding\u001b[48;5;179m al\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mith\u001b[48;5;68mm\u001b[48;5;134m.\u001b[48;5;167m\"\"\"\u001b[48;5;179m\n", + "\u001b[48;5;185mfrom\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68mf\u001b[48;5;134mut\u001b[48;5;167mu\u001b[48;5;179mre\u001b[48;5;185m__\u001b[48;5;77m imp\u001b[48;5;80mort\u001b[48;5;68m an\u001b[48;5;134mn\u001b[48;5;167mot\u001b[48;5;179mat\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mlect\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80mimport\u001b[48;5;68m itertools\u001b[48;5;134m\n", + "\u001b[48;5;167mfrom\u001b[48;5;179m t\u001b[48;5;185my\u001b[48;5;77mp\u001b[48;5;80ming\u001b[48;5;68m imp\u001b[48;5;134mort\u001b[48;5;167m Optional\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m regex\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimport\u001b[48;5;179m t\u001b[48;5;185miktoken\u001b[48;5;77m\n", + "\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mc\u001b[48;5;134mla\u001b[48;5;167mss\u001b[48;5;179m SimpleBytePairEncoding\u001b[48;5;185m:\u001b[48;5;77m\n", + " \u001b[48;5;80m def\u001b[48;5;68m \u001b[48;5;134m__\u001b[48;5;167min\u001b[48;5;179mit\u001b[48;5;185m__\u001b[48;5;77m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b']' + b']'\n", + "So we made b']]' our 582th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mhis\u001b[48;5;77m is\u001b[48;5;80m an\u001b[48;5;68m \u001b[48;5;134med\u001b[48;5;167mu\u001b[48;5;179mc\u001b[48;5;185mat\u001b[48;5;77mional\u001b[48;5;80m imp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167ment\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77m of\u001b[48;5;80m the\u001b[48;5;68m byte\u001b[48;5;134m pair\u001b[48;5;167m encoding\u001b[48;5;179m al\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mith\u001b[48;5;68mm\u001b[48;5;134m.\u001b[48;5;167m\"\"\"\u001b[48;5;179m\n", + "\u001b[48;5;185mfrom\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68mf\u001b[48;5;134mut\u001b[48;5;167mu\u001b[48;5;179mre\u001b[48;5;185m__\u001b[48;5;77m imp\u001b[48;5;80mort\u001b[48;5;68m an\u001b[48;5;134mn\u001b[48;5;167mot\u001b[48;5;179mat\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mlect\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80mimport\u001b[48;5;68m itertools\u001b[48;5;134m\n", + "\u001b[48;5;167mfrom\u001b[48;5;179m t\u001b[48;5;185my\u001b[48;5;77mp\u001b[48;5;80ming\u001b[48;5;68m imp\u001b[48;5;134mort\u001b[48;5;167m Optional\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m regex\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimport\u001b[48;5;179m t\u001b[48;5;185miktoken\u001b[48;5;77m\n", + "\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mc\u001b[48;5;134mla\u001b[48;5;167mss\u001b[48;5;179m SimpleBytePairEncoding\u001b[48;5;185m:\u001b[48;5;77m\n", + " \u001b[48;5;80m def\u001b[48;5;68m \u001b[48;5;134m__\u001b[48;5;167min\u001b[48;5;179mit\u001b[48;5;185m__\u001b[48;5;77m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'ir' + b'st'\n", + "So we made b'irst' our 583th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mhis\u001b[48;5;77m is\u001b[48;5;80m an\u001b[48;5;68m \u001b[48;5;134med\u001b[48;5;167mu\u001b[48;5;179mc\u001b[48;5;185mat\u001b[48;5;77mional\u001b[48;5;80m imp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167ment\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77m of\u001b[48;5;80m the\u001b[48;5;68m byte\u001b[48;5;134m pair\u001b[48;5;167m encoding\u001b[48;5;179m al\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mith\u001b[48;5;68mm\u001b[48;5;134m.\u001b[48;5;167m\"\"\"\u001b[48;5;179m\n", + "\u001b[48;5;185mfrom\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68mf\u001b[48;5;134mut\u001b[48;5;167mu\u001b[48;5;179mre\u001b[48;5;185m__\u001b[48;5;77m imp\u001b[48;5;80mort\u001b[48;5;68m an\u001b[48;5;134mn\u001b[48;5;167mot\u001b[48;5;179mat\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mlect\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80mimport\u001b[48;5;68m itertools\u001b[48;5;134m\n", + "\u001b[48;5;167mfrom\u001b[48;5;179m t\u001b[48;5;185my\u001b[48;5;77mp\u001b[48;5;80ming\u001b[48;5;68m imp\u001b[48;5;134mort\u001b[48;5;167m Optional\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m regex\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimport\u001b[48;5;179m t\u001b[48;5;185miktoken\u001b[48;5;77m\n", + "\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mc\u001b[48;5;134mla\u001b[48;5;167mss\u001b[48;5;179m SimpleBytePairEncoding\u001b[48;5;185m:\u001b[48;5;77m\n", + " \u001b[48;5;80m def\u001b[48;5;68m \u001b[48;5;134m__\u001b[48;5;167min\u001b[48;5;179mit\u001b[48;5;185m__\u001b[48;5;77m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' ' + b'common'\n", + "So we made b' common' our 584th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mhis\u001b[48;5;77m is\u001b[48;5;80m an\u001b[48;5;68m \u001b[48;5;134med\u001b[48;5;167mu\u001b[48;5;179mc\u001b[48;5;185mat\u001b[48;5;77mional\u001b[48;5;80m imp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167ment\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77m of\u001b[48;5;80m the\u001b[48;5;68m byte\u001b[48;5;134m pair\u001b[48;5;167m encoding\u001b[48;5;179m al\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mith\u001b[48;5;68mm\u001b[48;5;134m.\u001b[48;5;167m\"\"\"\u001b[48;5;179m\n", + "\u001b[48;5;185mfrom\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68mf\u001b[48;5;134mut\u001b[48;5;167mu\u001b[48;5;179mre\u001b[48;5;185m__\u001b[48;5;77m imp\u001b[48;5;80mort\u001b[48;5;68m an\u001b[48;5;134mn\u001b[48;5;167mot\u001b[48;5;179mat\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mlect\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80mimport\u001b[48;5;68m itertools\u001b[48;5;134m\n", + "\u001b[48;5;167mfrom\u001b[48;5;179m t\u001b[48;5;185my\u001b[48;5;77mp\u001b[48;5;80ming\u001b[48;5;68m imp\u001b[48;5;134mort\u001b[48;5;167m Optional\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m regex\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimport\u001b[48;5;179m t\u001b[48;5;185miktoken\u001b[48;5;77m\n", + "\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mc\u001b[48;5;134mla\u001b[48;5;167mss\u001b[48;5;179m SimpleBytePairEncoding\u001b[48;5;185m:\u001b[48;5;77m\n", + " \u001b[48;5;80m def\u001b[48;5;68m \u001b[48;5;134m__\u001b[48;5;167min\u001b[48;5;179mit\u001b[48;5;185m__\u001b[48;5;77m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' ' + b'stats'\n", + "So we made b' stats' our 585th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mhis\u001b[48;5;77m is\u001b[48;5;80m an\u001b[48;5;68m \u001b[48;5;134med\u001b[48;5;167mu\u001b[48;5;179mc\u001b[48;5;185mat\u001b[48;5;77mional\u001b[48;5;80m imp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167ment\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77m of\u001b[48;5;80m the\u001b[48;5;68m byte\u001b[48;5;134m pair\u001b[48;5;167m encoding\u001b[48;5;179m al\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mith\u001b[48;5;68mm\u001b[48;5;134m.\u001b[48;5;167m\"\"\"\u001b[48;5;179m\n", + "\u001b[48;5;185mfrom\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68mf\u001b[48;5;134mut\u001b[48;5;167mu\u001b[48;5;179mre\u001b[48;5;185m__\u001b[48;5;77m imp\u001b[48;5;80mort\u001b[48;5;68m an\u001b[48;5;134mn\u001b[48;5;167mot\u001b[48;5;179mat\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mlect\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80mimport\u001b[48;5;68m itertools\u001b[48;5;134m\n", + "\u001b[48;5;167mfrom\u001b[48;5;179m t\u001b[48;5;185my\u001b[48;5;77mp\u001b[48;5;80ming\u001b[48;5;68m imp\u001b[48;5;134mort\u001b[48;5;167m Optional\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m regex\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimport\u001b[48;5;179m t\u001b[48;5;185miktoken\u001b[48;5;77m\n", + "\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mc\u001b[48;5;134mla\u001b[48;5;167mss\u001b[48;5;179m SimpleBytePairEncoding\u001b[48;5;185m:\u001b[48;5;77m\n", + " \u001b[48;5;80m def\u001b[48;5;68m \u001b[48;5;134m__\u001b[48;5;167min\u001b[48;5;179mit\u001b[48;5;185m__\u001b[48;5;77m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'i' + b'e'\n", + "So we made b'ie' our 586th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mhis\u001b[48;5;77m is\u001b[48;5;80m an\u001b[48;5;68m \u001b[48;5;134med\u001b[48;5;167mu\u001b[48;5;179mc\u001b[48;5;185mat\u001b[48;5;77mional\u001b[48;5;80m imp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167ment\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77m of\u001b[48;5;80m the\u001b[48;5;68m byte\u001b[48;5;134m pair\u001b[48;5;167m encoding\u001b[48;5;179m al\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mith\u001b[48;5;68mm\u001b[48;5;134m.\u001b[48;5;167m\"\"\"\u001b[48;5;179m\n", + "\u001b[48;5;185mfrom\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68mf\u001b[48;5;134mut\u001b[48;5;167mu\u001b[48;5;179mre\u001b[48;5;185m__\u001b[48;5;77m imp\u001b[48;5;80mort\u001b[48;5;68m an\u001b[48;5;134mn\u001b[48;5;167mot\u001b[48;5;179mat\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mlect\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80mimport\u001b[48;5;68m itertools\u001b[48;5;134m\n", + "\u001b[48;5;167mfrom\u001b[48;5;179m t\u001b[48;5;185my\u001b[48;5;77mp\u001b[48;5;80ming\u001b[48;5;68m imp\u001b[48;5;134mort\u001b[48;5;167m Optional\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m regex\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimport\u001b[48;5;179m t\u001b[48;5;185miktoken\u001b[48;5;77m\n", + "\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mc\u001b[48;5;134mla\u001b[48;5;167mss\u001b[48;5;179m SimpleBytePairEncoding\u001b[48;5;185m:\u001b[48;5;77m\n", + " \u001b[48;5;80m def\u001b[48;5;68m \u001b[48;5;134m__\u001b[48;5;167min\u001b[48;5;179mit\u001b[48;5;185m__\u001b[48;5;77m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'ie' + b'ce'\n", + "So we made b'iece' our 587th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mhis\u001b[48;5;77m is\u001b[48;5;80m an\u001b[48;5;68m \u001b[48;5;134med\u001b[48;5;167mu\u001b[48;5;179mc\u001b[48;5;185mat\u001b[48;5;77mional\u001b[48;5;80m imp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167ment\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77m of\u001b[48;5;80m the\u001b[48;5;68m byte\u001b[48;5;134m pair\u001b[48;5;167m encoding\u001b[48;5;179m al\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mith\u001b[48;5;68mm\u001b[48;5;134m.\u001b[48;5;167m\"\"\"\u001b[48;5;179m\n", + "\u001b[48;5;185mfrom\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68mf\u001b[48;5;134mut\u001b[48;5;167mu\u001b[48;5;179mre\u001b[48;5;185m__\u001b[48;5;77m imp\u001b[48;5;80mort\u001b[48;5;68m an\u001b[48;5;134mn\u001b[48;5;167mot\u001b[48;5;179mat\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mlect\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80mimport\u001b[48;5;68m itertools\u001b[48;5;134m\n", + "\u001b[48;5;167mfrom\u001b[48;5;179m t\u001b[48;5;185my\u001b[48;5;77mp\u001b[48;5;80ming\u001b[48;5;68m imp\u001b[48;5;134mort\u001b[48;5;167m Optional\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m regex\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimport\u001b[48;5;179m t\u001b[48;5;185miktoken\u001b[48;5;77m\n", + "\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mc\u001b[48;5;134mla\u001b[48;5;167mss\u001b[48;5;179m SimpleBytePairEncoding\u001b[48;5;185m:\u001b[48;5;77m\n", + " \u001b[48;5;80m def\u001b[48;5;68m \u001b[48;5;134m__\u001b[48;5;167min\u001b[48;5;179mit\u001b[48;5;185m__\u001b[48;5;77m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' +' + b'='\n", + "So we made b' +=' our 588th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mhis\u001b[48;5;77m is\u001b[48;5;80m an\u001b[48;5;68m \u001b[48;5;134med\u001b[48;5;167mu\u001b[48;5;179mc\u001b[48;5;185mat\u001b[48;5;77mional\u001b[48;5;80m imp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167ment\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77m of\u001b[48;5;80m the\u001b[48;5;68m byte\u001b[48;5;134m pair\u001b[48;5;167m encoding\u001b[48;5;179m al\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mith\u001b[48;5;68mm\u001b[48;5;134m.\u001b[48;5;167m\"\"\"\u001b[48;5;179m\n", + "\u001b[48;5;185mfrom\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68mf\u001b[48;5;134mut\u001b[48;5;167mu\u001b[48;5;179mre\u001b[48;5;185m__\u001b[48;5;77m imp\u001b[48;5;80mort\u001b[48;5;68m an\u001b[48;5;134mn\u001b[48;5;167mot\u001b[48;5;179mat\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mlect\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80mimport\u001b[48;5;68m itertools\u001b[48;5;134m\n", + "\u001b[48;5;167mfrom\u001b[48;5;179m t\u001b[48;5;185my\u001b[48;5;77mp\u001b[48;5;80ming\u001b[48;5;68m imp\u001b[48;5;134mort\u001b[48;5;167m Optional\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m regex\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimport\u001b[48;5;179m t\u001b[48;5;185miktoken\u001b[48;5;77m\n", + "\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mc\u001b[48;5;134mla\u001b[48;5;167mss\u001b[48;5;179m SimpleBytePairEncoding\u001b[48;5;185m:\u001b[48;5;77m\n", + " \u001b[48;5;80m def\u001b[48;5;68m \u001b[48;5;134m__\u001b[48;5;167min\u001b[48;5;179mit\u001b[48;5;185m__\u001b[48;5;77m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' train' + b'ing'\n", + "So we made b' training' our 589th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mhis\u001b[48;5;77m is\u001b[48;5;80m an\u001b[48;5;68m \u001b[48;5;134med\u001b[48;5;167mu\u001b[48;5;179mc\u001b[48;5;185mat\u001b[48;5;77mional\u001b[48;5;80m imp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167ment\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77m of\u001b[48;5;80m the\u001b[48;5;68m byte\u001b[48;5;134m pair\u001b[48;5;167m encoding\u001b[48;5;179m al\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mith\u001b[48;5;68mm\u001b[48;5;134m.\u001b[48;5;167m\"\"\"\u001b[48;5;179m\n", + "\u001b[48;5;185mfrom\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68mf\u001b[48;5;134mut\u001b[48;5;167mu\u001b[48;5;179mre\u001b[48;5;185m__\u001b[48;5;77m imp\u001b[48;5;80mort\u001b[48;5;68m an\u001b[48;5;134mn\u001b[48;5;167mot\u001b[48;5;179mat\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mlect\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80mimport\u001b[48;5;68m itertools\u001b[48;5;134m\n", + "\u001b[48;5;167mfrom\u001b[48;5;179m t\u001b[48;5;185my\u001b[48;5;77mp\u001b[48;5;80ming\u001b[48;5;68m imp\u001b[48;5;134mort\u001b[48;5;167m Optional\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m regex\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimport\u001b[48;5;179m t\u001b[48;5;185miktoken\u001b[48;5;77m\n", + "\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mc\u001b[48;5;134mla\u001b[48;5;167mss\u001b[48;5;179m SimpleBytePairEncoding\u001b[48;5;185m:\u001b[48;5;77m\n", + " \u001b[48;5;80m def\u001b[48;5;68m \u001b[48;5;134m__\u001b[48;5;167min\u001b[48;5;179mit\u001b[48;5;185m__\u001b[48;5;77m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'word' + b's'\n", + "So we made b'words' our 590th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mhis\u001b[48;5;77m is\u001b[48;5;80m an\u001b[48;5;68m \u001b[48;5;134med\u001b[48;5;167mu\u001b[48;5;179mc\u001b[48;5;185mat\u001b[48;5;77mional\u001b[48;5;80m imp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167ment\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77m of\u001b[48;5;80m the\u001b[48;5;68m byte\u001b[48;5;134m pair\u001b[48;5;167m encoding\u001b[48;5;179m al\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mith\u001b[48;5;68mm\u001b[48;5;134m.\u001b[48;5;167m\"\"\"\u001b[48;5;179m\n", + "\u001b[48;5;185mfrom\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68mf\u001b[48;5;134mut\u001b[48;5;167mu\u001b[48;5;179mre\u001b[48;5;185m__\u001b[48;5;77m imp\u001b[48;5;80mort\u001b[48;5;68m an\u001b[48;5;134mn\u001b[48;5;167mot\u001b[48;5;179mat\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mlect\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80mimport\u001b[48;5;68m itertools\u001b[48;5;134m\n", + "\u001b[48;5;167mfrom\u001b[48;5;179m t\u001b[48;5;185my\u001b[48;5;77mp\u001b[48;5;80ming\u001b[48;5;68m imp\u001b[48;5;134mort\u001b[48;5;167m Optional\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m regex\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimport\u001b[48;5;179m t\u001b[48;5;185miktoken\u001b[48;5;77m\n", + "\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mc\u001b[48;5;134mla\u001b[48;5;167mss\u001b[48;5;179m SimpleBytePairEncoding\u001b[48;5;185m:\u001b[48;5;77m\n", + " \u001b[48;5;80m def\u001b[48;5;68m \u001b[48;5;134m__\u001b[48;5;167min\u001b[48;5;179mit\u001b[48;5;185m__\u001b[48;5;77m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'un' + b'd'\n", + "So we made b'und' our 591th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mhis\u001b[48;5;77m is\u001b[48;5;80m an\u001b[48;5;68m \u001b[48;5;134med\u001b[48;5;167mu\u001b[48;5;179mc\u001b[48;5;185mat\u001b[48;5;77mional\u001b[48;5;80m imp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167ment\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77m of\u001b[48;5;80m the\u001b[48;5;68m byte\u001b[48;5;134m pair\u001b[48;5;167m encoding\u001b[48;5;179m al\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mith\u001b[48;5;68mm\u001b[48;5;134m.\u001b[48;5;167m\"\"\"\u001b[48;5;179m\n", + "\u001b[48;5;185mfrom\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68mf\u001b[48;5;134mut\u001b[48;5;167mu\u001b[48;5;179mre\u001b[48;5;185m__\u001b[48;5;77m imp\u001b[48;5;80mort\u001b[48;5;68m an\u001b[48;5;134mn\u001b[48;5;167mot\u001b[48;5;179mat\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mlect\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80mimport\u001b[48;5;68m itertools\u001b[48;5;134m\n", + "\u001b[48;5;167mfrom\u001b[48;5;179m t\u001b[48;5;185my\u001b[48;5;77mp\u001b[48;5;80ming\u001b[48;5;68m imp\u001b[48;5;134mort\u001b[48;5;167m Optional\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m regex\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimport\u001b[48;5;179m t\u001b[48;5;185miktoken\u001b[48;5;77m\n", + "\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mc\u001b[48;5;134mla\u001b[48;5;167mss\u001b[48;5;179m SimpleBytePairEncoding\u001b[48;5;185m:\u001b[48;5;77m\n", + " \u001b[48;5;80m def\u001b[48;5;68m \u001b[48;5;134m__\u001b[48;5;167min\u001b[48;5;179mit\u001b[48;5;185m__\u001b[48;5;77m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b':' + b'\")'\n", + "So we made b':\")' our 592th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mhis\u001b[48;5;77m is\u001b[48;5;80m an\u001b[48;5;68m \u001b[48;5;134med\u001b[48;5;167mu\u001b[48;5;179mc\u001b[48;5;185mat\u001b[48;5;77mional\u001b[48;5;80m imp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167ment\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77m of\u001b[48;5;80m the\u001b[48;5;68m byte\u001b[48;5;134m pair\u001b[48;5;167m encoding\u001b[48;5;179m al\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mith\u001b[48;5;68mm\u001b[48;5;134m.\u001b[48;5;167m\"\"\"\u001b[48;5;179m\n", + "\u001b[48;5;185mfrom\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68mf\u001b[48;5;134mut\u001b[48;5;167mu\u001b[48;5;179mre\u001b[48;5;185m__\u001b[48;5;77m imp\u001b[48;5;80mort\u001b[48;5;68m an\u001b[48;5;134mn\u001b[48;5;167mot\u001b[48;5;179mat\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mlect\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80mimport\u001b[48;5;68m itertools\u001b[48;5;134m\n", + "\u001b[48;5;167mfrom\u001b[48;5;179m t\u001b[48;5;185my\u001b[48;5;77mp\u001b[48;5;80ming\u001b[48;5;68m imp\u001b[48;5;134mort\u001b[48;5;167m Optional\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m regex\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimport\u001b[48;5;179m t\u001b[48;5;185miktoken\u001b[48;5;77m\n", + "\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mc\u001b[48;5;134mla\u001b[48;5;167mss\u001b[48;5;179m SimpleBytePairEncoding\u001b[48;5;185m:\u001b[48;5;77m\n", + " \u001b[48;5;80m def\u001b[48;5;68m \u001b[48;5;134m__\u001b[48;5;167min\u001b[48;5;179mit\u001b[48;5;185m__\u001b[48;5;77m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'0' + b'0'\n", + "So we made b'00' our 593th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mhis\u001b[48;5;77m is\u001b[48;5;80m an\u001b[48;5;68m \u001b[48;5;134med\u001b[48;5;167mu\u001b[48;5;179mc\u001b[48;5;185mat\u001b[48;5;77mional\u001b[48;5;80m imp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167ment\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77m of\u001b[48;5;80m the\u001b[48;5;68m byte\u001b[48;5;134m pair\u001b[48;5;167m encoding\u001b[48;5;179m al\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mith\u001b[48;5;68mm\u001b[48;5;134m.\u001b[48;5;167m\"\"\"\u001b[48;5;179m\n", + "\u001b[48;5;185mfrom\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68mf\u001b[48;5;134mut\u001b[48;5;167mu\u001b[48;5;179mre\u001b[48;5;185m__\u001b[48;5;77m imp\u001b[48;5;80mort\u001b[48;5;68m an\u001b[48;5;134mn\u001b[48;5;167mot\u001b[48;5;179mat\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mlect\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80mimport\u001b[48;5;68m itertools\u001b[48;5;134m\n", + "\u001b[48;5;167mfrom\u001b[48;5;179m t\u001b[48;5;185my\u001b[48;5;77mp\u001b[48;5;80ming\u001b[48;5;68m imp\u001b[48;5;134mort\u001b[48;5;167m Optional\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m regex\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimport\u001b[48;5;179m t\u001b[48;5;185miktoken\u001b[48;5;77m\n", + "\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mc\u001b[48;5;134mla\u001b[48;5;167mss\u001b[48;5;179m SimpleBytePairEncoding\u001b[48;5;185m:\u001b[48;5;77m\n", + " \u001b[48;5;80m def\u001b[48;5;68m \u001b[48;5;134m__\u001b[48;5;167min\u001b[48;5;179mit\u001b[48;5;185m__\u001b[48;5;77m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' ' + b'?'\n", + "So we made b' ?' our 594th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mhis\u001b[48;5;77m is\u001b[48;5;80m an\u001b[48;5;68m \u001b[48;5;134med\u001b[48;5;167mu\u001b[48;5;179mc\u001b[48;5;185mat\u001b[48;5;77mional\u001b[48;5;80m imp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167ment\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77m of\u001b[48;5;80m the\u001b[48;5;68m byte\u001b[48;5;134m pair\u001b[48;5;167m encoding\u001b[48;5;179m al\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mith\u001b[48;5;68mm\u001b[48;5;134m.\u001b[48;5;167m\"\"\"\u001b[48;5;179m\n", + "\u001b[48;5;185mfrom\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68mf\u001b[48;5;134mut\u001b[48;5;167mu\u001b[48;5;179mre\u001b[48;5;185m__\u001b[48;5;77m imp\u001b[48;5;80mort\u001b[48;5;68m an\u001b[48;5;134mn\u001b[48;5;167mot\u001b[48;5;179mat\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mlect\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80mimport\u001b[48;5;68m itertools\u001b[48;5;134m\n", + "\u001b[48;5;167mfrom\u001b[48;5;179m t\u001b[48;5;185my\u001b[48;5;77mp\u001b[48;5;80ming\u001b[48;5;68m imp\u001b[48;5;134mort\u001b[48;5;167m Optional\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m regex\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimport\u001b[48;5;179m t\u001b[48;5;185miktoken\u001b[48;5;77m\n", + "\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mc\u001b[48;5;134mla\u001b[48;5;167mss\u001b[48;5;179m SimpleBytePairEncoding\u001b[48;5;185m:\u001b[48;5;77m\n", + " \u001b[48;5;80m def\u001b[48;5;68m \u001b[48;5;134m__\u001b[48;5;167min\u001b[48;5;179mit\u001b[48;5;185m__\u001b[48;5;77m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b' ?' + b'['\n", + "So we made b' ?[' our 595th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mhis\u001b[48;5;77m is\u001b[48;5;80m an\u001b[48;5;68m \u001b[48;5;134med\u001b[48;5;167mu\u001b[48;5;179mc\u001b[48;5;185mat\u001b[48;5;77mional\u001b[48;5;80m imp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167ment\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77m of\u001b[48;5;80m the\u001b[48;5;68m byte\u001b[48;5;134m pair\u001b[48;5;167m encoding\u001b[48;5;179m al\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mith\u001b[48;5;68mm\u001b[48;5;134m.\u001b[48;5;167m\"\"\"\u001b[48;5;179m\n", + "\u001b[48;5;185mfrom\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68mf\u001b[48;5;134mut\u001b[48;5;167mu\u001b[48;5;179mre\u001b[48;5;185m__\u001b[48;5;77m imp\u001b[48;5;80mort\u001b[48;5;68m an\u001b[48;5;134mn\u001b[48;5;167mot\u001b[48;5;179mat\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mlect\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80mimport\u001b[48;5;68m itertools\u001b[48;5;134m\n", + "\u001b[48;5;167mfrom\u001b[48;5;179m t\u001b[48;5;185my\u001b[48;5;77mp\u001b[48;5;80ming\u001b[48;5;68m imp\u001b[48;5;134mort\u001b[48;5;167m Optional\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m regex\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimport\u001b[48;5;179m t\u001b[48;5;185miktoken\u001b[48;5;77m\n", + "\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mc\u001b[48;5;134mla\u001b[48;5;167mss\u001b[48;5;179m SimpleBytePairEncoding\u001b[48;5;185m:\u001b[48;5;77m\n", + " \u001b[48;5;80m def\u001b[48;5;68m \u001b[48;5;134m__\u001b[48;5;167min\u001b[48;5;179mit\u001b[48;5;185m__\u001b[48;5;77m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'}' + b']'\n", + "So we made b'}]' our 596th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mhis\u001b[48;5;77m is\u001b[48;5;80m an\u001b[48;5;68m \u001b[48;5;134med\u001b[48;5;167mu\u001b[48;5;179mc\u001b[48;5;185mat\u001b[48;5;77mional\u001b[48;5;80m imp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167ment\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77m of\u001b[48;5;80m the\u001b[48;5;68m byte\u001b[48;5;134m pair\u001b[48;5;167m encoding\u001b[48;5;179m al\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mith\u001b[48;5;68mm\u001b[48;5;134m.\u001b[48;5;167m\"\"\"\u001b[48;5;179m\n", + "\u001b[48;5;185mfrom\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68mf\u001b[48;5;134mut\u001b[48;5;167mu\u001b[48;5;179mre\u001b[48;5;185m__\u001b[48;5;77m imp\u001b[48;5;80mort\u001b[48;5;68m an\u001b[48;5;134mn\u001b[48;5;167mot\u001b[48;5;179mat\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mlect\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80mimport\u001b[48;5;68m itertools\u001b[48;5;134m\n", + "\u001b[48;5;167mfrom\u001b[48;5;179m t\u001b[48;5;185my\u001b[48;5;77mp\u001b[48;5;80ming\u001b[48;5;68m imp\u001b[48;5;134mort\u001b[48;5;167m Optional\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m regex\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimport\u001b[48;5;179m t\u001b[48;5;185miktoken\u001b[48;5;77m\n", + "\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mc\u001b[48;5;134mla\u001b[48;5;167mss\u001b[48;5;179m SimpleBytePairEncoding\u001b[48;5;185m:\u001b[48;5;77m\n", + " \u001b[48;5;80m def\u001b[48;5;68m \u001b[48;5;134m__\u001b[48;5;167min\u001b[48;5;179mit\u001b[48;5;185m__\u001b[48;5;77m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'}]' + b'+'\n", + "So we made b'}]+' our 597th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mhis\u001b[48;5;77m is\u001b[48;5;80m an\u001b[48;5;68m \u001b[48;5;134med\u001b[48;5;167mu\u001b[48;5;179mc\u001b[48;5;185mat\u001b[48;5;77mional\u001b[48;5;80m imp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167ment\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77m of\u001b[48;5;80m the\u001b[48;5;68m byte\u001b[48;5;134m pair\u001b[48;5;167m encoding\u001b[48;5;179m al\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mith\u001b[48;5;68mm\u001b[48;5;134m.\u001b[48;5;167m\"\"\"\u001b[48;5;179m\n", + "\u001b[48;5;185mfrom\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68mf\u001b[48;5;134mut\u001b[48;5;167mu\u001b[48;5;179mre\u001b[48;5;185m__\u001b[48;5;77m imp\u001b[48;5;80mort\u001b[48;5;68m an\u001b[48;5;134mn\u001b[48;5;167mot\u001b[48;5;179mat\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mlect\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80mimport\u001b[48;5;68m itertools\u001b[48;5;134m\n", + "\u001b[48;5;167mfrom\u001b[48;5;179m t\u001b[48;5;185my\u001b[48;5;77mp\u001b[48;5;80ming\u001b[48;5;68m imp\u001b[48;5;134mort\u001b[48;5;167m Optional\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m regex\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimport\u001b[48;5;179m t\u001b[48;5;185miktoken\u001b[48;5;77m\n", + "\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mc\u001b[48;5;134mla\u001b[48;5;167mss\u001b[48;5;179m SimpleBytePairEncoding\u001b[48;5;185m:\u001b[48;5;77m\n", + " \u001b[48;5;80m def\u001b[48;5;68m \u001b[48;5;134m__\u001b[48;5;167min\u001b[48;5;179mit\u001b[48;5;185m__\u001b[48;5;77m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'}]+' + b'|'\n", + "So we made b'}]+|' our 598th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mT\u001b[48;5;185mhis\u001b[48;5;77m is\u001b[48;5;80m an\u001b[48;5;68m \u001b[48;5;134med\u001b[48;5;167mu\u001b[48;5;179mc\u001b[48;5;185mat\u001b[48;5;77mional\u001b[48;5;80m imp\u001b[48;5;68mle\u001b[48;5;134mm\u001b[48;5;167ment\u001b[48;5;179mat\u001b[48;5;185mion\u001b[48;5;77m of\u001b[48;5;80m the\u001b[48;5;68m byte\u001b[48;5;134m pair\u001b[48;5;167m encoding\u001b[48;5;179m al\u001b[48;5;185mg\u001b[48;5;77mor\u001b[48;5;80mith\u001b[48;5;68mm\u001b[48;5;134m.\u001b[48;5;167m\"\"\"\u001b[48;5;179m\n", + "\u001b[48;5;185mfrom\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68mf\u001b[48;5;134mut\u001b[48;5;167mu\u001b[48;5;179mre\u001b[48;5;185m__\u001b[48;5;77m imp\u001b[48;5;80mort\u001b[48;5;68m an\u001b[48;5;134mn\u001b[48;5;167mot\u001b[48;5;179mat\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m \u001b[48;5;167mcol\u001b[48;5;179mlect\u001b[48;5;185mions\u001b[48;5;77m\n", + "\u001b[48;5;80mimport\u001b[48;5;68m itertools\u001b[48;5;134m\n", + "\u001b[48;5;167mfrom\u001b[48;5;179m t\u001b[48;5;185my\u001b[48;5;77mp\u001b[48;5;80ming\u001b[48;5;68m imp\u001b[48;5;134mort\u001b[48;5;167m Optional\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m regex\u001b[48;5;68m\n", + "\u001b[48;5;134m\n", + "\u001b[48;5;167mimport\u001b[48;5;179m t\u001b[48;5;185miktoken\u001b[48;5;77m\n", + "\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mc\u001b[48;5;134mla\u001b[48;5;167mss\u001b[48;5;179m SimpleBytePairEncoding\u001b[48;5;185m:\u001b[48;5;77m\n", + " \u001b[48;5;80m def\u001b[48;5;68m \u001b[48;5;134m__\u001b[48;5;167min\u001b[48;5;179mit\u001b[48;5;185m__\u001b[48;5;77m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'T' + b'his'\n", + "So we made b'This' our 599th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mThis\u001b[48;5;185m is\u001b[48;5;77m an\u001b[48;5;80m \u001b[48;5;68med\u001b[48;5;134mu\u001b[48;5;167mc\u001b[48;5;179mat\u001b[48;5;185mional\u001b[48;5;77m imp\u001b[48;5;80mle\u001b[48;5;68mm\u001b[48;5;134ment\u001b[48;5;167mat\u001b[48;5;179mion\u001b[48;5;185m of\u001b[48;5;77m the\u001b[48;5;80m byte\u001b[48;5;68m pair\u001b[48;5;134m encoding\u001b[48;5;167m al\u001b[48;5;179mg\u001b[48;5;185mor\u001b[48;5;77mith\u001b[48;5;80mm\u001b[48;5;68m.\u001b[48;5;134m\"\"\"\u001b[48;5;167m\n", + "\u001b[48;5;179mfrom\u001b[48;5;185m \u001b[48;5;77m__\u001b[48;5;80mf\u001b[48;5;68mut\u001b[48;5;134mu\u001b[48;5;167mre\u001b[48;5;179m__\u001b[48;5;185m imp\u001b[48;5;77mort\u001b[48;5;80m an\u001b[48;5;68mn\u001b[48;5;134mot\u001b[48;5;167mat\u001b[48;5;179mions\u001b[48;5;185m\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mimport\u001b[48;5;68m \u001b[48;5;134mcol\u001b[48;5;167mlect\u001b[48;5;179mions\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m itertools\u001b[48;5;68m\n", + "\u001b[48;5;134mfrom\u001b[48;5;167m t\u001b[48;5;179my\u001b[48;5;185mp\u001b[48;5;77ming\u001b[48;5;80m imp\u001b[48;5;68mort\u001b[48;5;134m Optional\u001b[48;5;167m\n", + "\u001b[48;5;179m\n", + "\u001b[48;5;185mimport\u001b[48;5;77m regex\u001b[48;5;80m\n", + "\u001b[48;5;68m\n", + "\u001b[48;5;134mimport\u001b[48;5;167m t\u001b[48;5;179miktoken\u001b[48;5;185m\n", + "\n", + "\u001b[48;5;77m\n", + "\u001b[48;5;80mc\u001b[48;5;68mla\u001b[48;5;134mss\u001b[48;5;167m SimpleBytePairEncoding\u001b[48;5;179m:\u001b[48;5;185m\n", + " \u001b[48;5;77m def\u001b[48;5;80m \u001b[48;5;68m__\u001b[48;5;134min\u001b[48;5;167mit\u001b[48;5;179m__\u001b[48;5;185m(\u001b[0m\n", + "\n", + "\n", + "The current most common pair is b'm' + b'ent'\n", + "So we made b'ment' our 600th token\n", + "Now the first fifty words in our training data look like:\n", + "\u001b[48;5;167m\"\"\"\u001b[48;5;179mThis\u001b[48;5;185m is\u001b[48;5;77m an\u001b[48;5;80m \u001b[48;5;68med\u001b[48;5;134mu\u001b[48;5;167mc\u001b[48;5;179mat\u001b[48;5;185mional\u001b[48;5;77m imp\u001b[48;5;80mle\u001b[48;5;68mment\u001b[48;5;134mat\u001b[48;5;167mion\u001b[48;5;179m of\u001b[48;5;185m the\u001b[48;5;77m byte\u001b[48;5;80m pair\u001b[48;5;68m encoding\u001b[48;5;134m al\u001b[48;5;167mg\u001b[48;5;179mor\u001b[48;5;185mith\u001b[48;5;77mm\u001b[48;5;80m.\u001b[48;5;68m\"\"\"\u001b[48;5;134m\n", + "\u001b[48;5;167mfrom\u001b[48;5;179m \u001b[48;5;185m__\u001b[48;5;77mf\u001b[48;5;80mut\u001b[48;5;68mu\u001b[48;5;134mre\u001b[48;5;167m__\u001b[48;5;179m imp\u001b[48;5;185mort\u001b[48;5;77m an\u001b[48;5;80mn\u001b[48;5;68mot\u001b[48;5;134mat\u001b[48;5;167mions\u001b[48;5;179m\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mimport\u001b[48;5;80m \u001b[48;5;68mcol\u001b[48;5;134mlect\u001b[48;5;167mions\u001b[48;5;179m\n", + "\u001b[48;5;185mimport\u001b[48;5;77m itertools\u001b[48;5;80m\n", + "\u001b[48;5;68mfrom\u001b[48;5;134m t\u001b[48;5;167my\u001b[48;5;179mp\u001b[48;5;185ming\u001b[48;5;77m imp\u001b[48;5;80mort\u001b[48;5;68m Optional\u001b[48;5;134m\n", + "\u001b[48;5;167m\n", + "\u001b[48;5;179mimport\u001b[48;5;185m regex\u001b[48;5;77m\n", + "\u001b[48;5;80m\n", + "\u001b[48;5;68mimport\u001b[48;5;134m t\u001b[48;5;167miktoken\u001b[48;5;179m\n", + "\n", + "\u001b[48;5;185m\n", + "\u001b[48;5;77mc\u001b[48;5;80mla\u001b[48;5;68mss\u001b[48;5;134m SimpleBytePairEncoding\u001b[48;5;167m:\u001b[48;5;179m\n", + " \u001b[48;5;185m def\u001b[48;5;77m \u001b[48;5;80m__\u001b[48;5;68min\u001b[48;5;134mit\u001b[48;5;167m__\u001b[48;5;179m(\u001b[0m\n", + "\n", + "\n", + "This is the sequence of merges performed in order to encode 'hello world':\n", + "\u001b[48;5;167mh\u001b[48;5;179me\u001b[48;5;185ml\u001b[48;5;77ml\u001b[48;5;80mo\u001b[0m\n", + "\u001b[48;5;167mhe\u001b[48;5;179ml\u001b[48;5;185ml\u001b[48;5;77mo\u001b[0m\n", + "\u001b[48;5;167mhe\u001b[48;5;179ml\u001b[48;5;185mlo\u001b[0m\n", + "\u001b[48;5;167mhe\u001b[48;5;179mllo\u001b[0m\n", + "\u001b[48;5;167mhello\u001b[0m\n", + "\n", + "\u001b[48;5;167m \u001b[48;5;179mw\u001b[48;5;185mo\u001b[48;5;77mr\u001b[48;5;80ml\u001b[48;5;68md\u001b[0m\n", + "\u001b[48;5;167m \u001b[48;5;179mw\u001b[48;5;185mor\u001b[48;5;77ml\u001b[48;5;80md\u001b[0m\n", + "\u001b[48;5;167m w\u001b[48;5;179mor\u001b[48;5;185ml\u001b[48;5;77md\u001b[0m\n", + "\u001b[48;5;167m w\u001b[48;5;179mor\u001b[48;5;185mld\u001b[0m\n", + "\u001b[48;5;167m wor\u001b[48;5;179mld\u001b[0m\n", + "\u001b[48;5;167m world\u001b[0m\n", + "\n" + ] + } + ], + "source": [ + "enc = train_simple_encoding()" + ] + }, + { + "cell_type": "code", + "execution_count": 9, + "id": "d2172397-329f-4939-8e7f-45c520a2b483", + "metadata": {}, + "outputs": [], + "source": [ + "enc = SimpleBytePairEncoding.from_tiktoken('cl100k_base')" + ] + }, + { + "cell_type": "code", + "execution_count": 13, + "id": "75faa5dd-7111-4fe3-9675-b437a403e067", + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "\u001b[48;5;167mh\u001b[48;5;179me\u001b[48;5;185ml\u001b[48;5;77ml\u001b[48;5;80mo\u001b[0m\n", + "\u001b[48;5;167mh\u001b[48;5;179mel\u001b[48;5;185ml\u001b[48;5;77mo\u001b[0m\n", + "\u001b[48;5;167mh\u001b[48;5;179mel\u001b[48;5;185mlo\u001b[0m\n", + "\u001b[48;5;167mh\u001b[48;5;179mello\u001b[0m\n", + "\u001b[48;5;167mhello\u001b[0m\n", + "\n", + "\u001b[48;5;167m \u001b[48;5;179mw\u001b[48;5;185mo\u001b[48;5;77mr\u001b[48;5;80ml\u001b[48;5;68md\u001b[0m\n", + "\u001b[48;5;167m \u001b[48;5;179mw\u001b[48;5;185mor\u001b[48;5;77ml\u001b[48;5;80md\u001b[0m\n", + "\u001b[48;5;167m w\u001b[48;5;179mor\u001b[48;5;185ml\u001b[48;5;77md\u001b[0m\n", + "\u001b[48;5;167m w\u001b[48;5;179mor\u001b[48;5;185mld\u001b[0m\n", + "\u001b[48;5;167m w\u001b[48;5;179morld\u001b[0m\n", + "\u001b[48;5;167m world\u001b[0m\n", + "\n", + "\u001b[48;5;167m \u001b[48;5;179ma\u001b[48;5;185ma\u001b[48;5;77ma\u001b[48;5;80mb\u001b[48;5;68mb\u001b[48;5;134mb\u001b[48;5;167mb\u001b[0m\n", + "\u001b[48;5;167m a\u001b[48;5;179ma\u001b[48;5;185ma\u001b[48;5;77mb\u001b[48;5;80mb\u001b[48;5;68mb\u001b[48;5;134mb\u001b[0m\n", + "\u001b[48;5;167m a\u001b[48;5;179ma\u001b[48;5;185mab\u001b[48;5;77mb\u001b[48;5;80mb\u001b[48;5;68mb\u001b[0m\n", + "\u001b[48;5;167m a\u001b[48;5;179ma\u001b[48;5;185mab\u001b[48;5;77mbb\u001b[48;5;80mb\u001b[0m\n", + "\u001b[48;5;167m aa\u001b[48;5;179mab\u001b[48;5;185mbb\u001b[48;5;77mb\u001b[0m\n", + "\u001b[48;5;167m aa\u001b[48;5;179mab\u001b[48;5;185mbbb\u001b[0m\n", + "\n", + "\u001b[48;5;167m \u001b[48;5;179mm\u001b[48;5;185mo\u001b[48;5;77mv\u001b[48;5;80mi\u001b[48;5;68mn\u001b[48;5;134mg\u001b[0m\n", + "\u001b[48;5;167m \u001b[48;5;179mm\u001b[48;5;185mo\u001b[48;5;77mv\u001b[48;5;80min\u001b[48;5;68mg\u001b[0m\n", + "\u001b[48;5;167m \u001b[48;5;179mm\u001b[48;5;185mo\u001b[48;5;77mv\u001b[48;5;80ming\u001b[0m\n", + "\u001b[48;5;167m m\u001b[48;5;179mo\u001b[48;5;185mv\u001b[48;5;77ming\u001b[0m\n", + "\u001b[48;5;167m m\u001b[48;5;179mov\u001b[48;5;185ming\u001b[0m\n", + "\u001b[48;5;167m mov\u001b[48;5;179ming\u001b[0m\n", + "\u001b[48;5;167m moving\u001b[0m\n", + "\n" + ] + }, + { + "data": { + "text/plain": [ + "[15339, 1917, 30109, 370, 54251, 7366]" + ] + }, + "execution_count": 13, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "enc.encode(\"hello world aaabbbb moving\")" + ] + }, + { + "cell_type": "code", + "execution_count": 15, + "id": "cb270ce0-27cc-496f-8181-e8f45f8c705a", + "metadata": {}, + "outputs": [ + { + "data": { + "text/plain": [ + "[15339, 1917]" + ] + }, + "execution_count": 15, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "import tiktoken\n", + "enc = tiktoken.get_encoding('cl100k_base')\n", + "enc.encode(\"hello world\")" + ] + }, + { + "cell_type": "code", + "execution_count": 16, + "id": "eb1759ca-8adc-4ce2-a12a-ebb7bac7810f", + "metadata": {}, + "outputs": [ + { + "data": { + "text/plain": [ + "100277" + ] + }, + "execution_count": 16, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "enc.n_vocab" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "id": "175094f5-9f81-4b9f-a26b-d23f79fbfa5a", + "metadata": {}, + "outputs": [], + "source": [] + } + ], + "metadata": { + "kernelspec": { + "display_name": "Python 3 (ipykernel)", + "language": "python", + "name": "python3" + }, + "language_info": { + "codemirror_mode": { + "name": "ipython", + "version": 3 + }, + "file_extension": ".py", + "mimetype": "text/x-python", + "name": "python", + "nbconvert_exporter": "python", + "pygments_lexer": "ipython3", + "version": "3.10.6" + } + }, + "nbformat": 4, + "nbformat_minor": 5 +}