crscardellino
/

flisol-cba-martin-fierro

@@ -53,7 +53,7 @@
     "1. [¿Qué hay detrás de ChatGPT?](#¿Qué-hay-detrás-de-ChatGPT?)\n",
     "2. [Hugging Face](#Hugging-Face)\n",
     "3. [Utilizando un modelo de Hugging Face](#Utilizando-un-modelo-de-Hugging-Face)\n",
-    "4. Personalizando un modelo de Hugging Face"
    ]
   },
   {
@@ -244,7 +244,7 @@
   },
   {
    "cell_type": "markdown",
-   "id": "f91311b5",
    "metadata": {
     "slideshow": {
      "slide_type": "subslide"
@@ -262,10 +262,10 @@
   {
    "cell_type": "code",
    "execution_count": null,
-   "id": "d3225616",
    "metadata": {
     "slideshow": {
-     "slide_type": "-"
     }
    },
    "outputs": [],
@@ -287,7 +287,7 @@
   },
   {
    "cell_type": "markdown",
-   "id": "b523bf51",
    "metadata": {
     "slideshow": {
      "slide_type": "subslide"
@@ -308,7 +308,7 @@
   },
   {
    "cell_type": "markdown",
-   "id": "eed5b04f",
    "metadata": {
     "slideshow": {
      "slide_type": "subslide"
@@ -331,7 +331,7 @@
   {
    "cell_type": "code",
    "execution_count": null,
-   "id": "d6f85ea7",
    "metadata": {
     "slideshow": {
      "slide_type": "subslide"
@@ -353,7 +353,7 @@
   },
   {
    "cell_type": "markdown",
-   "id": "fc3a8ded",
    "metadata": {
     "slideshow": {
      "slide_type": "subslide"
@@ -370,7 +370,7 @@
   {
    "cell_type": "code",
    "execution_count": null,
-   "id": "33e984d7",
    "metadata": {
     "slideshow": {
      "slide_type": "fragment"
@@ -388,7 +388,7 @@
   },
   {
    "cell_type": "markdown",
-   "id": "db1bc6cc",
    "metadata": {
     "slideshow": {
      "slide_type": "subslide"
@@ -407,7 +407,7 @@
   {
    "cell_type": "code",
    "execution_count": null,
-   "id": "bf547d6a",
    "metadata": {
     "slideshow": {
      "slide_type": "fragment"
@@ -431,7 +431,7 @@
   },
   {
    "cell_type": "markdown",
-   "id": "50d2c808",
    "metadata": {
     "slideshow": {
      "slide_type": "subslide"
@@ -453,7 +453,7 @@
   {
    "cell_type": "code",
    "execution_count": null,
-   "id": "cff18d7f",
    "metadata": {
     "slideshow": {
      "slide_type": "subslide"
@@ -461,7 +461,7 @@
    },
    "outputs": [],
    "source": [
-    "from chatbot import ChatBot\n",
     "\n",
     "PROMPT = \"\"\"\n",
     "La siguiente es una conversación entre un HUMANO y un bot EXPERTO en software libre.\n",
@@ -488,6 +488,435 @@
     "        break\n",
     "    print(chatbot.chat(input_text))"
    ]
   }
  ],
  "metadata": {

     "1. [¿Qué hay detrás de ChatGPT?](#¿Qué-hay-detrás-de-ChatGPT?)\n",
     "2. [Hugging Face](#Hugging-Face)\n",
     "3. [Utilizando un modelo de Hugging Face](#Utilizando-un-modelo-de-Hugging-Face)\n",
+    "4. [Personalizando un modelo de Hugging Face](#Personalizando-un-modelo-de-Hugging-Face)"
    ]
   },
   {
   },
   {
    "cell_type": "markdown",
+   "id": "d06c7318",
    "metadata": {
     "slideshow": {
      "slide_type": "subslide"
   {
    "cell_type": "code",
    "execution_count": null,
+   "id": "0e0d53be",
    "metadata": {
     "slideshow": {
+     "slide_type": "fragment"
     }
    },
    "outputs": [],
   },
   {
    "cell_type": "markdown",
+   "id": "022de9b5",
    "metadata": {
     "slideshow": {
      "slide_type": "subslide"
   },
   {
    "cell_type": "markdown",
+   "id": "6e6b4464",
    "metadata": {
     "slideshow": {
      "slide_type": "subslide"
   {
    "cell_type": "code",
    "execution_count": null,
+   "id": "c1227c49",
    "metadata": {
     "slideshow": {
      "slide_type": "subslide"
   },
   {
    "cell_type": "markdown",
+   "id": "82988db2",
    "metadata": {
     "slideshow": {
      "slide_type": "subslide"
   {
    "cell_type": "code",
    "execution_count": null,
+   "id": "11bec6de",
    "metadata": {
     "slideshow": {
      "slide_type": "fragment"
   },
   {
    "cell_type": "markdown",
+   "id": "ba05a269",
    "metadata": {
     "slideshow": {
      "slide_type": "subslide"
   {
    "cell_type": "code",
    "execution_count": null,
+   "id": "dc66f288",
    "metadata": {
     "slideshow": {
      "slide_type": "fragment"
   },
   {
    "cell_type": "markdown",
+   "id": "98bdd38e",
    "metadata": {
     "slideshow": {
      "slide_type": "subslide"
   {
    "cell_type": "code",
    "execution_count": null,
+   "id": "a3e12232",
    "metadata": {
     "slideshow": {
      "slide_type": "subslide"
    },
    "outputs": [],
    "source": [
+    "from chatbot import ChatBot  # local  module in the repository\n",
     "\n",
     "PROMPT = \"\"\"\n",
     "La siguiente es una conversación entre un HUMANO y un bot EXPERTO en software libre.\n",
     "        break\n",
     "    print(chatbot.chat(input_text))"
    ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "6e570fc3",
+   "metadata": {
+    "slideshow": {
+     "slide_type": "slide"
+    }
+   },
+   "source": [
+    "# Personalizando un modelo de Hugging Face"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "adb09645",
+   "metadata": {
+    "slideshow": {
+     "slide_type": "subslide"
+    }
+   },
+   "source": [
+    "## ¿Cómo se entrenan los LLMs?\n",
+    "\n",
+    "- Para entrenar LLMs se requiere de muchos datos y mucho cómputo.\n",
+    "- El modelo de GPT-3 se estima que tuvo un costo de entrenamiento cercano a los U$D4.6 Millones\n",
+    "    - Requirió de varias semanas de entrenamiento\n",
+    "        - El corpus reportado es de aproximadamente 500 mil millones (billions) de palabras.\n",
+    "    - Varios GPUS para entrenarlo y hardware especializado\n",
+    "        - No son modelos que entren en la memoria de una sola GPU."
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "16a26206",
+   "metadata": {
+    "slideshow": {
+     "slide_type": "fragment"
+    }
+   },
+   "source": [
+    "### ¿Y entonces qué puedo hacer?\n",
+    "\n",
+    "- Una ventaja de los LLMs es que el entrenamiento es sobre texto libre, pero se puede **especializar**.\n",
+    "- Uno puede entrenar modelos para diversas tareas especializados en corpus más chico.\n",
+    "- El hecho de que no sea \"desde cero\" ayuda a evitar sobreajuste (overfit) y tiene buen desempeño.\n",
+    "- El procedimiento de **especialización** se conoce como **fine-tuning**."
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "649e2ef4",
+   "metadata": {
+    "slideshow": {
+     "slide_type": "subslide"
+    }
+   },
+   "source": [
+    "## ¿Cómo personalizar un modelo de Hugging Face?\n",
+    "\n",
+    "- Se inicia por algún modelo pre-entrenado para la tarea específica que uno busca (e.g. clasificación, generación, etc).\n",
+    "- Se toma un corpus especializado (anotado, revisado, etc.) y se entrena utilizando dicho corpus.\n",
+    "- Intentaremos [entrenar que un modelo genere texto](https://github.com/huggingface/notebooks/blob/main/examples/language_modeling.ipynb) con el estilo del **Martín Fierro**.\n",
+    "- Para hacerlo menos pesado, utilizaremos un modelo más chico `DeepESP/gpt2-spanish` como base.\n"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "17f2884d",
+   "metadata": {
+    "slideshow": {
+     "slide_type": "fragment"
+    }
+   },
+   "outputs": [],
+   "source": [
+    "import torch\n",
+    "from transformers import AutoModelForCausalLM, AutoTokenizer\n",
+    "\n",
+    "BASE_MODEL = \"DeepESP/gpt2-spanish\"  # We play with a smaller model\n",
+    "tokenizer = AutoTokenizer.from_pretrained(BASE_MODEL)\n",
+    "model = AutoModelForCausalLM.from_pretrained(BASE_MODEL)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "16690597",
+   "metadata": {
+    "slideshow": {
+     "slide_type": "subslide"
+    }
+   },
+   "source": [
+    "### Probando el Modelo Base\n",
+    "\n",
+    "- Antes de ajustar el modelo vemos cómo se desenvuelve si le damos como entrada el primer verso del \"Martín Fierro\"."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "322a4a9b",
+   "metadata": {
+    "slideshow": {
+     "slide_type": "fragment"
+    }
+   },
+   "outputs": [],
+   "source": [
+    "torch.manual_seed(42)  # To ensure determinism\n",
+    "\n",
+    "input_ids = tokenizer.encode(\"Aquí me pongo a cantar\", return_tensors='pt')\n",
+    "sampling_output = model.generate(input_ids, do_sample=True, max_length=50, top_k=50, top_p=0.95)\n",
+    "output = tokenizer.decode(sampling_output[0], skip_special_tokens=True)\n",
+    "\n",
+    "print(output)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "ec722e81",
+   "metadata": {
+    "slideshow": {
+     "slide_type": "subslide"
+    }
+   },
+   "source": [
+    "### Cargando el Dataset\n",
+    "\n",
+    "- Utilizamos la librería [datasets](https://huggingface.co/docs/datasets/index) de Hugging Face para cargar el corpus.\n",
+    "- En el directorio [`./data`] tenemos dos archivos: [`martin-fierro_train.txt`](./data/martin-fierro_train.txt) y [`martin-fierro_validation.txt`](./data/martin-fierro_validation.txt).\n",
+    "    - El archivo de entrenamiento es sobre las 12 primeras partes.\n",
+    "    - El archivo de validación es sobre la última parte."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "5a27197e",
+   "metadata": {
+    "slideshow": {
+     "slide_type": "fragment"
+    }
+   },
+   "outputs": [],
+   "source": [
+    "from datasets import load_dataset\n",
+    "\n",
+    "datasets = load_dataset(\"text\", data_files={\"train\": './data/martin-fierro_train.txt',\n",
+    "                                            \"validation\": './data/martin-fierro_validation.txt'})\n",
+    "print('\\n'.join(datasets[\"train\"][:9]['text']))"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "9504707f",
+   "metadata": {
+    "slideshow": {
+     "slide_type": "subslide"
+    }
+   },
+   "source": [
+    "### Tokenizando los datos\n",
+    "\n",
+    "- La función auxiliar `tokenize` del módulo [`utils`](./utils.py) sirve para tokenizar y codificar el conjunto de datos de manera eficiente mediante el [método `map`](https://huggingface.co/docs/datasets/about_map_batch).\n",
+    "- Lo que devuelve es un nuevo dataset cuyos tokens están convertidos en índices del vocabulario y [máscaras de atención](https://huggingface.co/docs/transformers/glossary#attention-mask)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "33059c5f",
+   "metadata": {
+    "scrolled": true,
+    "slideshow": {
+     "slide_type": "fragment"
+    }
+   },
+   "outputs": [],
+   "source": [
+    "from utils import tokenize  # local module in the repository\n",
+    "\n",
+    "tokenized_datasets = datasets.map(tokenize(tokenizer), batched=True, num_proc=4, remove_columns=[\"text\"])"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "81d67b22",
+   "metadata": {
+    "slideshow": {
+     "slide_type": "subslide"
+    }
+   },
+   "source": [
+    "### Agrupando los textos\n",
+    "\n",
+    "- Para entrenar de manera más eficiente es común utilizar lo que se conoce como **mini-batch gradient descent**.\n",
+    "- La idea es tomar los textos de a bloques de un valor máximo.\n",
+    "    - El valor máximo estará limitado por la memoria de la unidad de procesamiento (e.g. GPU).\n",
+    "- Utilizamos la función auxiliar `group_texts` del módulo [`utils`](./utils.py).\n",
+    "    - La función además establece las etiquetas que utilizará Hugging Face para entrenar.\n",
+    "    - En este caso las etiquetas son las mismas palabras, porque busca predecir la palabra siguiente."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "3100e195",
+   "metadata": {
+    "scrolled": true,
+    "slideshow": {
+     "slide_type": "fragment"
+    }
+   },
+   "outputs": [],
+   "source": [
+    "from functools import partial\n",
+    "from utils import group_texts  # local module in the repository\n",
+    "\n",
+    "lm_datasets = tokenized_datasets.map(\n",
+    "    partial(group_texts, block_size=128),\n",
+    "    batched=True,\n",
+    "    batch_size=1024,\n",
+    "    num_proc=4,\n",
+    ")"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "d64a23ec",
+   "metadata": {
+    "slideshow": {
+     "slide_type": "subslide"
+    }
+   },
+   "source": [
+    "### Decodificando\n",
+    "\n",
+    "- Podemos ver que los textos pasan a estar agrupados en bloques de 128 tokens.\n",
+    "- Además, vemos que el texto fue reemplazado por números (índices en el vocabulario).\n",
+    "- Por último, si decodificamos estos números, obtenemos el texto original."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "b9d33b7b",
+   "metadata": {
+    "slideshow": {
+     "slide_type": "fragment"
+    }
+   },
+   "outputs": [],
+   "source": [
+    "print(len(lm_datasets['train'][0]['input_ids']))\n",
+    "print(lm_datasets['train'][0]['input_ids'][:10])"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "7dfb316d",
+   "metadata": {
+    "scrolled": false,
+    "slideshow": {
+     "slide_type": "fragment"
+    }
+   },
+   "outputs": [],
+   "source": [
+    "print(tokenizer.decode(lm_datasets[\"train\"][0][\"input_ids\"]))"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "d7e2032f",
+   "metadata": {
+    "slideshow": {
+     "slide_type": "subslide"
+    }
+   },
+   "source": [
+    "### Compartir Modelo en Hugging Face\n",
+    "\n",
+    "- Una opción a la hora de entrenar un modelo es subirlo a Hugging Face para compartirlo con la comunidad.\n",
+    "- Para eso, una vez que tengan la cuenta de Hugging Face, y creado el modelo, hay que hacer login mediante un [token](https://huggingface.co/settings/tokens)."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "a8b90ba2",
+   "metadata": {
+    "slideshow": {
+     "slide_type": "fragment"
+    }
+   },
+   "outputs": [],
+   "source": [
+    "from huggingface_hub import notebook_login\n",
+    "\n",
+    "notebook_login()"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "a6b775d3",
+   "metadata": {
+    "slideshow": {
+     "slide_type": "subslide"
+    }
+   },
+   "source": [
+    "### Entrenamiento\n",
+    "\n",
+    "- Una vez definido el conjunto de datos, pasamos a la parte más intensa computacionalmente, el entrenamiento.\n",
+    "- Podemos decidir guardar el modelo localmente o hacer un backup de cada época del modelo en Hugging Face.\n",
+    "- Definimos las propiedades del entrenamiento mediante [`TrainingArguments`](https://huggingface.co/docs/transformers/v4.28.1/en/main_classes/trainer#transformers.TrainingArguments).\n",
+    "- Definimos el entrenamiento del modelo mediante [`Trainer`](https://huggingface.co/docs/transformers/v4.28.1/en/main_classes/trainer#transformers.Trainer).\n",
+    "    - El entrenamiento tardará desde unos segundos hasta varios minutos dependiendo el poder de cómputo."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "d43c5555",
+   "metadata": {
+    "slideshow": {
+     "slide_type": "subslide"
+    }
+   },
+   "outputs": [],
+   "source": [
+    "from transformers import Trainer, TrainingArguments\n",
+    "\n",
+    "training_args = TrainingArguments(\n",
+    "    \"flisol-cba-martinfierro\",\n",
+    "    evaluation_strategy=\"epoch\",\n",
+    "    num_train_epochs=15,\n",
+    "    learning_rate=2e-5,\n",
+    "    weight_decay=0.01,\n",
+    "    logging_steps=5\n",
+    ")\n",
+    "\n",
+    "trainer = Trainer(\n",
+    "    model=model,\n",
+    "    args=training_args,\n",
+    "    train_dataset=lm_datasets[\"train\"],\n",
+    "    eval_dataset=lm_datasets[\"validation\"]\n",
+    ")\n",
+    "\n",
+    "trainer.train()\n",
+    "trainer.push_to_hub()  # This pushes the trained model to Hugging Face model repository"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "db2099f4",
+   "metadata": {
+    "slideshow": {
+     "slide_type": "subslide"
+    }
+   },
+   "source": [
+    "### Probando el Nuevo Modelo\n",
+    "\n",
+    "- Ahora que tenemos el modelo entrenado, la pregunta es, ¿Cómo se comportará?\n",
+    "- Para ello volvemos a hacer la prueba anterior, quizás esta vez con mejores resultados.\n",
+    "    - Para evitar tener que entrenar el modelo nuevamente directamente tomo el [modelo compartido en Hugging Face](https://huggingface.co/crscardellino/flisol-cba-martin-fierro)."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "6a35e80f",
+   "metadata": {
+    "slideshow": {
+     "slide_type": "fragment"
+    }
+   },
+   "outputs": [],
+   "source": [
+    "import torch\n",
+    "from transformers import AutoModelForCausalLM, AutoTokenizer\n",
+    "\n",
+    "BASE_MODEL = \"crscardellino/flisol-cba-martin-fierro\"\n",
+    "tokenizer = AutoTokenizer.from_pretrained(BASE_MODEL)\n",
+    "model = AutoModelForCausalLM.from_pretrained(BASE_MODEL)\n",
+    "\n",
+    "torch.manual_seed(42)  # To ensure determinism\n",
+    "\n",
+    "input_ids = tokenizer.encode(\"Aquí me pongo a cantar\", return_tensors='pt')\n",
+    "sampling_output = model.generate(input_ids, do_sample=True, max_length=50, top_k=50, top_p=0.95)\n",
+    "output = tokenizer.decode(sampling_output[0], skip_special_tokens=True)\n",
+    "\n",
+    "print(output)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "f4e33157",
+   "metadata": {
+    "slideshow": {
+     "slide_type": "slide"
+    }
+   },
+   "source": [
+    "# ¡Muchas Gracias!"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "f04a4e4a",
+   "metadata": {
+    "slideshow": {
+     "slide_type": "subslide"
+    }
+   },
+   "source": [
+    "## ¿Preguntas?\n",
+    "\n",
+    "* Twitter: https://twitter.com/crscardellino\n",
+    "* Mastodon: https://mastodon.social/@crscardellino\n",
+    "* LinkedIn: https://www.linkedin.com/in/crscardellino\n",
+    "* Página Personal: https://crscardellino.ar / https://crscardellino.github.io\n",
+    "* GitHub: https://github.com/crscardellino/\n",
+    "* Código y modelo de la presentación: https://huggingface.co/crscardellino/flisol-cba-martin-fierro/"
+   ]
   }
  ],
  "metadata": {