crscardellino
/

flisol-cba-martin-fierro

Text Generation

Generated from Trainer

text-generation-inference

Inference Endpoints

Model card Files Files and versions

crscardellino commited on Apr 20, 2023

Commit

680a7f2

•

1 Parent(s): 1abfdad

Added the example of T5

Files changed (1) hide show

flisol-cordoba-2023.ipynb +5 -6

flisol-cordoba-2023.ipynb CHANGED Viewed

@@ -167,12 +167,11 @@
    "source": [
     "## ¿Qué es un \"Transformer\"?\n",
     "\n",
-    "- Es una arquitectura de red neuronal basada en el concepto de \"Atención\" que se presentó en el paper [\"Attention is All You Need\"](https://arxiv.org/abs/1706.03762).\n",
-    "- Originalmente se planteó como un esquema para hacer traducción automática.\n",
-    "    - Consta de dos partes: Un codificador y un decodificador.\n",
-    "    - A partir de este surgieron dos variantes\n",
-    "        - Los modelos basados en el codificador (e.g. [BERT](https://arxiv.org/abs/1810.04805)). Sirven para buscar representaciones vectoriales (embeddings) del texto.\n",
-    "        - Los modelos basados en el decodificador (e.g. [GPT](https://arxiv.org/abs/2005.14165)). Sirven para generación de texto.\n",
     "- La idea del transformer es \"definir\" una palabra de acuerdo a la relación que tiene con las palabras de su vecindario, en una operación de multiplicación matricial con pesos.\n",
     "    - Para una explicación más sencilla pero más detallada sugiero los posts de la serie \"The Illustrated...\" de [Jay Alammar](http://jalammar.github.io/):\n",
     "        - [The Illustrated Transformer](http://jalammar.github.io/illustrated-transformer/)\n",

    "source": [
     "## ¿Qué es un \"Transformer\"?\n",
     "\n",
+    "- Es una arquitectura de red neuronal que se presentó en el paper [\"Attention is All You Need\"](https://arxiv.org/abs/1706.03762).\n",
+    "- Existen variantes:\n",
+    "    - Los modelos de traducción de secuencia a secuencia (e.g. el [Transformer](https://arxiv.org/abs/1706.03762) o el [T5](https://arxiv.org/abs/1910.10683)). Tienen codificador y decodificador. Sirven para tareas de transformación (e.g. traducción).\n",
+    "    - Los modelos basados en el codificador (e.g. [BERT](https://arxiv.org/abs/1810.04805)). Sirven para buscar representaciones vectoriales (embeddings) del texto.\n",
+    "    - Los modelos basados en el decodificador (e.g. [GPT](https://arxiv.org/abs/2005.14165)). Sirven para generación de texto.\n",
     "- La idea del transformer es \"definir\" una palabra de acuerdo a la relación que tiene con las palabras de su vecindario, en una operación de multiplicación matricial con pesos.\n",
     "    - Para una explicación más sencilla pero más detallada sugiero los posts de la serie \"The Illustrated...\" de [Jay Alammar](http://jalammar.github.io/):\n",
     "        - [The Illustrated Transformer](http://jalammar.github.io/illustrated-transformer/)\n",