crscardellino commited on
Commit
680a7f2
1 Parent(s): 1abfdad

Added the example of T5

Browse files
Files changed (1) hide show
  1. flisol-cordoba-2023.ipynb +5 -6
flisol-cordoba-2023.ipynb CHANGED
@@ -167,12 +167,11 @@
167
  "source": [
168
  "## ¿Qué es un \"Transformer\"?\n",
169
  "\n",
170
- "- Es una arquitectura de red neuronal basada en el concepto de \"Atención\" que se presentó en el paper [\"Attention is All You Need\"](https://arxiv.org/abs/1706.03762).\n",
171
- "- Originalmente se planteó como un esquema para hacer traducción automática.\n",
172
- " - Consta de dos partes: Un codificador y un decodificador.\n",
173
- " - A partir de este surgieron dos variantes\n",
174
- " - Los modelos basados en el codificador (e.g. [BERT](https://arxiv.org/abs/1810.04805)). Sirven para buscar representaciones vectoriales (embeddings) del texto.\n",
175
- " - Los modelos basados en el decodificador (e.g. [GPT](https://arxiv.org/abs/2005.14165)). Sirven para generación de texto.\n",
176
  "- La idea del transformer es \"definir\" una palabra de acuerdo a la relación que tiene con las palabras de su vecindario, en una operación de multiplicación matricial con pesos.\n",
177
  " - Para una explicación más sencilla pero más detallada sugiero los posts de la serie \"The Illustrated...\" de [Jay Alammar](http://jalammar.github.io/):\n",
178
  " - [The Illustrated Transformer](http://jalammar.github.io/illustrated-transformer/)\n",
 
167
  "source": [
168
  "## ¿Qué es un \"Transformer\"?\n",
169
  "\n",
170
+ "- Es una arquitectura de red neuronal que se presentó en el paper [\"Attention is All You Need\"](https://arxiv.org/abs/1706.03762).\n",
171
+ "- Existen variantes:\n",
172
+ " - Los modelos de traducción de secuencia a secuencia (e.g. el [Transformer](https://arxiv.org/abs/1706.03762) o el [T5](https://arxiv.org/abs/1910.10683)). Tienen codificador y decodificador. Sirven para tareas de transformación (e.g. traducción).\n",
173
+ " - Los modelos basados en el codificador (e.g. [BERT](https://arxiv.org/abs/1810.04805)). Sirven para buscar representaciones vectoriales (embeddings) del texto.\n",
174
+ " - Los modelos basados en el decodificador (e.g. [GPT](https://arxiv.org/abs/2005.14165)). Sirven para generación de texto.\n",
 
175
  "- La idea del transformer es \"definir\" una palabra de acuerdo a la relación que tiene con las palabras de su vecindario, en una operación de multiplicación matricial con pesos.\n",
176
  " - Para una explicación más sencilla pero más detallada sugiero los posts de la serie \"The Illustrated...\" de [Jay Alammar](http://jalammar.github.io/):\n",
177
  " - [The Illustrated Transformer](http://jalammar.github.io/illustrated-transformer/)\n",