crscardellino
/

flisol-cba-martin-fierro

@@ -607,7 +607,7 @@
     "import torch\n",
     "from transformers import AutoModelForCausalLM, AutoTokenizer\n",
     "\n",
-    "BASE_MODEL = \"DeepESP/gpt2-spanish\"  # We play with a smaller model\n",
     "tokenizer = AutoTokenizer.from_pretrained(BASE_MODEL)\n",
     "model = AutoModelForCausalLM.from_pretrained(BASE_MODEL)"
    ]
@@ -685,20 +685,6 @@
     }
    },
    "outputs": [
-    {
-     "data": {
-      "application/vnd.jupyter.widget-view+json": {
-       "model_id": "123690f207a94d3e850acef7a13133a6",
-       "version_major": 2,
-       "version_minor": 0
-      },
-      "text/plain": [
-       "  0%|          | 0/2 [00:00<?, ?it/s]"
-      ]
-     },
-     "metadata": {},
-     "output_type": "display_data"
-    },
     {
      "name": "stdout",
      "output_type": "stream",
@@ -718,9 +704,9 @@
    "source": [
     "from datasets import load_dataset\n",
     "\n",
-    "datasets = load_dataset(\"text\", data_files={\"train\": './data/martin-fierro_train.txt',\n",
-    "                                            \"validation\": './data/martin-fierro_validation.txt'})\n",
-    "print('\\n'.join(datasets[\"train\"][:9]['text']))"
    ]
   },
   {
@@ -752,7 +738,7 @@
    "source": [
     "from utils import tokenize  # local module in the repository\n",
     "\n",
-    "tokenized_datasets = datasets.map(tokenize(tokenizer), batched=True, num_proc=4, remove_columns=[\"text\"])"
    ]
   },
   {
@@ -879,7 +865,7 @@
     }
    ],
    "source": [
-    "print(tokenizer.decode(lm_datasets[\"train\"][0][\"input_ids\"]))"
    ]
   },
   {
@@ -907,22 +893,7 @@
      "slide_type": "fragment"
     }
    },
-   "outputs": [
-    {
-     "data": {
-      "application/vnd.jupyter.widget-view+json": {
-       "model_id": "94b41ffd721d4bbf8840df3fee46bbb2",
-       "version_major": 2,
-       "version_minor": 0
-      },
-      "text/plain": [
-       "VBox(children=(HTML(value='<center> <img\\nsrc=https://huggingface.co/front/assets/huggingface_logo-noborder.sv…"
-      ]
-     },
-     "metadata": {},
-     "output_type": "display_data"
-    }
-   ],
    "source": [
     "from huggingface_hub import notebook_login\n",
     "\n",
@@ -1040,8 +1011,8 @@
     "from transformers import Trainer, TrainingArguments\n",
     "\n",
     "training_args = TrainingArguments(\n",
-    "    \"flisol-cba-martin-fierro\",\n",
-    "    evaluation_strategy=\"epoch\",\n",
     "    num_train_epochs=10,\n",
     "    learning_rate=2e-5,\n",
     "    weight_decay=0.01,\n",
@@ -1051,12 +1022,13 @@
     "trainer = Trainer(\n",
     "    model=model,\n",
     "    args=training_args,\n",
-    "    train_dataset=lm_datasets[\"train\"],\n",
-    "    eval_dataset=lm_datasets[\"validation\"]\n",
     ")\n",
     "\n",
     "trainer.train()\n",
-    "trainer.push_to_hub()  # This pushes the trained model to Hugging Face model repository"
    ]
   },
   {
@@ -1105,8 +1077,9 @@
     "import torch\n",
     "from transformers import AutoModelForCausalLM, AutoTokenizer\n",
     "\n",
-    "tokenizer = AutoTokenizer.from_pretrained(\"DeepESP/gpt2-spanish\")\n",
-    "model = AutoModelForCausalLM.from_pretrained(\"crscardellino/flisol-cba-martin-fierro\")\n",
     "\n",
     "torch.manual_seed(42)  # To ensure determinism\n",
     "\n",

     "import torch\n",
     "from transformers import AutoModelForCausalLM, AutoTokenizer\n",
     "\n",
+    "BASE_MODEL = 'DeepESP/gpt2-spanish'  # We play with a smaller model\n",
     "tokenizer = AutoTokenizer.from_pretrained(BASE_MODEL)\n",
     "model = AutoModelForCausalLM.from_pretrained(BASE_MODEL)"
    ]
     }
    },
    "outputs": [
     {
      "name": "stdout",
      "output_type": "stream",
    "source": [
     "from datasets import load_dataset\n",
     "\n",
+    "datasets = load_dataset('text', data_files={'train': './data/martin-fierro_train.txt',\n",
+    "                                            'validation': './data/martin-fierro_validation.txt'})\n",
+    "print('\\n'.join(datasets['train'][:9]['text']))"
    ]
   },
   {
    "source": [
     "from utils import tokenize  # local module in the repository\n",
     "\n",
+    "tokenized_datasets = datasets.map(tokenize(tokenizer), batched=True, num_proc=4, remove_columns=['text'])"
    ]
   },
   {
     }
    ],
    "source": [
+    "print(tokenizer.decode(lm_datasets['train'][0]['input_ids']))"
    ]
   },
   {
      "slide_type": "fragment"
     }
    },
+   "outputs": [],
    "source": [
     "from huggingface_hub import notebook_login\n",
     "\n",
     "from transformers import Trainer, TrainingArguments\n",
     "\n",
     "training_args = TrainingArguments(\n",
+    "    'flisol-cba-martin-fierro',\n",
+    "    evaluation_strategy='epoch',\n",
     "    num_train_epochs=10,\n",
     "    learning_rate=2e-5,\n",
     "    weight_decay=0.01,\n",
     "trainer = Trainer(\n",
     "    model=model,\n",
     "    args=training_args,\n",
+    "    train_dataset=lm_datasets['train'],\n",
+    "    eval_dataset=lm_datasets['validation']\n",
     ")\n",
     "\n",
     "trainer.train()\n",
+    "trainer.push_to_hub()  # This pushes the trained model to Hugging Face model repository\n",
+    "tokenizer.push_to_hub('flisol-cba-martin-fierro')"
    ]
   },
   {
     "import torch\n",
     "from transformers import AutoModelForCausalLM, AutoTokenizer\n",
     "\n",
+    "MODEL = 'flisol-cba-martin-fierro'\n",
+    "tokenizer = AutoTokenizer.from_pretrained(MODEL)\n",
+    "model = AutoModelForCausalLM.from_pretrained(MODEL)\n",
     "\n",
     "torch.manual_seed(42)  # To ensure determinism\n",
     "\n",