Spaces:

selinS
/

sin-kaf

Sleeping

App Files Files Community

selinS commited on Jan 8

Commit

c78d747

•

1 Parent(s): 4bca5e1

Upload 10 files

Browse files

Files changed (10) hide show

README.md +4 -12
app.py +49 -0
cluster_outliers.csv +0 -0
main.ipynb +1008 -0
onnx_model/config.json +27 -0
onnx_model/model.onnx +3 -0
outlier_detection.ipynb +2292 -0
pycaret_outlier_detection.ipynb +0 -0
requirements.txt +10 -0
trainer.ipynb +1165 -0

README.md CHANGED Viewed

@@ -1,13 +1,5 @@
----
-title: Sin Kaf
-emoji: 📊
-colorFrom: red
-colorTo: red
-sdk: gradio
-sdk_version: 4.12.0
-app_file: app.py
-pinned: false
-license: unknown
----
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

+# sin-kaf
+# dataset link (Turkis)
+# https://sites.google.com/site/offensevalsharedtask/more-datasets

app.py ADDED Viewed

	@@ -0,0 +1,49 @@

+import gradio as gra
+import torch
+import numpy as np
+from transformers import AutoModelForSequenceClassification
+from transformers import AutoTokenizer
+from optimum.onnxruntime import ORTModel
+import onnxruntime as rt
+ort_session = rt.InferenceSession("/DATA/sin-kaf/onnx_model/model.onnx")
+ort_session.get_providers()
+# model = ORTModel.load_model("/DATA/sin-kaf/onnx_model/model.onnx")
+# model = AutoModelForSequenceClassification.from_pretrained('/DATA/sin-kaf/test_trainer/checkpoint-18500')
+tokenizer = AutoTokenizer.from_pretrained("Overfit-GM/distilbert-base-turkish-cased-offensive")
+def user_greeting(sent):
+    encoded_dict = tokenizer.encode_plus(
+                        sent,
+                        add_special_tokens = True,
+                        max_length = 64,
+                        pad_to_max_length = True,
+                        return_attention_mask = True,
+                        return_tensors = 'pt',
+                    )
+    input_ids = encoded_dict['input_ids']
+    attention_masks = encoded_dict['attention_mask']
+    input_ids = torch.cat([input_ids], dim=0)
+    input_mask = torch.cat([attention_masks], dim=0)
+    input_feed = {
+    "input_ids": input_ids.tolist(),
+    "attention_mask":input_mask.tolist(),
+    }
+    output = ort_session.run(None, input_feed)
+    return np.argmax((output[0][0]))
+    # outputs = model(input_ids, input_mask)
+    # return torch.argmax(outputs['logits'])
+app =  gra.Interface(fn = user_greeting, inputs="text", outputs="text")
+app.launch()
+# app.launch(server_name="0.0.0.0")

cluster_outliers.csv ADDED Viewed

The diff for this file is too large to render. See raw diff

main.ipynb ADDED Viewed

	@@ -0,0 +1,1008 @@

+{
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": 1,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# dataset link (Turkis)\n",
+    "# https://sites.google.com/site/offensevalsharedtask/more-datasets"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 1,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "/home/sebit/anaconda3/envs/dl_env/lib/python3.9/site-packages/neptune/internal/backends/hosted_client.py:51: NeptuneDeprecationWarning: The 'neptune-client' package has been deprecated and will be removed in the future. Install the 'neptune' package instead. For more, see https://docs.neptune.ai/setup/upgrading/\n",
+      "  from neptune.version import version as neptune_client_version\n",
+      "/home/sebit/anaconda3/envs/dl_env/lib/python3.9/site-packages/pytorch_lightning/loggers/neptune.py:39: NeptuneDeprecationWarning: You're importing the Neptune client library via the deprecated `neptune.new` module, which will be removed in a future release. Import directly from `neptune` instead.\n",
+      "  from neptune import new as neptune\n"
+     ]
+    }
+   ],
+   "source": [
+    "import os\n",
+    "import numpy as np\n",
+    "import pandas as pd\n",
+    "import pytorch_lightning as pl\n",
+    "import random\n",
+    "import torch\n",
+    "import emoji\n",
+    "\n",
+    "\n",
+    "import datetime\n",
+    "import numpy as np\n",
+    "import torch.optim as optim\n",
+    "\n",
+    "\n",
+    "import torch.nn as nn\n",
+    "\n",
+    "from torch.utils.data import DataLoader,Dataset,random_split,TensorDataset ,RandomSampler, SequentialSampler\n",
+    "from torchmetrics import Accuracy, F1Score \n",
+    "from sklearn.preprocessing import LabelEncoder\n",
+    "from pytorch_lightning.callbacks import EarlyStopping,ModelCheckpoint\n",
+    "from pytorch_lightning.loggers import TensorBoardLogger,MLFlowLogger\n",
+    "from sklearn.model_selection import train_test_split\n",
+    "\n",
+    "from sklearn.preprocessing import LabelEncoder\n",
+    "from transformers import BertForSequenceClassification, AdamW, BertConfig,BertTokenizer,get_linear_schedule_with_warmup"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 2,
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "device(type='cuda', index=0)"
+      ]
+     },
+     "execution_count": 2,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "device = torch.device(\"cuda:0\" if torch.cuda.is_available() else \"cpu\")\n",
+    "device"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 3,
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "True"
+      ]
+     },
+     "execution_count": 3,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "torch.cuda.is_available()"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 4,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "seed_val = 42\n",
+    "random.seed(seed_val)\n",
+    "np.random.seed(seed_val)\n",
+    "torch.manual_seed(seed_val)\n",
+    "torch.cuda.manual_seed_all(seed_val)"
+   ]
+  },
+  {
+   "attachments": {},
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "# load dataaset\n"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 5,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# train_df=pd.read_csv('SemEval-2020 dataset/offenseval2020-turkish/offenseval2020-turkish/offenseval-tr-training-v1/offenseval-tr-training-v1.tsv',sep='\\t')\n",
+    "# test_df=pd.read_csv('SemEval-2020 dataset/offenseval2020-turkish/offenseval2020-turkish/offenseval-tr-testset-v1/offenseval-tr-testset-v1.tsv',sep='\\t')"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 6,
+   "metadata": {},
+   "outputs": [
+    {
+     "ename": "NameError",
+     "evalue": "name 'train_df' is not defined",
+     "output_type": "error",
+     "traceback": [
+      "\u001b[0;31m---------------------------------------------------------------------------\u001b[0m",
+      "\u001b[0;31mNameError\u001b[0m                                 Traceback (most recent call last)",
+      "Cell \u001b[0;32mIn[6], line 1\u001b[0m\n\u001b[0;32m----> 1\u001b[0m train_df\u001b[39m=\u001b[39mpd\u001b[39m.\u001b[39mconcat([train_df,test_df], axis\u001b[39m=\u001b[39m\u001b[39m0\u001b[39m)\n\u001b[1;32m      2\u001b[0m train_df\u001b[39m=\u001b[39mtrain_df\u001b[39m.\u001b[39mdrop([\u001b[39m'\u001b[39m\u001b[39mid\u001b[39m\u001b[39m'\u001b[39m], axis\u001b[39m=\u001b[39m\u001b[39m1\u001b[39m)\n",
+      "\u001b[0;31mNameError\u001b[0m: name 'train_df' is not defined"
+     ]
+    }
+   ],
+   "source": [
+    "train_df=pd.concat([train_df,test_df], axis=0)\n",
+    "train_df=train_df.drop(['id'], axis=1)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "subtask_a\n",
+       "NOT    25231\n",
+       "OFF     6046\n",
+       "Name: count, dtype: int64"
+      ]
+     },
+     "execution_count": 7,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "train_df['subtask_a'].value_counts()"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 8,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "data=train_df['tweet'].tolist()\n",
+    "for i in range(len(data)):\n",
+    "    data[i] = data[i].replace('@USER','')\n",
+    "    data[i] = data[i].replace('#','')\n",
+    "    data[i] = data[i].replace('$','')\n",
+    "    data[i] = emoji.demojize(data[i])\n",
+    "    \n",
+    "train_df['tweet'] = data"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 9,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "lab = LabelEncoder()\n",
+    "train_df['subtask_a'] = lab.fit_transform(train_df['subtask_a'])"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 10,
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "subtask_a\n",
+       "0    25231\n",
+       "1     6046\n",
+       "2     3515\n",
+       "Name: count, dtype: int64"
+      ]
+     },
+     "execution_count": 10,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "train_df['subtask_a'].value_counts()"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 11,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "train_df.drop(train_df[train_df['subtask_a'] == 2].index, inplace = True)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 12,
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "subtask_a\n",
+       "0    22345\n",
+       "1     5417\n",
+       "Name: count, dtype: int64"
+      ]
+     },
+     "execution_count": 12,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "train_df['subtask_a'].value_counts()"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 13,
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/html": [
+       "<div>\n",
+       "<style scoped>\n",
+       "    .dataframe tbody tr th:only-of-type {\n",
+       "        vertical-align: middle;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe tbody tr th {\n",
+       "        vertical-align: top;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe thead th {\n",
+       "        text-align: right;\n",
+       "    }\n",
+       "</style>\n",
+       "<table border=\"1\" class=\"dataframe\">\n",
+       "  <thead>\n",
+       "    <tr style=\"text-align: right;\">\n",
+       "      <th></th>\n",
+       "      <th>tweet</th>\n",
+       "      <th>subtask_a</th>\n",
+       "    </tr>\n",
+       "  </thead>\n",
+       "  <tbody>\n",
+       "    <tr>\n",
+       "      <th>3515</th>\n",
+       "      <td>holstein ineği (alacalı siyah-beyaz inek, yani...</td>\n",
+       "      <td>0</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>3516</th>\n",
+       "      <td>Haaaa. O zaman oylar Binali'ye demek.</td>\n",
+       "      <td>0</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>3517</th>\n",
+       "      <td>Disk genel merkez yönetimine HDP'nin hiç etki...</td>\n",
+       "      <td>0</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>3518</th>\n",
+       "      <td>Bir insanı zorla kaliteli yapamazsın. Sen elin...</td>\n",
+       "      <td>0</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>3519</th>\n",
+       "      <td>Sus yaa açtım sonra korkudan telefon elimden ...</td>\n",
+       "      <td>0</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>...</th>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>31272</th>\n",
+       "      <td>Bu ödül sunan kızı kim giydirdiyse, kızın en b...</td>\n",
+       "      <td>0</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>31273</th>\n",
+       "      <td>Bunu sana beddua olarak etmiyorum bunlar ilerd...</td>\n",
+       "      <td>0</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>31274</th>\n",
+       "      <td>CHP'liler sandıkları bırakmıyor üstüne oturmuş...</td>\n",
+       "      <td>1</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>31275</th>\n",
+       "      <td>karanlığın içinde yalnız kalsam ne oluuuuurr</td>\n",
+       "      <td>0</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>31276</th>\n",
+       "      <td>Ne yalan söyleyeyim bu haftalıkta fitil olara...</td>\n",
+       "      <td>0</td>\n",
+       "    </tr>\n",
+       "  </tbody>\n",
+       "</table>\n",
+       "<p>27762 rows × 2 columns</p>\n",
+       "</div>"
+      ],
+      "text/plain": [
+       "                                                   tweet  subtask_a\n",
+       "3515   holstein ineği (alacalı siyah-beyaz inek, yani...          0\n",
+       "3516               Haaaa. O zaman oylar Binali'ye demek.          0\n",
+       "3517    Disk genel merkez yönetimine HDP'nin hiç etki...          0\n",
+       "3518   Bir insanı zorla kaliteli yapamazsın. Sen elin...          0\n",
+       "3519    Sus yaa açtım sonra korkudan telefon elimden ...          0\n",
+       "...                                                  ...        ...\n",
+       "31272  Bu ödül sunan kızı kim giydirdiyse, kızın en b...          0\n",
+       "31273  Bunu sana beddua olarak etmiyorum bunlar ilerd...          0\n",
+       "31274  CHP'liler sandıkları bırakmıyor üstüne oturmuş...          1\n",
+       "31275       karanlığın içinde yalnız kalsam ne oluuuuurr          0\n",
+       "31276   Ne yalan söyleyeyim bu haftalıkta fitil olara...          0\n",
+       "\n",
+       "[27762 rows x 2 columns]"
+      ]
+     },
+     "execution_count": 13,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "train_df"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 14,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "data = train_df.tweet.values\n",
+    "labels = train_df.subtask_a.values"
+   ]
+  },
+  {
+   "attachments": {},
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "# BERT Tokenizer"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 15,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "tokenizer = BertTokenizer.from_pretrained(\"bert-base-multilingual-cased\", do_basic_tokenize=True)\n",
+    "# tokenizer.add_tokens(data)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 16,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      " Original:  Sallandık diyorum, merkezi bilmiyorum, sokağa fırlamadım, duruyorum.   Senden bir açıklama gelmeden, ben bu sandığı terketmiyorum \n",
+      "Tokenized:  ['Sal', '##landı', '##k', 'di', '##yor', '##um', ',', 'merkezi', 'bil', '##mi', '##yor', '##um', ',', 'sok', '##a', '##ğa', 'f', '##ır', '##lama', '##dı', '##m', ',', 'dur', '##uy', '##orum', '.', 'Sen', '##den', 'bir', 'açık', '##lama', 'gel', '##mede', '##n', ',', 'ben', 'bu', 'sand', '##ığı', 'ter', '##ket', '##mi', '##yor', '##um']\n",
+      "Token IDs:  [64831, 35783, 10174, 10120, 26101, 10465, 117, 47522, 13897, 10500, 26101, 10465, 117, 29509, 10113, 25163, 174, 17145, 24540, 17532, 10147, 117, 28959, 53452, 28048, 119, 18082, 10633, 10561, 71769, 24540, 74458, 59268, 10115, 117, 11015, 11499, 45989, 28581, 12718, 13650, 10500, 26101, 10465]\n"
+     ]
+    }
+   ],
+   "source": [
+    "print(' Original: ', data[78])\n",
+    "print('Tokenized: ', tokenizer.tokenize(data[78]))\n",
+    "print('Token IDs: ', tokenizer.convert_tokens_to_ids(tokenizer.tokenize(data[78])))"
+   ]
+  },
+  {
+   "attachments": {},
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "# Tokenize Dataset"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 17,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "Token indices sequence length is longer than the specified maximum sequence length for this model (1277 > 512). Running this sequence through the model will result in indexing errors\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Max sentence length:  6906\n"
+     ]
+    }
+   ],
+   "source": [
+    "max_len = 0\n",
+    "for sent in data:\n",
+    "\n",
+    "    input_ids = tokenizer.encode(sent, add_special_tokens=True)\n",
+    "    max_len = max(max_len, len(input_ids))\n",
+    "\n",
+    "print('Max sentence length: ', max_len)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 18,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "Truncation was not explicitly activated but `max_length` is provided a specific value, please use `truncation=True` to explicitly truncate examples to max length. Defaulting to 'longest_first' truncation strategy. If you encode pairs of sequences (GLUE-style) with the tokenizer you can select this strategy more precisely by providing a specific strategy to `truncation`.\n",
+      "/home/sebit/anaconda3/envs/testenv/lib/python3.9/site-packages/transformers/tokenization_utils_base.py:2418: FutureWarning: The `pad_to_max_length` argument is deprecated and will be removed in a future version, use `padding=True` or `padding='longest'` to pad to the longest sequence in the batch, or use `padding='max_length'` to pad to a max length. In this case, you can give a specific length with `max_length` (e.g. `max_length=45`) or leave max_length to None to pad to the maximal input size of the model (e.g. 512 for Bert).\n",
+      "  warnings.warn(\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Original:  holstein ineği (alacalı siyah-beyaz inek, yani hollanda ineği) en verimli süt alınan inek ırkıymış, trt belgesel'de öyle söylediler\n",
+      "Token IDs: tensor([   101, 110516,  16206,  10106,  10112,  16054,    113,  21739,  15794,\n",
+      "         10713,  34543,  10237,    118, 110744,  10106,  10707,    117,  84251,\n",
+      "         46232,  41971,  10106,  10112,  16054,    114,  10110,  55011,  98373,\n",
+      "           187,  41559,  10164,  65890,  10106,  10707,    321,  16299,  10713,\n",
+      "         16889,  19733,    117,  32221,  10123,  34831,  12912,    112,  10104,\n",
+      "           276,  18369, 100721,  18369,  28113,  10165,    102,      0,      0,\n",
+      "             0,      0,      0,      0,      0,      0,      0,      0,      0,\n",
+      "             0])\n"
+     ]
+    }
+   ],
+   "source": [
+    "input_ids = []\n",
+    "attention_masks = []\n",
+    "\n",
+    "for sent in data:\n",
+    "    encoded_dict = tokenizer.encode_plus(\n",
+    "                        sent,                     \n",
+    "                        add_special_tokens = True, \n",
+    "                        max_length = 64,           \n",
+    "                        pad_to_max_length = True,\n",
+    "                        return_attention_mask = True,  \n",
+    "                        return_tensors = 'pt',   \n",
+    "                   )\n",
+    "    \n",
+    "  \n",
+    "    input_ids.append(encoded_dict['input_ids'])\n",
+    "    attention_masks.append(encoded_dict['attention_mask'])\n",
+    "\n",
+    "\n",
+    "input_ids = torch.cat(input_ids, dim=0)\n",
+    "attention_masks = torch.cat(attention_masks, dim=0)\n",
+    "labels = torch.tensor(labels)\n",
+    "\n",
+    "\n",
+    "print('Original: ', data[0])\n",
+    "print('Token IDs:', input_ids[0])"
+   ]
+  },
+  {
+   "attachments": {},
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "# Split Dataset"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 19,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "24,985 training samples\n",
+      "2,777 validation samples\n"
+     ]
+    }
+   ],
+   "source": [
+    "dataset = TensorDataset(input_ids, attention_masks, labels)\n",
+    "train_size = int(0.9 * len(dataset))\n",
+    "val_size = len(dataset) - train_size\n",
+    "\n",
+    "\n",
+    "train_dataset, val_dataset = random_split(dataset, [train_size, val_size])\n",
+    "\n",
+    "print('{:>5,} training samples'.format(train_size))\n",
+    "print('{:>5,} validation samples'.format(val_size))"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 20,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "Some weights of BertForSequenceClassification were not initialized from the model checkpoint at bert-base-multilingual-cased and are newly initialized: ['classifier.bias', 'classifier.weight']\n",
+      "You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.\n"
+     ]
+    },
+    {
+     "data": {
+      "text/plain": [
+       "BertForSequenceClassification(\n",
+       "  (bert): BertModel(\n",
+       "    (embeddings): BertEmbeddings(\n",
+       "      (word_embeddings): Embedding(119547, 768, padding_idx=0)\n",
+       "      (position_embeddings): Embedding(512, 768)\n",
+       "      (token_type_embeddings): Embedding(2, 768)\n",
+       "      (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)\n",
+       "      (dropout): Dropout(p=0.1, inplace=False)\n",
+       "    )\n",
+       "    (encoder): BertEncoder(\n",
+       "      (layer): ModuleList(\n",
+       "        (0-11): 12 x BertLayer(\n",
+       "          (attention): BertAttention(\n",
+       "            (self): BertSelfAttention(\n",
+       "              (query): Linear(in_features=768, out_features=768, bias=True)\n",
+       "              (key): Linear(in_features=768, out_features=768, bias=True)\n",
+       "              (value): Linear(in_features=768, out_features=768, bias=True)\n",
+       "              (dropout): Dropout(p=0.1, inplace=False)\n",
+       "            )\n",
+       "            (output): BertSelfOutput(\n",
+       "              (dense): Linear(in_features=768, out_features=768, bias=True)\n",
+       "              (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)\n",
+       "              (dropout): Dropout(p=0.1, inplace=False)\n",
+       "            )\n",
+       "          )\n",
+       "          (intermediate): BertIntermediate(\n",
+       "            (dense): Linear(in_features=768, out_features=3072, bias=True)\n",
+       "            (intermediate_act_fn): GELUActivation()\n",
+       "          )\n",
+       "          (output): BertOutput(\n",
+       "            (dense): Linear(in_features=3072, out_features=768, bias=True)\n",
+       "            (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)\n",
+       "            (dropout): Dropout(p=0.1, inplace=False)\n",
+       "          )\n",
+       "        )\n",
+       "      )\n",
+       "    )\n",
+       "    (pooler): BertPooler(\n",
+       "      (dense): Linear(in_features=768, out_features=768, bias=True)\n",
+       "      (activation): Tanh()\n",
+       "    )\n",
+       "  )\n",
+       "  (dropout): Dropout(p=0.1, inplace=False)\n",
+       "  (classifier): Linear(in_features=768, out_features=2, bias=True)\n",
+       ")"
+      ]
+     },
+     "execution_count": 20,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "from transformers import BertForSequenceClassification, AdamW, BertConfig\n",
+    "\n",
+    "model = BertForSequenceClassification.from_pretrained(\n",
+    "    \"bert-base-multilingual-cased\",\n",
+    "    num_labels = 2,             \n",
+    "    output_attentions = False,\n",
+    "    output_hidden_states = False, \n",
+    ")\n",
+    "\n",
+    "model.cuda()"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 21,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "The BERT model has 201 different named parameters.\n",
+      "\n",
+      "==== Embedding Layer ====\n",
+      "\n",
+      "bert.embeddings.word_embeddings.weight                  (119547, 768)\n",
+      "bert.embeddings.position_embeddings.weight                (512, 768)\n",
+      "bert.embeddings.token_type_embeddings.weight                (2, 768)\n",
+      "bert.embeddings.LayerNorm.weight                              (768,)\n",
+      "bert.embeddings.LayerNorm.bias                                (768,)\n",
+      "\n",
+      "==== First Transformer ====\n",
+      "\n",
+      "bert.encoder.layer.0.attention.self.query.weight          (768, 768)\n",
+      "bert.encoder.layer.0.attention.self.query.bias                (768,)\n",
+      "bert.encoder.layer.0.attention.self.key.weight            (768, 768)\n",
+      "bert.encoder.layer.0.attention.self.key.bias                  (768,)\n",
+      "bert.encoder.layer.0.attention.self.value.weight          (768, 768)\n",
+      "bert.encoder.layer.0.attention.self.value.bias                (768,)\n",
+      "bert.encoder.layer.0.attention.output.dense.weight        (768, 768)\n",
+      "bert.encoder.layer.0.attention.output.dense.bias              (768,)\n",
+      "bert.encoder.layer.0.attention.output.LayerNorm.weight        (768,)\n",
+      "bert.encoder.layer.0.attention.output.LayerNorm.bias          (768,)\n",
+      "bert.encoder.layer.0.intermediate.dense.weight           (3072, 768)\n",
+      "bert.encoder.layer.0.intermediate.dense.bias                 (3072,)\n",
+      "bert.encoder.layer.0.output.dense.weight                 (768, 3072)\n",
+      "bert.encoder.layer.0.output.dense.bias                        (768,)\n",
+      "bert.encoder.layer.0.output.LayerNorm.weight                  (768,)\n",
+      "bert.encoder.layer.0.output.LayerNorm.bias                    (768,)\n",
+      "\n",
+      "==== Output Layer ====\n",
+      "\n",
+      "bert.pooler.dense.weight                                  (768, 768)\n",
+      "bert.pooler.dense.bias                                        (768,)\n",
+      "classifier.weight                                           (2, 768)\n",
+      "classifier.bias                                                 (2,)\n"
+     ]
+    }
+   ],
+   "source": [
+    "params = list(model.named_parameters())\n",
+    "\n",
+    "print('The BERT model has {:} different named parameters.\\n'.format(len(params)))\n",
+    "\n",
+    "print('==== Embedding Layer ====\\n')\n",
+    "\n",
+    "for p in params[0:5]:\n",
+    "    print(\"{:<55} {:>12}\".format(p[0], str(tuple(p[1].size()))))\n",
+    "\n",
+    "print('\\n==== First Transformer ====\\n')\n",
+    "\n",
+    "for p in params[5:21]:\n",
+    "    print(\"{:<55} {:>12}\".format(p[0], str(tuple(p[1].size()))))\n",
+    "\n",
+    "print('\\n==== Output Layer ====\\n')\n",
+    "\n",
+    "for p in params[-4:]:\n",
+    "    print(\"{:<55} {:>12}\".format(p[0], str(tuple(p[1].size()))))"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 22,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "/home/sebit/anaconda3/envs/testenv/lib/python3.9/site-packages/transformers/optimization.py:411: FutureWarning: This implementation of AdamW is deprecated and will be removed in a future version. Use the PyTorch implementation torch.optim.AdamW instead, or set `no_deprecation_warning=True` to disable this warning\n",
+      "  warnings.warn(\n"
+     ]
+    }
+   ],
+   "source": [
+    "optimizer = AdamW(model.parameters(),\n",
+    "                  lr = 2e-5,\n",
+    "                  eps = 1e-8\n",
+    "                )"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 23,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "def flat_accuracy(preds, labels):\n",
+    "    pred_flat = np.argmax(preds, axis=1).flatten()\n",
+    "    labels_flat = labels.flatten()\n",
+    "    return np.sum(pred_flat == labels_flat) / len(labels_flat)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 24,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "def format_time(elapsed):\n",
+    "\n",
+    "    elapsed_rounded = int(round((elapsed)))\n",
+    "    return str(datetime.timedelta(seconds=elapsed_rounded))\n"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 25,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "class sinKafModel(pl.LightningModule):\n",
+    "    def __init__(self, model, optimizer, scheduler):\n",
+    "        super().__init__()\n",
+    "        self.model = model\n",
+    "        self.optimizer = optimizer\n",
+    "        self.scheduler = scheduler\n",
+    "\n",
+    "\n",
+    "    def forward(self, input_ids, attention_mask, labels):\n",
+    "        outputs = self.model(input_ids, attention_mask=attention_mask, labels=labels)\n",
+    "        return outputs\n",
+    "\n",
+    "    def training_step(self, batch, batch_idx):\n",
+    "        input_ids, input_mask, labels = batch\n",
+    "        outputs = self(input_ids, input_mask, labels)\n",
+    "        loss = outputs.loss\n",
+    "        self.log('train_loss', loss)\n",
+    "        return loss\n",
+    "\n",
+    "    def validation_step(self, batch, batch_idx):\n",
+    "        input_ids, input_mask, labels = batch\n",
+    "        outputs = self(input_ids, input_mask, labels)\n",
+    "        loss = outputs.loss\n",
+    "        logits = outputs.logits\n",
+    "        preds = torch.argmax(logits, dim=1)\n",
+    "        acc = (preds == labels).sum().item() / len(labels)\n",
+    "        self.log('val_loss', loss)\n",
+    "        self.log('val_acc', acc)\n",
+    "        return loss\n",
+    "\n",
+    "    def configure_optimizers(self):\n",
+    "        return [self.optimizer], [self.scheduler]\n",
+    "\n",
+    "    # def train_dataloader(self):\n",
+    "    #     return self.train_dataloader\n",
+    "\n",
+    "    # def val_dataloader(self):\n",
+    "    #     return self.validation_dataloader\n"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 26,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "train_dataloader = DataLoader(train_dataset,  sampler = RandomSampler(train_dataset), batch_size = 2 )\n",
+    "validation_dataloader = DataLoader(val_dataset, sampler = SequentialSampler(val_dataset), batch_size = 2 )"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 27,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "epochs = 4\n",
+    "total_steps = len(train_dataloader) * epochs\n",
+    "scheduler = get_linear_schedule_with_warmup(optimizer, \n",
+    "                                            num_warmup_steps = 0, \n",
+    "                                            num_training_steps = total_steps)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 28,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "GPU available: True (cuda), used: True\n",
+      "TPU available: False, using: 0 TPU cores\n",
+      "IPU available: False, using: 0 IPUs\n",
+      "HPU available: False, using: 0 HPUs\n",
+      "/home/sebit/anaconda3/envs/testenv/lib/python3.9/site-packages/pytorch_lightning/trainer/connectors/logger_connector/logger_connector.py:67: UserWarning: Starting from v1.9.0, `tensorboardX` has been removed as a dependency of the `pytorch_lightning` package, due to potential conflicts with other packages in the ML ecosystem. For this reason, `logger=True` will use `CSVLogger` as the default logger, unless the `tensorboard` or `tensorboardX` packages are found. Please `pip install lightning[extra]` or one of them to enable TensorBoard support by default\n",
+      "  warning_cache.warn(\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "LOCAL_RANK: 0 - CUDA_VISIBLE_DEVICES: [0]\n",
+      "\n",
+      "  | Name  | Type                          | Params\n",
+      "--------------------------------------------------------\n",
+      "0 | model | BertForSequenceClassification | 177 M \n",
+      "--------------------------------------------------------\n",
+      "177 M     Trainable params\n",
+      "0         Non-trainable params\n",
+      "177 M     Total params\n",
+      "711.420   Total estimated model params size (MB)\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Sanity Checking DataLoader 0:   0%|          | 0/2 [00:00<?, ?it/s]"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "/home/sebit/anaconda3/envs/testenv/lib/python3.9/site-packages/pytorch_lightning/trainer/connectors/data_connector.py:442: PossibleUserWarning: The dataloader, val_dataloader, does not have many workers which may be a bottleneck. Consider increasing the value of the `num_workers` argument` (try 8 which is the number of cpus on this machine) in the `DataLoader` init to improve performance.\n",
+      "  rank_zero_warn(\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "                                                                           "
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "/home/sebit/anaconda3/envs/testenv/lib/python3.9/site-packages/pytorch_lightning/trainer/connectors/data_connector.py:442: PossibleUserWarning: The dataloader, train_dataloader, does not have many workers which may be a bottleneck. Consider increasing the value of the `num_workers` argument` (try 8 which is the number of cpus on this machine) in the `DataLoader` init to improve performance.\n",
+      "  rank_zero_warn(\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Epoch 0:   0%|          | 1/1249 [00:00<05:01,  4.13it/s, v_num=6]"
+     ]
+    },
+    {
+     "ename": "OutOfMemoryError",
+     "evalue": "CUDA out of memory. Tried to allocate 352.00 MiB (GPU 0; 4.00 GiB total capacity; 2.67 GiB already allocated; 0 bytes free; 2.80 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation.  See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF",
+     "output_type": "error",
+     "traceback": [
+      "\u001b[0;31m---------------------------------------------------------------------------\u001b[0m",
+      "\u001b[0;31mOutOfMemoryError\u001b[0m                          Traceback (most recent call last)",
+      "Cell \u001b[0;32mIn[28], line 3\u001b[0m\n\u001b[1;32m      1\u001b[0m model \u001b[39m=\u001b[39m sinKafModel(model, optimizer, scheduler)\n\u001b[1;32m      2\u001b[0m trainer \u001b[39m=\u001b[39m pl\u001b[39m.\u001b[39mTrainer( max_epochs\u001b[39m=\u001b[39mepochs, limit_train_batches\u001b[39m=\u001b[39m\u001b[39m0.1\u001b[39m, devices\u001b[39m=\u001b[39m\u001b[39m1\u001b[39m, accelerator\u001b[39m=\u001b[39m\u001b[39m'\u001b[39m\u001b[39mgpu\u001b[39m\u001b[39m'\u001b[39m) \n\u001b[0;32m----> 3\u001b[0m trainer\u001b[39m.\u001b[39;49mfit(model,train_dataloader,validation_dataloader )\n",
+      "File \u001b[0;32m~/anaconda3/envs/testenv/lib/python3.9/site-packages/pytorch_lightning/trainer/trainer.py:532\u001b[0m, in \u001b[0;36mTrainer.fit\u001b[0;34m(self, model, train_dataloaders, val_dataloaders, datamodule, ckpt_path)\u001b[0m\n\u001b[1;32m    530\u001b[0m \u001b[39mself\u001b[39m\u001b[39m.\u001b[39mstrategy\u001b[39m.\u001b[39m_lightning_module \u001b[39m=\u001b[39m model\n\u001b[1;32m    531\u001b[0m _verify_strategy_supports_compile(model, \u001b[39mself\u001b[39m\u001b[39m.\u001b[39mstrategy)\n\u001b[0;32m--> 532\u001b[0m call\u001b[39m.\u001b[39;49m_call_and_handle_interrupt(\n\u001b[1;32m    533\u001b[0m     \u001b[39mself\u001b[39;49m, \u001b[39mself\u001b[39;49m\u001b[39m.\u001b[39;49m_fit_impl, model, train_dataloaders, val_dataloaders, datamodule, ckpt_path\n\u001b[1;32m    534\u001b[0m )\n",
+      "File \u001b[0;32m~/anaconda3/envs/testenv/lib/python3.9/site-packages/pytorch_lightning/trainer/call.py:43\u001b[0m, in \u001b[0;36m_call_and_handle_interrupt\u001b[0;34m(trainer, trainer_fn, *args, **kwargs)\u001b[0m\n\u001b[1;32m     41\u001b[0m     \u001b[39mif\u001b[39;00m trainer\u001b[39m.\u001b[39mstrategy\u001b[39m.\u001b[39mlauncher \u001b[39mis\u001b[39;00m \u001b[39mnot\u001b[39;00m \u001b[39mNone\u001b[39;00m:\n\u001b[1;32m     42\u001b[0m         \u001b[39mreturn\u001b[39;00m trainer\u001b[39m.\u001b[39mstrategy\u001b[39m.\u001b[39mlauncher\u001b[39m.\u001b[39mlaunch(trainer_fn, \u001b[39m*\u001b[39margs, trainer\u001b[39m=\u001b[39mtrainer, \u001b[39m*\u001b[39m\u001b[39m*\u001b[39mkwargs)\n\u001b[0;32m---> 43\u001b[0m     \u001b[39mreturn\u001b[39;00m trainer_fn(\u001b[39m*\u001b[39;49margs, \u001b[39m*\u001b[39;49m\u001b[39m*\u001b[39;49mkwargs)\n\u001b[1;32m     45\u001b[0m \u001b[39mexcept\u001b[39;00m _TunerExitException:\n\u001b[1;32m     46\u001b[0m     _call_teardown_hook(trainer)\n",
+      "File \u001b[0;32m~/anaconda3/envs/testenv/lib/python3.9/site-packages/pytorch_lightning/trainer/trainer.py:571\u001b[0m, in \u001b[0;36mTrainer._fit_impl\u001b[0;34m(self, model, train_dataloaders, val_dataloaders, datamodule, ckpt_path)\u001b[0m\n\u001b[1;32m    561\u001b[0m \u001b[39mself\u001b[39m\u001b[39m.\u001b[39m_data_connector\u001b[39m.\u001b[39mattach_data(\n\u001b[1;32m    562\u001b[0m     model, train_dataloaders\u001b[39m=\u001b[39mtrain_dataloaders, val_dataloaders\u001b[39m=\u001b[39mval_dataloaders, datamodule\u001b[39m=\u001b[39mdatamodule\n\u001b[1;32m    563\u001b[0m )\n\u001b[1;32m    565\u001b[0m ckpt_path \u001b[39m=\u001b[39m \u001b[39mself\u001b[39m\u001b[39m.\u001b[39m_checkpoint_connector\u001b[39m.\u001b[39m_select_ckpt_path(\n\u001b[1;32m    566\u001b[0m     \u001b[39mself\u001b[39m\u001b[39m.\u001b[39mstate\u001b[39m.\u001b[39mfn,\n\u001b[1;32m    567\u001b[0m     ckpt_path,\n\u001b[1;32m    568\u001b[0m     model_provided\u001b[39m=\u001b[39m\u001b[39mTrue\u001b[39;00m,\n\u001b[1;32m    569\u001b[0m     model_connected\u001b[39m=\u001b[39m\u001b[39mself\u001b[39m\u001b[39m.\u001b[39mlightning_module \u001b[39mis\u001b[39;00m \u001b[39mnot\u001b[39;00m \u001b[39mNone\u001b[39;00m,\n\u001b[1;32m    570\u001b[0m )\n\u001b[0;32m--> 571\u001b[0m \u001b[39mself\u001b[39;49m\u001b[39m.\u001b[39;49m_run(model, ckpt_path\u001b[39m=\u001b[39;49mckpt_path)\n\u001b[1;32m    573\u001b[0m \u001b[39massert\u001b[39;00m \u001b[39mself\u001b[39m\u001b[39m.\u001b[39mstate\u001b[39m.\u001b[39mstopped\n\u001b[1;32m    574\u001b[0m \u001b[39mself\u001b[39m\u001b[39m.\u001b[39mtraining \u001b[39m=\u001b[39m \u001b[39mFalse\u001b[39;00m\n",
+      "File \u001b[0;32m~/anaconda3/envs/testenv/lib/python3.9/site-packages/pytorch_lightning/trainer/trainer.py:980\u001b[0m, in \u001b[0;36mTrainer._run\u001b[0;34m(self, model, ckpt_path)\u001b[0m\n\u001b[1;32m    975\u001b[0m \u001b[39mself\u001b[39m\u001b[39m.\u001b[39m_signal_connector\u001b[39m.\u001b[39mregister_signal_handlers()\n\u001b[1;32m    977\u001b[0m \u001b[39m# ----------------------------\u001b[39;00m\n\u001b[1;32m    978\u001b[0m \u001b[39m# RUN THE TRAINER\u001b[39;00m\n\u001b[1;32m    979\u001b[0m \u001b[39m# ----------------------------\u001b[39;00m\n\u001b[0;32m--> 980\u001b[0m results \u001b[39m=\u001b[39m \u001b[39mself\u001b[39;49m\u001b[39m.\u001b[39;49m_run_stage()\n\u001b[1;32m    982\u001b[0m \u001b[39m# ----------------------------\u001b[39;00m\n\u001b[1;32m    983\u001b[0m \u001b[39m# POST-Training CLEAN UP\u001b[39;00m\n\u001b[1;32m    984\u001b[0m \u001b[39m# ----------------------------\u001b[39;00m\n\u001b[1;32m    985\u001b[0m log\u001b[39m.\u001b[39mdebug(\u001b[39mf\u001b[39m\u001b[39m\"\u001b[39m\u001b[39m{\u001b[39;00m\u001b[39mself\u001b[39m\u001b[39m.\u001b[39m\u001b[39m__class__\u001b[39m\u001b[39m.\u001b[39m\u001b[39m__name__\u001b[39m\u001b[39m}\u001b[39;00m\u001b[39m: trainer tearing down\u001b[39m\u001b[39m\"\u001b[39m)\n",
+      "File \u001b[0;32m~/anaconda3/envs/testenv/lib/python3.9/site-packages/pytorch_lightning/trainer/trainer.py:1023\u001b[0m, in \u001b[0;36mTrainer._run_stage\u001b[0;34m(self)\u001b[0m\n\u001b[1;32m   1021\u001b[0m         \u001b[39mself\u001b[39m\u001b[39m.\u001b[39m_run_sanity_check()\n\u001b[1;32m   1022\u001b[0m     \u001b[39mwith\u001b[39;00m torch\u001b[39m.\u001b[39mautograd\u001b[39m.\u001b[39mset_detect_anomaly(\u001b[39mself\u001b[39m\u001b[39m.\u001b[39m_detect_anomaly):\n\u001b[0;32m-> 1023\u001b[0m         \u001b[39mself\u001b[39;49m\u001b[39m.\u001b[39;49mfit_loop\u001b[39m.\u001b[39;49mrun()\n\u001b[1;32m   1024\u001b[0m     \u001b[39mreturn\u001b[39;00m \u001b[39mNone\u001b[39;00m\n\u001b[1;32m   1025\u001b[0m \u001b[39mraise\u001b[39;00m \u001b[39mRuntimeError\u001b[39;00m(\u001b[39mf\u001b[39m\u001b[39m\"\u001b[39m\u001b[39mUnexpected state \u001b[39m\u001b[39m{\u001b[39;00m\u001b[39mself\u001b[39m\u001b[39m.\u001b[39mstate\u001b[39m}\u001b[39;00m\u001b[39m\"\u001b[39m)\n",
+      "File \u001b[0;32m~/anaconda3/envs/testenv/lib/python3.9/site-packages/pytorch_lightning/loops/fit_loop.py:202\u001b[0m, in \u001b[0;36m_FitLoop.run\u001b[0;34m(self)\u001b[0m\n\u001b[1;32m    200\u001b[0m \u001b[39mtry\u001b[39;00m:\n\u001b[1;32m    201\u001b[0m     \u001b[39mself\u001b[39m\u001b[39m.\u001b[39mon_advance_start()\n\u001b[0;32m--> 202\u001b[0m     \u001b[39mself\u001b[39;49m\u001b[39m.\u001b[39;49madvance()\n\u001b[1;32m    203\u001b[0m     \u001b[39mself\u001b[39m\u001b[39m.\u001b[39mon_advance_end()\n\u001b[1;32m    204\u001b[0m     \u001b[39mself\u001b[39m\u001b[39m.\u001b[39m_restarting \u001b[39m=\u001b[39m \u001b[39mFalse\u001b[39;00m\n",
+      "File \u001b[0;32m~/anaconda3/envs/testenv/lib/python3.9/site-packages/pytorch_lightning/loops/fit_loop.py:355\u001b[0m, in \u001b[0;36m_FitLoop.advance\u001b[0;34m(self)\u001b[0m\n\u001b[1;32m    353\u001b[0m \u001b[39mself\u001b[39m\u001b[39m.\u001b[39m_data_fetcher\u001b[39m.\u001b[39msetup(combined_loader)\n\u001b[1;32m    354\u001b[0m \u001b[39mwith\u001b[39;00m \u001b[39mself\u001b[39m\u001b[39m.\u001b[39mtrainer\u001b[39m.\u001b[39mprofiler\u001b[39m.\u001b[39mprofile(\u001b[39m\"\u001b[39m\u001b[39mrun_training_epoch\u001b[39m\u001b[39m\"\u001b[39m):\n\u001b[0;32m--> 355\u001b[0m     \u001b[39mself\u001b[39;49m\u001b[39m.\u001b[39;49mepoch_loop\u001b[39m.\u001b[39;49mrun(\u001b[39mself\u001b[39;49m\u001b[39m.\u001b[39;49m_data_fetcher)\n",
+      "File \u001b[0;32m~/anaconda3/envs/testenv/lib/python3.9/site-packages/pytorch_lightning/loops/training_epoch_loop.py:133\u001b[0m, in \u001b[0;36m_TrainingEpochLoop.run\u001b[0;34m(self, data_fetcher)\u001b[0m\n\u001b[1;32m    131\u001b[0m \u001b[39mwhile\u001b[39;00m \u001b[39mnot\u001b[39;00m \u001b[39mself\u001b[39m\u001b[39m.\u001b[39mdone:\n\u001b[1;32m    132\u001b[0m     \u001b[39mtry\u001b[39;00m:\n\u001b[0;32m--> 133\u001b[0m         \u001b[39mself\u001b[39;49m\u001b[39m.\u001b[39;49madvance(data_fetcher)\n\u001b[1;32m    134\u001b[0m         \u001b[39mself\u001b[39m\u001b[39m.\u001b[39mon_advance_end()\n\u001b[1;32m    135\u001b[0m         \u001b[39mself\u001b[39m\u001b[39m.\u001b[39m_restarting \u001b[39m=\u001b[39m \u001b[39mFalse\u001b[39;00m\n",
+      "File \u001b[0;32m~/anaconda3/envs/testenv/lib/python3.9/site-packages/pytorch_lightning/loops/training_epoch_loop.py:219\u001b[0m, in \u001b[0;36m_TrainingEpochLoop.advance\u001b[0;34m(self, data_fetcher)\u001b[0m\n\u001b[1;32m    216\u001b[0m \u001b[39mwith\u001b[39;00m trainer\u001b[39m.\u001b[39mprofiler\u001b[39m.\u001b[39mprofile(\u001b[39m\"\u001b[39m\u001b[39mrun_training_batch\u001b[39m\u001b[39m\"\u001b[39m):\n\u001b[1;32m    217\u001b[0m     \u001b[39mif\u001b[39;00m trainer\u001b[39m.\u001b[39mlightning_module\u001b[39m.\u001b[39mautomatic_optimization:\n\u001b[1;32m    218\u001b[0m         \u001b[39m# in automatic optimization, there can only be one optimizer\u001b[39;00m\n\u001b[0;32m--> 219\u001b[0m         batch_output \u001b[39m=\u001b[39m \u001b[39mself\u001b[39;49m\u001b[39m.\u001b[39;49mautomatic_optimization\u001b[39m.\u001b[39;49mrun(trainer\u001b[39m.\u001b[39;49moptimizers[\u001b[39m0\u001b[39;49m], kwargs)\n\u001b[1;32m    220\u001b[0m     \u001b[39melse\u001b[39;00m:\n\u001b[1;32m    221\u001b[0m         batch_output \u001b[39m=\u001b[39m \u001b[39mself\u001b[39m\u001b[39m.\u001b[39mmanual_optimization\u001b[39m.\u001b[39mrun(kwargs)\n",
+      "File \u001b[0;32m~/anaconda3/envs/testenv/lib/python3.9/site-packages/pytorch_lightning/loops/optimization/automatic.py:188\u001b[0m, in \u001b[0;36m_AutomaticOptimization.run\u001b[0;34m(self, optimizer, kwargs)\u001b[0m\n\u001b[1;32m    181\u001b[0m         closure()\n\u001b[1;32m    183\u001b[0m \u001b[39m# ------------------------------\u001b[39;00m\n\u001b[1;32m    184\u001b[0m \u001b[39m# BACKWARD PASS\u001b[39;00m\n\u001b[1;32m    185\u001b[0m \u001b[39m# ------------------------------\u001b[39;00m\n\u001b[1;32m    186\u001b[0m \u001b[39m# gradient update with accumulated gradients\u001b[39;00m\n\u001b[1;32m    187\u001b[0m \u001b[39melse\u001b[39;00m:\n\u001b[0;32m--> 188\u001b[0m     \u001b[39mself\u001b[39;49m\u001b[39m.\u001b[39;49m_optimizer_step(kwargs\u001b[39m.\u001b[39;49mget(\u001b[39m\"\u001b[39;49m\u001b[39mbatch_idx\u001b[39;49m\u001b[39m\"\u001b[39;49m, \u001b[39m0\u001b[39;49m), closure)\n\u001b[1;32m    190\u001b[0m result \u001b[39m=\u001b[39m closure\u001b[39m.\u001b[39mconsume_result()\n\u001b[1;32m    191\u001b[0m \u001b[39mif\u001b[39;00m result\u001b[39m.\u001b[39mloss \u001b[39mis\u001b[39;00m \u001b[39mNone\u001b[39;00m:\n",
+      "File \u001b[0;32m~/anaconda3/envs/testenv/lib/python3.9/site-packages/pytorch_lightning/loops/optimization/automatic.py:266\u001b[0m, in \u001b[0;36m_AutomaticOptimization._optimizer_step\u001b[0;34m(self, batch_idx, train_step_and_backward_closure)\u001b[0m\n\u001b[1;32m    263\u001b[0m     \u001b[39mself\u001b[39m\u001b[39m.\u001b[39moptim_progress\u001b[39m.\u001b[39moptimizer\u001b[39m.\u001b[39mstep\u001b[39m.\u001b[39mincrement_ready()\n\u001b[1;32m    265\u001b[0m \u001b[39m# model hook\u001b[39;00m\n\u001b[0;32m--> 266\u001b[0m call\u001b[39m.\u001b[39;49m_call_lightning_module_hook(\n\u001b[1;32m    267\u001b[0m     trainer,\n\u001b[1;32m    268\u001b[0m     \u001b[39m\"\u001b[39;49m\u001b[39moptimizer_step\u001b[39;49m\u001b[39m\"\u001b[39;49m,\n\u001b[1;32m    269\u001b[0m     trainer\u001b[39m.\u001b[39;49mcurrent_epoch,\n\u001b[1;32m    270\u001b[0m     batch_idx,\n\u001b[1;32m    271\u001b[0m     optimizer,\n\u001b[1;32m    272\u001b[0m     train_step_and_backward_closure,\n\u001b[1;32m    273\u001b[0m )\n\u001b[1;32m    275\u001b[0m \u001b[39mif\u001b[39;00m \u001b[39mnot\u001b[39;00m should_accumulate:\n\u001b[1;32m    276\u001b[0m     \u001b[39mself\u001b[39m\u001b[39m.\u001b[39moptim_progress\u001b[39m.\u001b[39moptimizer\u001b[39m.\u001b[39mstep\u001b[39m.\u001b[39mincrement_completed()\n",
+      "File \u001b[0;32m~/anaconda3/envs/testenv/lib/python3.9/site-packages/pytorch_lightning/trainer/call.py:146\u001b[0m, in \u001b[0;36m_call_lightning_module_hook\u001b[0;34m(trainer, hook_name, pl_module, *args, **kwargs)\u001b[0m\n\u001b[1;32m    143\u001b[0m pl_module\u001b[39m.\u001b[39m_current_fx_name \u001b[39m=\u001b[39m hook_name\n\u001b[1;32m    145\u001b[0m \u001b[39mwith\u001b[39;00m trainer\u001b[39m.\u001b[39mprofiler\u001b[39m.\u001b[39mprofile(\u001b[39mf\u001b[39m\u001b[39m\"\u001b[39m\u001b[39m[LightningModule]\u001b[39m\u001b[39m{\u001b[39;00mpl_module\u001b[39m.\u001b[39m\u001b[39m__class__\u001b[39m\u001b[39m.\u001b[39m\u001b[39m__name__\u001b[39m\u001b[39m}\u001b[39;00m\u001b[39m.\u001b[39m\u001b[39m{\u001b[39;00mhook_name\u001b[39m}\u001b[39;00m\u001b[39m\"\u001b[39m):\n\u001b[0;32m--> 146\u001b[0m     output \u001b[39m=\u001b[39m fn(\u001b[39m*\u001b[39;49margs, \u001b[39m*\u001b[39;49m\u001b[39m*\u001b[39;49mkwargs)\n\u001b[1;32m    148\u001b[0m \u001b[39m# restore current_fx when nested context\u001b[39;00m\n\u001b[1;32m    149\u001b[0m pl_module\u001b[39m.\u001b[39m_current_fx_name \u001b[39m=\u001b[39m prev_fx_name\n",
+      "File \u001b[0;32m~/anaconda3/envs/testenv/lib/python3.9/site-packages/pytorch_lightning/core/module.py:1270\u001b[0m, in \u001b[0;36mLightningModule.optimizer_step\u001b[0;34m(self, epoch, batch_idx, optimizer, optimizer_closure)\u001b[0m\n\u001b[1;32m   1232\u001b[0m \u001b[39mdef\u001b[39;00m \u001b[39moptimizer_step\u001b[39m(\n\u001b[1;32m   1233\u001b[0m     \u001b[39mself\u001b[39m,\n\u001b[1;32m   1234\u001b[0m     epoch: \u001b[39mint\u001b[39m,\n\u001b[0;32m   (...)\u001b[0m\n\u001b[1;32m   1237\u001b[0m     optimizer_closure: Optional[Callable[[], Any]] \u001b[39m=\u001b[39m \u001b[39mNone\u001b[39;00m,\n\u001b[1;32m   1238\u001b[0m ) \u001b[39m-\u001b[39m\u001b[39m>\u001b[39m \u001b[39mNone\u001b[39;00m:\n\u001b[1;32m   1239\u001b[0m \u001b[39m    \u001b[39m\u001b[39mr\u001b[39m\u001b[39m\"\"\"Override this method to adjust the default way the :class:`~pytorch_lightning.trainer.trainer.Trainer`\u001b[39;00m\n\u001b[1;32m   1240\u001b[0m \u001b[39m    calls the optimizer.\u001b[39;00m\n\u001b[1;32m   1241\u001b[0m \n\u001b[0;32m   (...)\u001b[0m\n\u001b[1;32m   1268\u001b[0m \u001b[39m                    pg[\"lr\"] = lr_scale * self.learning_rate\u001b[39;00m\n\u001b[1;32m   1269\u001b[0m \u001b[39m    \"\"\"\u001b[39;00m\n\u001b[0;32m-> 1270\u001b[0m     optimizer\u001b[39m.\u001b[39;49mstep(closure\u001b[39m=\u001b[39;49moptimizer_closure)\n",
+      "File \u001b[0;32m~/anaconda3/envs/testenv/lib/python3.9/site-packages/pytorch_lightning/core/optimizer.py:161\u001b[0m, in \u001b[0;36mLightningOptimizer.step\u001b[0;34m(self, closure, **kwargs)\u001b[0m\n\u001b[1;32m    158\u001b[0m     \u001b[39mraise\u001b[39;00m MisconfigurationException(\u001b[39m\"\u001b[39m\u001b[39mWhen `optimizer.step(closure)` is called, the closure should be callable\u001b[39m\u001b[39m\"\u001b[39m)\n\u001b[1;32m    160\u001b[0m \u001b[39massert\u001b[39;00m \u001b[39mself\u001b[39m\u001b[39m.\u001b[39m_strategy \u001b[39mis\u001b[39;00m \u001b[39mnot\u001b[39;00m \u001b[39mNone\u001b[39;00m\n\u001b[0;32m--> 161\u001b[0m step_output \u001b[39m=\u001b[39m \u001b[39mself\u001b[39;49m\u001b[39m.\u001b[39;49m_strategy\u001b[39m.\u001b[39;49moptimizer_step(\u001b[39mself\u001b[39;49m\u001b[39m.\u001b[39;49m_optimizer, closure, \u001b[39m*\u001b[39;49m\u001b[39m*\u001b[39;49mkwargs)\n\u001b[1;32m    163\u001b[0m \u001b[39mself\u001b[39m\u001b[39m.\u001b[39m_on_after_step()\n\u001b[1;32m    165\u001b[0m \u001b[39mreturn\u001b[39;00m step_output\n",
+      "File \u001b[0;32m~/anaconda3/envs/testenv/lib/python3.9/site-packages/pytorch_lightning/strategies/strategy.py:231\u001b[0m, in \u001b[0;36mStrategy.optimizer_step\u001b[0;34m(self, optimizer, closure, model, **kwargs)\u001b[0m\n\u001b[1;32m    229\u001b[0m \u001b[39m# TODO(fabric): remove assertion once strategy's optimizer_step typing is fixed\u001b[39;00m\n\u001b[1;32m    230\u001b[0m \u001b[39massert\u001b[39;00m \u001b[39misinstance\u001b[39m(model, pl\u001b[39m.\u001b[39mLightningModule)\n\u001b[0;32m--> 231\u001b[0m \u001b[39mreturn\u001b[39;00m \u001b[39mself\u001b[39;49m\u001b[39m.\u001b[39;49mprecision_plugin\u001b[39m.\u001b[39;49moptimizer_step(optimizer, model\u001b[39m=\u001b[39;49mmodel, closure\u001b[39m=\u001b[39;49mclosure, \u001b[39m*\u001b[39;49m\u001b[39m*\u001b[39;49mkwargs)\n",
+      "File \u001b[0;32m~/anaconda3/envs/testenv/lib/python3.9/site-packages/pytorch_lightning/plugins/precision/precision_plugin.py:116\u001b[0m, in \u001b[0;36mPrecisionPlugin.optimizer_step\u001b[0;34m(self, optimizer, model, closure, **kwargs)\u001b[0m\n\u001b[1;32m    114\u001b[0m \u001b[39m\u001b[39m\u001b[39m\"\"\"Hook to run the optimizer step.\"\"\"\u001b[39;00m\n\u001b[1;32m    115\u001b[0m closure \u001b[39m=\u001b[39m partial(\u001b[39mself\u001b[39m\u001b[39m.\u001b[39m_wrap_closure, model, optimizer, closure)\n\u001b[0;32m--> 116\u001b[0m \u001b[39mreturn\u001b[39;00m optimizer\u001b[39m.\u001b[39;49mstep(closure\u001b[39m=\u001b[39;49mclosure, \u001b[39m*\u001b[39;49m\u001b[39m*\u001b[39;49mkwargs)\n",
+      "File \u001b[0;32m~/anaconda3/envs/testenv/lib/python3.9/site-packages/torch/optim/lr_scheduler.py:69\u001b[0m, in \u001b[0;36mLRScheduler.__init__.<locals>.with_counter.<locals>.wrapper\u001b[0;34m(*args, **kwargs)\u001b[0m\n\u001b[1;32m     67\u001b[0m instance\u001b[39m.\u001b[39m_step_count \u001b[39m+\u001b[39m\u001b[39m=\u001b[39m \u001b[39m1\u001b[39m\n\u001b[1;32m     68\u001b[0m wrapped \u001b[39m=\u001b[39m func\u001b[39m.\u001b[39m\u001b[39m__get__\u001b[39m(instance, \u001b[39mcls\u001b[39m)\n\u001b[0;32m---> 69\u001b[0m \u001b[39mreturn\u001b[39;00m wrapped(\u001b[39m*\u001b[39;49margs, \u001b[39m*\u001b[39;49m\u001b[39m*\u001b[39;49mkwargs)\n",
+      "File \u001b[0;32m~/anaconda3/envs/testenv/lib/python3.9/site-packages/torch/optim/optimizer.py:280\u001b[0m, in \u001b[0;36mOptimizer.profile_hook_step.<locals>.wrapper\u001b[0;34m(*args, **kwargs)\u001b[0m\n\u001b[1;32m    276\u001b[0m         \u001b[39melse\u001b[39;00m:\n\u001b[1;32m    277\u001b[0m             \u001b[39mraise\u001b[39;00m \u001b[39mRuntimeError\u001b[39;00m(\u001b[39mf\u001b[39m\u001b[39m\"\u001b[39m\u001b[39m{\u001b[39;00mfunc\u001b[39m}\u001b[39;00m\u001b[39m must return None or a tuple of (new_args, new_kwargs),\u001b[39m\u001b[39m\"\u001b[39m\n\u001b[1;32m    278\u001b[0m                                \u001b[39mf\u001b[39m\u001b[39m\"\u001b[39m\u001b[39mbut got \u001b[39m\u001b[39m{\u001b[39;00mresult\u001b[39m}\u001b[39;00m\u001b[39m.\u001b[39m\u001b[39m\"\u001b[39m)\n\u001b[0;32m--> 280\u001b[0m out \u001b[39m=\u001b[39m func(\u001b[39m*\u001b[39;49margs, \u001b[39m*\u001b[39;49m\u001b[39m*\u001b[39;49mkwargs)\n\u001b[1;32m    281\u001b[0m \u001b[39mself\u001b[39m\u001b[39m.\u001b[39m_optimizer_step_code()\n\u001b[1;32m    283\u001b[0m \u001b[39m# call optimizer step post hooks\u001b[39;00m\n",
+      "File \u001b[0;32m~/anaconda3/envs/testenv/lib/python3.9/site-packages/torch/utils/_contextlib.py:115\u001b[0m, in \u001b[0;36mcontext_decorator.<locals>.decorate_context\u001b[0;34m(*args, **kwargs)\u001b[0m\n\u001b[1;32m    112\u001b[0m \u001b[39m@functools\u001b[39m\u001b[39m.\u001b[39mwraps(func)\n\u001b[1;32m    113\u001b[0m \u001b[39mdef\u001b[39;00m \u001b[39mdecorate_context\u001b[39m(\u001b[39m*\u001b[39margs, \u001b[39m*\u001b[39m\u001b[39m*\u001b[39mkwargs):\n\u001b[1;32m    114\u001b[0m     \u001b[39mwith\u001b[39;00m ctx_factory():\n\u001b[0;32m--> 115\u001b[0m         \u001b[39mreturn\u001b[39;00m func(\u001b[39m*\u001b[39;49margs, \u001b[39m*\u001b[39;49m\u001b[39m*\u001b[39;49mkwargs)\n",
+      "File \u001b[0;32m~/anaconda3/envs/testenv/lib/python3.9/site-packages/transformers/optimization.py:468\u001b[0m, in \u001b[0;36mAdamW.step\u001b[0;34m(self, closure)\u001b[0m\n\u001b[1;32m    466\u001b[0m exp_avg\u001b[39m.\u001b[39mmul_(beta1)\u001b[39m.\u001b[39madd_(grad, alpha\u001b[39m=\u001b[39m(\u001b[39m1.0\u001b[39m \u001b[39m-\u001b[39m beta1))\n\u001b[1;32m    467\u001b[0m exp_avg_sq\u001b[39m.\u001b[39mmul_(beta2)\u001b[39m.\u001b[39maddcmul_(grad, grad, value\u001b[39m=\u001b[39m\u001b[39m1.0\u001b[39m \u001b[39m-\u001b[39m beta2)\n\u001b[0;32m--> 468\u001b[0m denom \u001b[39m=\u001b[39m exp_avg_sq\u001b[39m.\u001b[39;49msqrt()\u001b[39m.\u001b[39madd_(group[\u001b[39m\"\u001b[39m\u001b[39meps\u001b[39m\u001b[39m\"\u001b[39m])\n\u001b[1;32m    470\u001b[0m step_size \u001b[39m=\u001b[39m group[\u001b[39m\"\u001b[39m\u001b[39mlr\u001b[39m\u001b[39m\"\u001b[39m]\n\u001b[1;32m    471\u001b[0m \u001b[39mif\u001b[39;00m group[\u001b[39m\"\u001b[39m\u001b[39mcorrect_bias\u001b[39m\u001b[39m\"\u001b[39m]:  \u001b[39m# No bias correction for Bert\u001b[39;00m\n",
+      "\u001b[0;31mOutOfMemoryError\u001b[0m: CUDA out of memory. Tried to allocate 352.00 MiB (GPU 0; 4.00 GiB total capacity; 2.67 GiB already allocated; 0 bytes free; 2.80 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation.  See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF"
+     ]
+    }
+   ],
+   "source": [
+    "model = sinKafModel(model, optimizer, scheduler)\n",
+    "trainer = pl.Trainer( max_epochs=epochs, limit_train_batches=0.1, devices=1, accelerator='gpu') \n",
+    "trainer.fit(model,train_dataloader,validation_dataloader )"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "sent = 'Koyunlar hasta'"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "input_ids = []\n",
+    "attention_masks = []\n",
+    "\n",
+    "encoded_dict = tokenizer.encode_plus(\n",
+    "                    sent,\n",
+    "                    add_special_tokens = True,\n",
+    "                    max_length = 64,\n",
+    "                    pad_to_max_length = True,\n",
+    "                    return_attention_mask = True,\n",
+    "                    return_tensors = 'pt',\n",
+    "                )\n",
+    "\n",
+    "\n",
+    "input_ids = encoded_dict['input_ids']\n",
+    "attention_masks = encoded_dict['attention_mask']\n",
+    "\n",
+    "\n",
+    "input_ids = torch.cat([input_ids], dim=0)\n",
+    "input_mask = torch.cat([attention_masks], dim=0)\n",
+    "labels = torch.tensor(labels)\n",
+    "\n",
+    "\n",
+    "\n",
+    "\n",
+    "print('Original: ', sent)\n",
+    "print('Token IDs:', input_ids)\n",
+    "print('Token IDs:', input_mask)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "outputs = model(input_ids, input_mask, labels[0])"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "outputs[0]"
+   ]
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "sbtenv",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.9.0"
+  },
+  "orig_nbformat": 4
+ },
+ "nbformat": 4,
+ "nbformat_minor": 2
+}

onnx_model/config.json ADDED Viewed

	@@ -0,0 +1,27 @@

+{
+  "_name_or_path": "/DATA/sin-kaf/test_trainer/checkpoint-18500/config.json",
+  "activation": "gelu",
+  "architectures": [
+    "DistilBertForSequenceClassification"
+  ],
+  "attention_dropout": 0.1,
+  "attention_probs_dropout_prob": 0.1,
+  "dim": 768,
+  "dropout": 0.1,
+  "hidden_dim": 3072,
+  "initializer_range": 0.02,
+  "max_position_embeddings": 512,
+  "model_type": "distilbert",
+  "n_heads": 12,
+  "n_layers": 6,
+  "output_past": true,
+  "pad_token_id": 0,
+  "problem_type": "single_label_classification",
+  "qa_dropout": 0.1,
+  "seq_classif_dropout": 0.2,
+  "sinusoidal_pos_embds": true,
+  "tie_weights_": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.34.1",
+  "vocab_size": 32000
+}

onnx_model/model.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cee6ddb2c1e1abb21e513881265239a57dd3cba52f621b6c81a78e41e66eae09
+size 272496128

outlier_detection.ipynb ADDED Viewed

	@@ -0,0 +1,2292 @@

+{
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": 1,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import re\n",
+    "import tqdm\n",
+    "import numpy as np\n",
+    "import pandas as pd\n",
+    "import matplotlib.pyplot as plt\n",
+    "import seaborn as sns\n",
+    "\n",
+    "from sklearn.datasets import fetch_20newsgroups\n",
+    "from sklearn.manifold import TSNE\n"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 2,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "embeding_df=pd.read_csv('/mnt/c/Users/selin_uzturk/Desktop/sinkaf/encoded.csv')\n",
+    "embeding_df=embeding_df.drop(['Unnamed: 0'], axis=1)\n",
+    "copy_df=pd.read_csv('/mnt/c/Users/selin_uzturk/Desktop/sinkaf/encoded.csv')\n",
+    "copy_df=copy_df.drop(['Unnamed: 0'], axis=1)\n"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 3,
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/html": [
+       "<div>\n",
+       "<style scoped>\n",
+       "    .dataframe tbody tr th:only-of-type {\n",
+       "        vertical-align: middle;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe tbody tr th {\n",
+       "        vertical-align: top;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe thead th {\n",
+       "        text-align: right;\n",
+       "    }\n",
+       "</style>\n",
+       "<table border=\"1\" class=\"dataframe\">\n",
+       "  <thead>\n",
+       "    <tr style=\"text-align: right;\">\n",
+       "      <th></th>\n",
+       "      <th>0</th>\n",
+       "      <th>1</th>\n",
+       "      <th>2</th>\n",
+       "      <th>3</th>\n",
+       "      <th>4</th>\n",
+       "      <th>5</th>\n",
+       "      <th>6</th>\n",
+       "      <th>7</th>\n",
+       "      <th>8</th>\n",
+       "      <th>9</th>\n",
+       "      <th>...</th>\n",
+       "      <th>56</th>\n",
+       "      <th>57</th>\n",
+       "      <th>58</th>\n",
+       "      <th>59</th>\n",
+       "      <th>60</th>\n",
+       "      <th>61</th>\n",
+       "      <th>62</th>\n",
+       "      <th>63</th>\n",
+       "      <th>labels</th>\n",
+       "      <th>tweet</th>\n",
+       "    </tr>\n",
+       "  </thead>\n",
+       "  <tbody>\n",
+       "    <tr>\n",
+       "      <th>0</th>\n",
+       "      <td>101</td>\n",
+       "      <td>10110</td>\n",
+       "      <td>175</td>\n",
+       "      <td>78653</td>\n",
+       "      <td>189</td>\n",
+       "      <td>25285</td>\n",
+       "      <td>15976</td>\n",
+       "      <td>40840</td>\n",
+       "      <td>276</td>\n",
+       "      <td>31623</td>\n",
+       "      <td>...</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>en güzel uyuyan insan ödülü jeon jungkook'a g...</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>1</th>\n",
+       "      <td>101</td>\n",
+       "      <td>11589</td>\n",
+       "      <td>10706</td>\n",
+       "      <td>10713</td>\n",
+       "      <td>10794</td>\n",
+       "      <td>94698</td>\n",
+       "      <td>30668</td>\n",
+       "      <td>24883</td>\n",
+       "      <td>117</td>\n",
+       "      <td>23763</td>\n",
+       "      <td>...</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>Mekanı cennet olsun, saygılar sayın avukatımı...</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>2</th>\n",
+       "      <td>101</td>\n",
+       "      <td>148</td>\n",
+       "      <td>30471</td>\n",
+       "      <td>10774</td>\n",
+       "      <td>13785</td>\n",
+       "      <td>13779</td>\n",
+       "      <td>33642</td>\n",
+       "      <td>14399</td>\n",
+       "      <td>48271</td>\n",
+       "      <td>76686</td>\n",
+       "      <td>...</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>Kızlar aranızda kas yığını beylere düşenler ol...</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>3</th>\n",
+       "      <td>101</td>\n",
+       "      <td>19319</td>\n",
+       "      <td>16724</td>\n",
+       "      <td>10118</td>\n",
+       "      <td>10107</td>\n",
+       "      <td>78323</td>\n",
+       "      <td>12407</td>\n",
+       "      <td>38959</td>\n",
+       "      <td>22934</td>\n",
+       "      <td>10147</td>\n",
+       "      <td>...</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>Biraz ders çalışayım. Tembellik ve uyku düşman...</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>4</th>\n",
+       "      <td>101</td>\n",
+       "      <td>30932</td>\n",
+       "      <td>58706</td>\n",
+       "      <td>58054</td>\n",
+       "      <td>44907</td>\n",
+       "      <td>10224</td>\n",
+       "      <td>106583</td>\n",
+       "      <td>10288</td>\n",
+       "      <td>12524</td>\n",
+       "      <td>13878</td>\n",
+       "      <td>...</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>Trezeguet yerine El Sharawy daha iyi olmaz mı</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>...</th>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>43344</th>\n",
+       "      <td>101</td>\n",
+       "      <td>20065</td>\n",
+       "      <td>10161</td>\n",
+       "      <td>115</td>\n",
+       "      <td>115</td>\n",
+       "      <td>103784</td>\n",
+       "      <td>10774</td>\n",
+       "      <td>21388</td>\n",
+       "      <td>10245</td>\n",
+       "      <td>92067</td>\n",
+       "      <td>...</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>1</td>\n",
+       "      <td>Hil**adamlar kesinlikle kelimeleri anlamıyorla...</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>43345</th>\n",
+       "      <td>101</td>\n",
+       "      <td>139</td>\n",
+       "      <td>80839</td>\n",
+       "      <td>24109</td>\n",
+       "      <td>13406</td>\n",
+       "      <td>18985</td>\n",
+       "      <td>16285</td>\n",
+       "      <td>10163</td>\n",
+       "      <td>11062</td>\n",
+       "      <td>276</td>\n",
+       "      <td>...</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>1</td>\n",
+       "      <td>Böyle piçlerin çok erken ölmemelerini ve çok f...</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>43346</th>\n",
+       "      <td>101</td>\n",
+       "      <td>105549</td>\n",
+       "      <td>102635</td>\n",
+       "      <td>10140</td>\n",
+       "      <td>26943</td>\n",
+       "      <td>11499</td>\n",
+       "      <td>110516</td>\n",
+       "      <td>21899</td>\n",
+       "      <td>11861</td>\n",
+       "      <td>10561</td>\n",
+       "      <td>...</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>1</td>\n",
+       "      <td>Turgay denilen bu holigonda bir sorun yok, gur...</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>43347</th>\n",
+       "      <td>101</td>\n",
+       "      <td>81424</td>\n",
+       "      <td>26398</td>\n",
+       "      <td>92017</td>\n",
+       "      <td>109620</td>\n",
+       "      <td>10941</td>\n",
+       "      <td>76010</td>\n",
+       "      <td>10115</td>\n",
+       "      <td>19830</td>\n",
+       "      <td>26083</td>\n",
+       "      <td>...</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>1</td>\n",
+       "      <td>Umarım ülkenin düşük zekadan kurtulması ilgile...</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>43348</th>\n",
+       "      <td>101</td>\n",
+       "      <td>39774</td>\n",
+       "      <td>11127</td>\n",
+       "      <td>45989</td>\n",
+       "      <td>24596</td>\n",
+       "      <td>11933</td>\n",
+       "      <td>170</td>\n",
+       "      <td>17145</td>\n",
+       "      <td>10710</td>\n",
+       "      <td>39125</td>\n",
+       "      <td>...</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>1</td>\n",
+       "      <td>CHP sandıkları bırakmaz, üzerine oturur, bir c...</td>\n",
+       "    </tr>\n",
+       "  </tbody>\n",
+       "</table>\n",
+       "<p>43349 rows × 66 columns</p>\n",
+       "</div>"
+      ],
+      "text/plain": [
+       "         0       1       2      3       4       5       6      7      8   \n",
+       "0      101   10110     175  78653     189   25285   15976  40840    276  \\\n",
+       "1      101   11589   10706  10713   10794   94698   30668  24883    117   \n",
+       "2      101     148   30471  10774   13785   13779   33642  14399  48271   \n",
+       "3      101   19319   16724  10118   10107   78323   12407  38959  22934   \n",
+       "4      101   30932   58706  58054   44907   10224  106583  10288  12524   \n",
+       "...    ...     ...     ...    ...     ...     ...     ...    ...    ...   \n",
+       "43344  101   20065   10161    115     115  103784   10774  21388  10245   \n",
+       "43345  101     139   80839  24109   13406   18985   16285  10163  11062   \n",
+       "43346  101  105549  102635  10140   26943   11499  110516  21899  11861   \n",
+       "43347  101   81424   26398  92017  109620   10941   76010  10115  19830   \n",
+       "43348  101   39774   11127  45989   24596   11933     170  17145  10710   \n",
+       "\n",
+       "           9  ...  56  57  58  59  60  61  62  63  labels   \n",
+       "0      31623  ...   0   0   0   0   0   0   0   0       0  \\\n",
+       "1      23763  ...   0   0   0   0   0   0   0   0       0   \n",
+       "2      76686  ...   0   0   0   0   0   0   0   0       0   \n",
+       "3      10147  ...   0   0   0   0   0   0   0   0       0   \n",
+       "4      13878  ...   0   0   0   0   0   0   0   0       0   \n",
+       "...      ...  ...  ..  ..  ..  ..  ..  ..  ..  ..     ...   \n",
+       "43344  92067  ...   0   0   0   0   0   0   0   0       1   \n",
+       "43345    276  ...   0   0   0   0   0   0   0   0       1   \n",
+       "43346  10561  ...   0   0   0   0   0   0   0   0       1   \n",
+       "43347  26083  ...   0   0   0   0   0   0   0   0       1   \n",
+       "43348  39125  ...   0   0   0   0   0   0   0   0       1   \n",
+       "\n",
+       "                                                   tweet  \n",
+       "0       en güzel uyuyan insan ödülü jeon jungkook'a g...  \n",
+       "1       Mekanı cennet olsun, saygılar sayın avukatımı...  \n",
+       "2      Kızlar aranızda kas yığını beylere düşenler ol...  \n",
+       "3      Biraz ders çalışayım. Tembellik ve uyku düşman...  \n",
+       "4          Trezeguet yerine El Sharawy daha iyi olmaz mı  \n",
+       "...                                                  ...  \n",
+       "43344  Hil**adamlar kesinlikle kelimeleri anlamıyorla...  \n",
+       "43345  Böyle piçlerin çok erken ölmemelerini ve çok f...  \n",
+       "43346  Turgay denilen bu holigonda bir sorun yok, gur...  \n",
+       "43347  Umarım ülkenin düşük zekadan kurtulması ilgile...  \n",
+       "43348  CHP sandıkları bırakmaz, üzerine oturur, bir c...  \n",
+       "\n",
+       "[43349 rows x 66 columns]"
+      ]
+     },
+     "execution_count": 3,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "copy_df"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 4,
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/html": [
+       "<div>\n",
+       "<style scoped>\n",
+       "    .dataframe tbody tr th:only-of-type {\n",
+       "        vertical-align: middle;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe tbody tr th {\n",
+       "        vertical-align: top;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe thead th {\n",
+       "        text-align: right;\n",
+       "    }\n",
+       "</style>\n",
+       "<table border=\"1\" class=\"dataframe\">\n",
+       "  <thead>\n",
+       "    <tr style=\"text-align: right;\">\n",
+       "      <th></th>\n",
+       "      <th>0</th>\n",
+       "      <th>1</th>\n",
+       "      <th>2</th>\n",
+       "      <th>3</th>\n",
+       "      <th>4</th>\n",
+       "      <th>5</th>\n",
+       "      <th>6</th>\n",
+       "      <th>7</th>\n",
+       "      <th>8</th>\n",
+       "      <th>9</th>\n",
+       "      <th>...</th>\n",
+       "      <th>56</th>\n",
+       "      <th>57</th>\n",
+       "      <th>58</th>\n",
+       "      <th>59</th>\n",
+       "      <th>60</th>\n",
+       "      <th>61</th>\n",
+       "      <th>62</th>\n",
+       "      <th>63</th>\n",
+       "      <th>labels</th>\n",
+       "      <th>tweet</th>\n",
+       "    </tr>\n",
+       "  </thead>\n",
+       "  <tbody>\n",
+       "    <tr>\n",
+       "      <th>0</th>\n",
+       "      <td>101</td>\n",
+       "      <td>10110</td>\n",
+       "      <td>175</td>\n",
+       "      <td>78653</td>\n",
+       "      <td>189</td>\n",
+       "      <td>25285</td>\n",
+       "      <td>15976</td>\n",
+       "      <td>40840</td>\n",
+       "      <td>276</td>\n",
+       "      <td>31623</td>\n",
+       "      <td>...</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>en güzel uyuyan insan ödülü jeon jungkook'a g...</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>1</th>\n",
+       "      <td>101</td>\n",
+       "      <td>11589</td>\n",
+       "      <td>10706</td>\n",
+       "      <td>10713</td>\n",
+       "      <td>10794</td>\n",
+       "      <td>94698</td>\n",
+       "      <td>30668</td>\n",
+       "      <td>24883</td>\n",
+       "      <td>117</td>\n",
+       "      <td>23763</td>\n",
+       "      <td>...</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>Mekanı cennet olsun, saygılar sayın avukatımı...</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>2</th>\n",
+       "      <td>101</td>\n",
+       "      <td>148</td>\n",
+       "      <td>30471</td>\n",
+       "      <td>10774</td>\n",
+       "      <td>13785</td>\n",
+       "      <td>13779</td>\n",
+       "      <td>33642</td>\n",
+       "      <td>14399</td>\n",
+       "      <td>48271</td>\n",
+       "      <td>76686</td>\n",
+       "      <td>...</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>Kızlar aranızda kas yığını beylere düşenler ol...</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>3</th>\n",
+       "      <td>101</td>\n",
+       "      <td>19319</td>\n",
+       "      <td>16724</td>\n",
+       "      <td>10118</td>\n",
+       "      <td>10107</td>\n",
+       "      <td>78323</td>\n",
+       "      <td>12407</td>\n",
+       "      <td>38959</td>\n",
+       "      <td>22934</td>\n",
+       "      <td>10147</td>\n",
+       "      <td>...</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>Biraz ders çalışayım. Tembellik ve uyku düşman...</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>4</th>\n",
+       "      <td>101</td>\n",
+       "      <td>30932</td>\n",
+       "      <td>58706</td>\n",
+       "      <td>58054</td>\n",
+       "      <td>44907</td>\n",
+       "      <td>10224</td>\n",
+       "      <td>106583</td>\n",
+       "      <td>10288</td>\n",
+       "      <td>12524</td>\n",
+       "      <td>13878</td>\n",
+       "      <td>...</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>Trezeguet yerine El Sharawy daha iyi olmaz mı</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>...</th>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>43344</th>\n",
+       "      <td>101</td>\n",
+       "      <td>20065</td>\n",
+       "      <td>10161</td>\n",
+       "      <td>115</td>\n",
+       "      <td>115</td>\n",
+       "      <td>103784</td>\n",
+       "      <td>10774</td>\n",
+       "      <td>21388</td>\n",
+       "      <td>10245</td>\n",
+       "      <td>92067</td>\n",
+       "      <td>...</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>1</td>\n",
+       "      <td>Hil**adamlar kesinlikle kelimeleri anlamıyorla...</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>43345</th>\n",
+       "      <td>101</td>\n",
+       "      <td>139</td>\n",
+       "      <td>80839</td>\n",
+       "      <td>24109</td>\n",
+       "      <td>13406</td>\n",
+       "      <td>18985</td>\n",
+       "      <td>16285</td>\n",
+       "      <td>10163</td>\n",
+       "      <td>11062</td>\n",
+       "      <td>276</td>\n",
+       "      <td>...</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>1</td>\n",
+       "      <td>Böyle piçlerin çok erken ölmemelerini ve çok f...</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>43346</th>\n",
+       "      <td>101</td>\n",
+       "      <td>105549</td>\n",
+       "      <td>102635</td>\n",
+       "      <td>10140</td>\n",
+       "      <td>26943</td>\n",
+       "      <td>11499</td>\n",
+       "      <td>110516</td>\n",
+       "      <td>21899</td>\n",
+       "      <td>11861</td>\n",
+       "      <td>10561</td>\n",
+       "      <td>...</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>1</td>\n",
+       "      <td>Turgay denilen bu holigonda bir sorun yok, gur...</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>43347</th>\n",
+       "      <td>101</td>\n",
+       "      <td>81424</td>\n",
+       "      <td>26398</td>\n",
+       "      <td>92017</td>\n",
+       "      <td>109620</td>\n",
+       "      <td>10941</td>\n",
+       "      <td>76010</td>\n",
+       "      <td>10115</td>\n",
+       "      <td>19830</td>\n",
+       "      <td>26083</td>\n",
+       "      <td>...</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>1</td>\n",
+       "      <td>Umarım ülkenin düşük zekadan kurtulması ilgile...</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>43348</th>\n",
+       "      <td>101</td>\n",
+       "      <td>39774</td>\n",
+       "      <td>11127</td>\n",
+       "      <td>45989</td>\n",
+       "      <td>24596</td>\n",
+       "      <td>11933</td>\n",
+       "      <td>170</td>\n",
+       "      <td>17145</td>\n",
+       "      <td>10710</td>\n",
+       "      <td>39125</td>\n",
+       "      <td>...</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>1</td>\n",
+       "      <td>CHP sandıkları bırakmaz, üzerine oturur, bir c...</td>\n",
+       "    </tr>\n",
+       "  </tbody>\n",
+       "</table>\n",
+       "<p>43349 rows × 66 columns</p>\n",
+       "</div>"
+      ],
+      "text/plain": [
+       "         0       1       2      3       4       5       6      7      8   \n",
+       "0      101   10110     175  78653     189   25285   15976  40840    276  \\\n",
+       "1      101   11589   10706  10713   10794   94698   30668  24883    117   \n",
+       "2      101     148   30471  10774   13785   13779   33642  14399  48271   \n",
+       "3      101   19319   16724  10118   10107   78323   12407  38959  22934   \n",
+       "4      101   30932   58706  58054   44907   10224  106583  10288  12524   \n",
+       "...    ...     ...     ...    ...     ...     ...     ...    ...    ...   \n",
+       "43344  101   20065   10161    115     115  103784   10774  21388  10245   \n",
+       "43345  101     139   80839  24109   13406   18985   16285  10163  11062   \n",
+       "43346  101  105549  102635  10140   26943   11499  110516  21899  11861   \n",
+       "43347  101   81424   26398  92017  109620   10941   76010  10115  19830   \n",
+       "43348  101   39774   11127  45989   24596   11933     170  17145  10710   \n",
+       "\n",
+       "           9  ...  56  57  58  59  60  61  62  63  labels   \n",
+       "0      31623  ...   0   0   0   0   0   0   0   0       0  \\\n",
+       "1      23763  ...   0   0   0   0   0   0   0   0       0   \n",
+       "2      76686  ...   0   0   0   0   0   0   0   0       0   \n",
+       "3      10147  ...   0   0   0   0   0   0   0   0       0   \n",
+       "4      13878  ...   0   0   0   0   0   0   0   0       0   \n",
+       "...      ...  ...  ..  ..  ..  ..  ..  ..  ..  ..     ...   \n",
+       "43344  92067  ...   0   0   0   0   0   0   0   0       1   \n",
+       "43345    276  ...   0   0   0   0   0   0   0   0       1   \n",
+       "43346  10561  ...   0   0   0   0   0   0   0   0       1   \n",
+       "43347  26083  ...   0   0   0   0   0   0   0   0       1   \n",
+       "43348  39125  ...   0   0   0   0   0   0   0   0       1   \n",
+       "\n",
+       "                                                   tweet  \n",
+       "0       en güzel uyuyan insan ödülü jeon jungkook'a g...  \n",
+       "1       Mekanı cennet olsun, saygılar sayın avukatımı...  \n",
+       "2      Kızlar aranızda kas yığını beylere düşenler ol...  \n",
+       "3      Biraz ders çalışayım. Tembellik ve uyku düşman...  \n",
+       "4          Trezeguet yerine El Sharawy daha iyi olmaz mı  \n",
+       "...                                                  ...  \n",
+       "43344  Hil**adamlar kesinlikle kelimeleri anlamıyorla...  \n",
+       "43345  Böyle piçlerin çok erken ölmemelerini ve çok f...  \n",
+       "43346  Turgay denilen bu holigonda bir sorun yok, gur...  \n",
+       "43347  Umarım ülkenin düşük zekadan kurtulması ilgile...  \n",
+       "43348  CHP sandıkları bırakmaz, üzerine oturur, bir c...  \n",
+       "\n",
+       "[43349 rows x 66 columns]"
+      ]
+     },
+     "execution_count": 4,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "embeding_df"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 5,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "data = embeding_df.tweet.values"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 6,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "embeding_df=embeding_df.drop(['tweet'], axis=1)\n",
+    "copy_df=copy_df.drop(['tweet'], axis=1)"
+   ]
+  },
+  {
+   "attachments": {},
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "# isolation forest"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 7,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "from sklearn.ensemble import IsolationForest"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 8,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "/home/sebit/anaconda3/envs/dl_env/lib/python3.9/site-packages/sklearn/base.py:439: UserWarning: X does not have valid feature names, but IsolationForest was fitted with feature names\n",
+      "  warnings.warn(\n"
+     ]
+    }
+   ],
+   "source": [
+    "# Train the model\n",
+    "isf = IsolationForest(contamination=0.04)\n",
+    "isf.fit(embeding_df)\n",
+    "# Predictions\n",
+    "predictions = isf.predict(embeding_df)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 9,
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/html": [
+       "<div>\n",
+       "<style scoped>\n",
+       "    .dataframe tbody tr th:only-of-type {\n",
+       "        vertical-align: middle;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe tbody tr th {\n",
+       "        vertical-align: top;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe thead th {\n",
+       "        text-align: right;\n",
+       "    }\n",
+       "</style>\n",
+       "<table border=\"1\" class=\"dataframe\">\n",
+       "  <thead>\n",
+       "    <tr style=\"text-align: right;\">\n",
+       "      <th></th>\n",
+       "      <th>0</th>\n",
+       "      <th>1</th>\n",
+       "      <th>2</th>\n",
+       "      <th>3</th>\n",
+       "      <th>4</th>\n",
+       "      <th>5</th>\n",
+       "      <th>6</th>\n",
+       "      <th>7</th>\n",
+       "      <th>8</th>\n",
+       "      <th>9</th>\n",
+       "      <th>...</th>\n",
+       "      <th>57</th>\n",
+       "      <th>58</th>\n",
+       "      <th>59</th>\n",
+       "      <th>60</th>\n",
+       "      <th>61</th>\n",
+       "      <th>62</th>\n",
+       "      <th>63</th>\n",
+       "      <th>labels</th>\n",
+       "      <th>iso_forest_scores</th>\n",
+       "      <th>iso_forest_outliers</th>\n",
+       "    </tr>\n",
+       "  </thead>\n",
+       "  <tbody>\n",
+       "    <tr>\n",
+       "      <th>count</th>\n",
+       "      <td>43349.0</td>\n",
+       "      <td>43349.000000</td>\n",
+       "      <td>43349.000000</td>\n",
+       "      <td>43349.000000</td>\n",
+       "      <td>43349.000000</td>\n",
+       "      <td>43349.000000</td>\n",
+       "      <td>43349.000000</td>\n",
+       "      <td>43349.000000</td>\n",
+       "      <td>43349.000000</td>\n",
+       "      <td>43349.000000</td>\n",
+       "      <td>...</td>\n",
+       "      <td>43349.000000</td>\n",
+       "      <td>43349.000000</td>\n",
+       "      <td>43349.00000</td>\n",
+       "      <td>43349.000000</td>\n",
+       "      <td>43349.000000</td>\n",
+       "      <td>43349.000000</td>\n",
+       "      <td>43349.000000</td>\n",
+       "      <td>43349.000000</td>\n",
+       "      <td>43349.000000</td>\n",
+       "      <td>43349.000000</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>mean</th>\n",
+       "      <td>101.0</td>\n",
+       "      <td>27403.389559</td>\n",
+       "      <td>29588.353803</td>\n",
+       "      <td>26720.445131</td>\n",
+       "      <td>27755.110106</td>\n",
+       "      <td>27346.753628</td>\n",
+       "      <td>27713.189255</td>\n",
+       "      <td>27295.717687</td>\n",
+       "      <td>27136.227410</td>\n",
+       "      <td>26812.611156</td>\n",
+       "      <td>...</td>\n",
+       "      <td>4868.917184</td>\n",
+       "      <td>4813.145309</td>\n",
+       "      <td>4733.38919</td>\n",
+       "      <td>4389.068375</td>\n",
+       "      <td>4297.575723</td>\n",
+       "      <td>4176.437080</td>\n",
+       "      <td>17.000392</td>\n",
+       "      <td>0.417957</td>\n",
+       "      <td>0.135546</td>\n",
+       "      <td>0.919998</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>std</th>\n",
+       "      <td>0.0</td>\n",
+       "      <td>27382.274693</td>\n",
+       "      <td>27727.688965</td>\n",
+       "      <td>26455.267691</td>\n",
+       "      <td>27026.611068</td>\n",
+       "      <td>26799.753823</td>\n",
+       "      <td>27021.950023</td>\n",
+       "      <td>26761.847936</td>\n",
+       "      <td>26820.810219</td>\n",
+       "      <td>26720.480625</td>\n",
+       "      <td>...</td>\n",
+       "      <td>15312.358275</td>\n",
+       "      <td>15491.136511</td>\n",
+       "      <td>15387.09038</td>\n",
+       "      <td>14617.253040</td>\n",
+       "      <td>14643.580886</td>\n",
+       "      <td>14405.397208</td>\n",
+       "      <td>38.013945</td>\n",
+       "      <td>0.493229</td>\n",
+       "      <td>0.066701</td>\n",
+       "      <td>0.391927</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>min</th>\n",
+       "      <td>101.0</td>\n",
+       "      <td>100.000000</td>\n",
+       "      <td>100.000000</td>\n",
+       "      <td>0.000000</td>\n",
+       "      <td>0.000000</td>\n",
+       "      <td>0.000000</td>\n",
+       "      <td>0.000000</td>\n",
+       "      <td>0.000000</td>\n",
+       "      <td>0.000000</td>\n",
+       "      <td>0.000000</td>\n",
+       "      <td>...</td>\n",
+       "      <td>0.000000</td>\n",
+       "      <td>0.000000</td>\n",
+       "      <td>0.00000</td>\n",
+       "      <td>0.000000</td>\n",
+       "      <td>0.000000</td>\n",
+       "      <td>0.000000</td>\n",
+       "      <td>0.000000</td>\n",
+       "      <td>0.000000</td>\n",
+       "      <td>-0.140643</td>\n",
+       "      <td>-1.000000</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>25%</th>\n",
+       "      <td>101.0</td>\n",
+       "      <td>10357.000000</td>\n",
+       "      <td>10506.000000</td>\n",
+       "      <td>10323.000000</td>\n",
+       "      <td>10361.000000</td>\n",
+       "      <td>10350.000000</td>\n",
+       "      <td>10369.000000</td>\n",
+       "      <td>10347.000000</td>\n",
+       "      <td>10330.000000</td>\n",
+       "      <td>10323.000000</td>\n",
+       "      <td>...</td>\n",
+       "      <td>0.000000</td>\n",
+       "      <td>0.000000</td>\n",
+       "      <td>0.00000</td>\n",
+       "      <td>0.000000</td>\n",
+       "      <td>0.000000</td>\n",
+       "      <td>0.000000</td>\n",
+       "      <td>0.000000</td>\n",
+       "      <td>0.000000</td>\n",
+       "      <td>0.089100</td>\n",
+       "      <td>1.000000</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>50%</th>\n",
+       "      <td>101.0</td>\n",
+       "      <td>18856.000000</td>\n",
+       "      <td>16263.000000</td>\n",
+       "      <td>13587.000000</td>\n",
+       "      <td>14918.000000</td>\n",
+       "      <td>14753.000000</td>\n",
+       "      <td>15090.000000</td>\n",
+       "      <td>14777.000000</td>\n",
+       "      <td>14753.000000</td>\n",
+       "      <td>14110.000000</td>\n",
+       "      <td>...</td>\n",
+       "      <td>0.000000</td>\n",
+       "      <td>0.000000</td>\n",
+       "      <td>0.00000</td>\n",
+       "      <td>0.000000</td>\n",
+       "      <td>0.000000</td>\n",
+       "      <td>0.000000</td>\n",
+       "      <td>0.000000</td>\n",
+       "      <td>0.000000</td>\n",
+       "      <td>0.161505</td>\n",
+       "      <td>1.000000</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>75%</th>\n",
+       "      <td>101.0</td>\n",
+       "      <td>41079.000000</td>\n",
+       "      <td>40762.000000</td>\n",
+       "      <td>35943.000000</td>\n",
+       "      <td>37820.000000</td>\n",
+       "      <td>36544.000000</td>\n",
+       "      <td>37820.000000</td>\n",
+       "      <td>36723.000000</td>\n",
+       "      <td>36544.000000</td>\n",
+       "      <td>36445.000000</td>\n",
+       "      <td>...</td>\n",
+       "      <td>0.000000</td>\n",
+       "      <td>0.000000</td>\n",
+       "      <td>0.00000</td>\n",
+       "      <td>0.000000</td>\n",
+       "      <td>0.000000</td>\n",
+       "      <td>0.000000</td>\n",
+       "      <td>0.000000</td>\n",
+       "      <td>1.000000</td>\n",
+       "      <td>0.189511</td>\n",
+       "      <td>1.000000</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>max</th>\n",
+       "      <td>101.0</td>\n",
+       "      <td>110744.000000</td>\n",
+       "      <td>110966.000000</td>\n",
+       "      <td>110966.000000</td>\n",
+       "      <td>110966.000000</td>\n",
+       "      <td>111720.000000</td>\n",
+       "      <td>111720.000000</td>\n",
+       "      <td>111720.000000</td>\n",
+       "      <td>111720.000000</td>\n",
+       "      <td>111720.000000</td>\n",
+       "      <td>...</td>\n",
+       "      <td>110966.000000</td>\n",
+       "      <td>110966.000000</td>\n",
+       "      <td>110966.00000</td>\n",
+       "      <td>110966.000000</td>\n",
+       "      <td>110966.000000</td>\n",
+       "      <td>110966.000000</td>\n",
+       "      <td>102.000000</td>\n",
+       "      <td>1.000000</td>\n",
+       "      <td>0.216831</td>\n",
+       "      <td>1.000000</td>\n",
+       "    </tr>\n",
+       "  </tbody>\n",
+       "</table>\n",
+       "<p>8 rows × 67 columns</p>\n",
+       "</div>"
+      ],
+      "text/plain": [
+       "             0              1              2              3              4   \n",
+       "count  43349.0   43349.000000   43349.000000   43349.000000   43349.000000  \\\n",
+       "mean     101.0   27403.389559   29588.353803   26720.445131   27755.110106   \n",
+       "std        0.0   27382.274693   27727.688965   26455.267691   27026.611068   \n",
+       "min      101.0     100.000000     100.000000       0.000000       0.000000   \n",
+       "25%      101.0   10357.000000   10506.000000   10323.000000   10361.000000   \n",
+       "50%      101.0   18856.000000   16263.000000   13587.000000   14918.000000   \n",
+       "75%      101.0   41079.000000   40762.000000   35943.000000   37820.000000   \n",
+       "max      101.0  110744.000000  110966.000000  110966.000000  110966.000000   \n",
+       "\n",
+       "                   5              6              7              8   \n",
+       "count   43349.000000   43349.000000   43349.000000   43349.000000  \\\n",
+       "mean    27346.753628   27713.189255   27295.717687   27136.227410   \n",
+       "std     26799.753823   27021.950023   26761.847936   26820.810219   \n",
+       "min         0.000000       0.000000       0.000000       0.000000   \n",
+       "25%     10350.000000   10369.000000   10347.000000   10330.000000   \n",
+       "50%     14753.000000   15090.000000   14777.000000   14753.000000   \n",
+       "75%     36544.000000   37820.000000   36723.000000   36544.000000   \n",
+       "max    111720.000000  111720.000000  111720.000000  111720.000000   \n",
+       "\n",
+       "                   9  ...             57             58            59   \n",
+       "count   43349.000000  ...   43349.000000   43349.000000   43349.00000  \\\n",
+       "mean    26812.611156  ...    4868.917184    4813.145309    4733.38919   \n",
+       "std     26720.480625  ...   15312.358275   15491.136511   15387.09038   \n",
+       "min         0.000000  ...       0.000000       0.000000       0.00000   \n",
+       "25%     10323.000000  ...       0.000000       0.000000       0.00000   \n",
+       "50%     14110.000000  ...       0.000000       0.000000       0.00000   \n",
+       "75%     36445.000000  ...       0.000000       0.000000       0.00000   \n",
+       "max    111720.000000  ...  110966.000000  110966.000000  110966.00000   \n",
+       "\n",
+       "                  60             61             62            63   \n",
+       "count   43349.000000   43349.000000   43349.000000  43349.000000  \\\n",
+       "mean     4389.068375    4297.575723    4176.437080     17.000392   \n",
+       "std     14617.253040   14643.580886   14405.397208     38.013945   \n",
+       "min         0.000000       0.000000       0.000000      0.000000   \n",
+       "25%         0.000000       0.000000       0.000000      0.000000   \n",
+       "50%         0.000000       0.000000       0.000000      0.000000   \n",
+       "75%         0.000000       0.000000       0.000000      0.000000   \n",
+       "max    110966.000000  110966.000000  110966.000000    102.000000   \n",
+       "\n",
+       "             labels  iso_forest_scores  iso_forest_outliers  \n",
+       "count  43349.000000       43349.000000         43349.000000  \n",
+       "mean       0.417957           0.135546             0.919998  \n",
+       "std        0.493229           0.066701             0.391927  \n",
+       "min        0.000000          -0.140643            -1.000000  \n",
+       "25%        0.000000           0.089100             1.000000  \n",
+       "50%        0.000000           0.161505             1.000000  \n",
+       "75%        1.000000           0.189511             1.000000  \n",
+       "max        1.000000           0.216831             1.000000  \n",
+       "\n",
+       "[8 rows x 67 columns]"
+      ]
+     },
+     "execution_count": 9,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "# Extract scores\n",
+    "embeding_df[\"iso_forest_scores\"] = isf.decision_function(embeding_df)\n",
+    "# Extract predictions\n",
+    "embeding_df[\"iso_forest_outliers\"] = predictions\n",
+    "# Describe the dataframe\n",
+    "embeding_df.describe()"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 10,
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/html": [
+       "<div>\n",
+       "<style scoped>\n",
+       "    .dataframe tbody tr th:only-of-type {\n",
+       "        vertical-align: middle;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe tbody tr th {\n",
+       "        vertical-align: top;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe thead th {\n",
+       "        text-align: right;\n",
+       "    }\n",
+       "</style>\n",
+       "<table border=\"1\" class=\"dataframe\">\n",
+       "  <thead>\n",
+       "    <tr style=\"text-align: right;\">\n",
+       "      <th></th>\n",
+       "      <th>0</th>\n",
+       "      <th>1</th>\n",
+       "      <th>2</th>\n",
+       "      <th>3</th>\n",
+       "      <th>4</th>\n",
+       "      <th>5</th>\n",
+       "      <th>6</th>\n",
+       "      <th>7</th>\n",
+       "      <th>8</th>\n",
+       "      <th>9</th>\n",
+       "      <th>...</th>\n",
+       "      <th>57</th>\n",
+       "      <th>58</th>\n",
+       "      <th>59</th>\n",
+       "      <th>60</th>\n",
+       "      <th>61</th>\n",
+       "      <th>62</th>\n",
+       "      <th>63</th>\n",
+       "      <th>labels</th>\n",
+       "      <th>iso_forest_scores</th>\n",
+       "      <th>iso_forest_outliers</th>\n",
+       "    </tr>\n",
+       "  </thead>\n",
+       "  <tbody>\n",
+       "    <tr>\n",
+       "      <th>0</th>\n",
+       "      <td>101</td>\n",
+       "      <td>10110</td>\n",
+       "      <td>175</td>\n",
+       "      <td>78653</td>\n",
+       "      <td>189</td>\n",
+       "      <td>25285</td>\n",
+       "      <td>15976</td>\n",
+       "      <td>40840</td>\n",
+       "      <td>276</td>\n",
+       "      <td>31623</td>\n",
+       "      <td>...</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0.189202</td>\n",
+       "      <td>No</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>1</th>\n",
+       "      <td>101</td>\n",
+       "      <td>11589</td>\n",
+       "      <td>10706</td>\n",
+       "      <td>10713</td>\n",
+       "      <td>10794</td>\n",
+       "      <td>94698</td>\n",
+       "      <td>30668</td>\n",
+       "      <td>24883</td>\n",
+       "      <td>117</td>\n",
+       "      <td>23763</td>\n",
+       "      <td>...</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0.181234</td>\n",
+       "      <td>No</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>2</th>\n",
+       "      <td>101</td>\n",
+       "      <td>148</td>\n",
+       "      <td>30471</td>\n",
+       "      <td>10774</td>\n",
+       "      <td>13785</td>\n",
+       "      <td>13779</td>\n",
+       "      <td>33642</td>\n",
+       "      <td>14399</td>\n",
+       "      <td>48271</td>\n",
+       "      <td>76686</td>\n",
+       "      <td>...</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0.166332</td>\n",
+       "      <td>No</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>3</th>\n",
+       "      <td>101</td>\n",
+       "      <td>19319</td>\n",
+       "      <td>16724</td>\n",
+       "      <td>10118</td>\n",
+       "      <td>10107</td>\n",
+       "      <td>78323</td>\n",
+       "      <td>12407</td>\n",
+       "      <td>38959</td>\n",
+       "      <td>22934</td>\n",
+       "      <td>10147</td>\n",
+       "      <td>...</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0.151816</td>\n",
+       "      <td>No</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>4</th>\n",
+       "      <td>101</td>\n",
+       "      <td>30932</td>\n",
+       "      <td>58706</td>\n",
+       "      <td>58054</td>\n",
+       "      <td>44907</td>\n",
+       "      <td>10224</td>\n",
+       "      <td>106583</td>\n",
+       "      <td>10288</td>\n",
+       "      <td>12524</td>\n",
+       "      <td>13878</td>\n",
+       "      <td>...</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0.184008</td>\n",
+       "      <td>No</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>...</th>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>43344</th>\n",
+       "      <td>101</td>\n",
+       "      <td>20065</td>\n",
+       "      <td>10161</td>\n",
+       "      <td>115</td>\n",
+       "      <td>115</td>\n",
+       "      <td>103784</td>\n",
+       "      <td>10774</td>\n",
+       "      <td>21388</td>\n",
+       "      <td>10245</td>\n",
+       "      <td>92067</td>\n",
+       "      <td>...</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>1</td>\n",
+       "      <td>0.079412</td>\n",
+       "      <td>No</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>43345</th>\n",
+       "      <td>101</td>\n",
+       "      <td>139</td>\n",
+       "      <td>80839</td>\n",
+       "      <td>24109</td>\n",
+       "      <td>13406</td>\n",
+       "      <td>18985</td>\n",
+       "      <td>16285</td>\n",
+       "      <td>10163</td>\n",
+       "      <td>11062</td>\n",
+       "      <td>276</td>\n",
+       "      <td>...</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>1</td>\n",
+       "      <td>0.118245</td>\n",
+       "      <td>No</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>43346</th>\n",
+       "      <td>101</td>\n",
+       "      <td>105549</td>\n",
+       "      <td>102635</td>\n",
+       "      <td>10140</td>\n",
+       "      <td>26943</td>\n",
+       "      <td>11499</td>\n",
+       "      <td>110516</td>\n",
+       "      <td>21899</td>\n",
+       "      <td>11861</td>\n",
+       "      <td>10561</td>\n",
+       "      <td>...</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>1</td>\n",
+       "      <td>0.138229</td>\n",
+       "      <td>No</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>43347</th>\n",
+       "      <td>101</td>\n",
+       "      <td>81424</td>\n",
+       "      <td>26398</td>\n",
+       "      <td>92017</td>\n",
+       "      <td>109620</td>\n",
+       "      <td>10941</td>\n",
+       "      <td>76010</td>\n",
+       "      <td>10115</td>\n",
+       "      <td>19830</td>\n",
+       "      <td>26083</td>\n",
+       "      <td>...</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>1</td>\n",
+       "      <td>0.181065</td>\n",
+       "      <td>No</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>43348</th>\n",
+       "      <td>101</td>\n",
+       "      <td>39774</td>\n",
+       "      <td>11127</td>\n",
+       "      <td>45989</td>\n",
+       "      <td>24596</td>\n",
+       "      <td>11933</td>\n",
+       "      <td>170</td>\n",
+       "      <td>17145</td>\n",
+       "      <td>10710</td>\n",
+       "      <td>39125</td>\n",
+       "      <td>...</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>1</td>\n",
+       "      <td>0.085161</td>\n",
+       "      <td>No</td>\n",
+       "    </tr>\n",
+       "  </tbody>\n",
+       "</table>\n",
+       "<p>43349 rows × 67 columns</p>\n",
+       "</div>"
+      ],
+      "text/plain": [
+       "         0       1       2      3       4       5       6      7      8   \n",
+       "0      101   10110     175  78653     189   25285   15976  40840    276  \\\n",
+       "1      101   11589   10706  10713   10794   94698   30668  24883    117   \n",
+       "2      101     148   30471  10774   13785   13779   33642  14399  48271   \n",
+       "3      101   19319   16724  10118   10107   78323   12407  38959  22934   \n",
+       "4      101   30932   58706  58054   44907   10224  106583  10288  12524   \n",
+       "...    ...     ...     ...    ...     ...     ...     ...    ...    ...   \n",
+       "43344  101   20065   10161    115     115  103784   10774  21388  10245   \n",
+       "43345  101     139   80839  24109   13406   18985   16285  10163  11062   \n",
+       "43346  101  105549  102635  10140   26943   11499  110516  21899  11861   \n",
+       "43347  101   81424   26398  92017  109620   10941   76010  10115  19830   \n",
+       "43348  101   39774   11127  45989   24596   11933     170  17145  10710   \n",
+       "\n",
+       "           9  ...  57  58  59  60  61  62  63  labels  iso_forest_scores   \n",
+       "0      31623  ...   0   0   0   0   0   0   0       0           0.189202  \\\n",
+       "1      23763  ...   0   0   0   0   0   0   0       0           0.181234   \n",
+       "2      76686  ...   0   0   0   0   0   0   0       0           0.166332   \n",
+       "3      10147  ...   0   0   0   0   0   0   0       0           0.151816   \n",
+       "4      13878  ...   0   0   0   0   0   0   0       0           0.184008   \n",
+       "...      ...  ...  ..  ..  ..  ..  ..  ..  ..     ...                ...   \n",
+       "43344  92067  ...   0   0   0   0   0   0   0       1           0.079412   \n",
+       "43345    276  ...   0   0   0   0   0   0   0       1           0.118245   \n",
+       "43346  10561  ...   0   0   0   0   0   0   0       1           0.138229   \n",
+       "43347  26083  ...   0   0   0   0   0   0   0       1           0.181065   \n",
+       "43348  39125  ...   0   0   0   0   0   0   0       1           0.085161   \n",
+       "\n",
+       "       iso_forest_outliers  \n",
+       "0                       No  \n",
+       "1                       No  \n",
+       "2                       No  \n",
+       "3                       No  \n",
+       "4                       No  \n",
+       "...                    ...  \n",
+       "43344                   No  \n",
+       "43345                   No  \n",
+       "43346                   No  \n",
+       "43347                   No  \n",
+       "43348                   No  \n",
+       "\n",
+       "[43349 rows x 67 columns]"
+      ]
+     },
+     "execution_count": 10,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "# Replace \"-1\" with \"Yes\" and \"1\" with \"No\"\n",
+    "embeding_df['iso_forest_outliers'] = embeding_df['iso_forest_outliers'].replace([-1, 1], [\"Yes\", \"No\"])\n",
+    "# Print the first 5 firms\n",
+    "embeding_df"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 11,
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "iso_forest_outliers\n",
+       "False    43349\n",
+       "Name: count, dtype: int64"
+      ]
+     },
+     "execution_count": 11,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "(embeding_df['iso_forest_outliers']=='YES').value_counts()"
+   ]
+  },
+  {
+   "attachments": {},
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "# lof"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 12,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "from sklearn.neighbors import LocalOutlierFactor\n",
+    "from numpy import quantile, where, random"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 13,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# Train the model\n",
+    "clf = LocalOutlierFactor(n_neighbors=20, contamination=0.1)\n",
+    "out=clf.fit_predict(copy_df)\n",
+    "# Predictions\n",
+    "lof = clf.negative_outlier_factor_\n",
+    "embeding_df[\"lof_outliers\"] = lof\n",
+    "embeding_df[\"outliers\"]= out"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 14,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "embeding_df['outliers'] = embeding_df['outliers'].replace([-1, 1], [\"Yes\", \"No\"])"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 15,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "embeding_df['tweet']=data"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 16,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "x=embeding_df[embeding_df['iso_forest_outliers']=='Yes' ]"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 17,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "embeding_df.drop(x.loc[x['outliers']=='Yes' ].index, inplace=True)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 18,
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/html": [
+       "<div>\n",
+       "<style scoped>\n",
+       "    .dataframe tbody tr th:only-of-type {\n",
+       "        vertical-align: middle;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe tbody tr th {\n",
+       "        vertical-align: top;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe thead th {\n",
+       "        text-align: right;\n",
+       "    }\n",
+       "</style>\n",
+       "<table border=\"1\" class=\"dataframe\">\n",
+       "  <thead>\n",
+       "    <tr style=\"text-align: right;\">\n",
+       "      <th></th>\n",
+       "      <th>0</th>\n",
+       "      <th>1</th>\n",
+       "      <th>2</th>\n",
+       "      <th>3</th>\n",
+       "      <th>4</th>\n",
+       "      <th>5</th>\n",
+       "      <th>6</th>\n",
+       "      <th>7</th>\n",
+       "      <th>8</th>\n",
+       "      <th>9</th>\n",
+       "      <th>...</th>\n",
+       "      <th>60</th>\n",
+       "      <th>61</th>\n",
+       "      <th>62</th>\n",
+       "      <th>63</th>\n",
+       "      <th>labels</th>\n",
+       "      <th>iso_forest_scores</th>\n",
+       "      <th>iso_forest_outliers</th>\n",
+       "      <th>lof_outliers</th>\n",
+       "      <th>outliers</th>\n",
+       "      <th>tweet</th>\n",
+       "    </tr>\n",
+       "  </thead>\n",
+       "  <tbody>\n",
+       "    <tr>\n",
+       "      <th>0</th>\n",
+       "      <td>101</td>\n",
+       "      <td>10110</td>\n",
+       "      <td>175</td>\n",
+       "      <td>78653</td>\n",
+       "      <td>189</td>\n",
+       "      <td>25285</td>\n",
+       "      <td>15976</td>\n",
+       "      <td>40840</td>\n",
+       "      <td>276</td>\n",
+       "      <td>31623</td>\n",
+       "      <td>...</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0.189202</td>\n",
+       "      <td>No</td>\n",
+       "      <td>-1.209681</td>\n",
+       "      <td>No</td>\n",
+       "      <td>en güzel uyuyan insan ödülü jeon jungkook'a g...</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>1</th>\n",
+       "      <td>101</td>\n",
+       "      <td>11589</td>\n",
+       "      <td>10706</td>\n",
+       "      <td>10713</td>\n",
+       "      <td>10794</td>\n",
+       "      <td>94698</td>\n",
+       "      <td>30668</td>\n",
+       "      <td>24883</td>\n",
+       "      <td>117</td>\n",
+       "      <td>23763</td>\n",
+       "      <td>...</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0.181234</td>\n",
+       "      <td>No</td>\n",
+       "      <td>-1.107479</td>\n",
+       "      <td>No</td>\n",
+       "      <td>Mekanı cennet olsun, saygılar sayın avukatımı...</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>2</th>\n",
+       "      <td>101</td>\n",
+       "      <td>148</td>\n",
+       "      <td>30471</td>\n",
+       "      <td>10774</td>\n",
+       "      <td>13785</td>\n",
+       "      <td>13779</td>\n",
+       "      <td>33642</td>\n",
+       "      <td>14399</td>\n",
+       "      <td>48271</td>\n",
+       "      <td>76686</td>\n",
+       "      <td>...</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0.166332</td>\n",
+       "      <td>No</td>\n",
+       "      <td>-1.202529</td>\n",
+       "      <td>No</td>\n",
+       "      <td>Kızlar aranızda kas yığını beylere düşenler ol...</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>3</th>\n",
+       "      <td>101</td>\n",
+       "      <td>19319</td>\n",
+       "      <td>16724</td>\n",
+       "      <td>10118</td>\n",
+       "      <td>10107</td>\n",
+       "      <td>78323</td>\n",
+       "      <td>12407</td>\n",
+       "      <td>38959</td>\n",
+       "      <td>22934</td>\n",
+       "      <td>10147</td>\n",
+       "      <td>...</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0.151816</td>\n",
+       "      <td>No</td>\n",
+       "      <td>-1.216599</td>\n",
+       "      <td>No</td>\n",
+       "      <td>Biraz ders çalışayım. Tembellik ve uyku düşman...</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>4</th>\n",
+       "      <td>101</td>\n",
+       "      <td>30932</td>\n",
+       "      <td>58706</td>\n",
+       "      <td>58054</td>\n",
+       "      <td>44907</td>\n",
+       "      <td>10224</td>\n",
+       "      <td>106583</td>\n",
+       "      <td>10288</td>\n",
+       "      <td>12524</td>\n",
+       "      <td>13878</td>\n",
+       "      <td>...</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0.184008</td>\n",
+       "      <td>No</td>\n",
+       "      <td>-1.188488</td>\n",
+       "      <td>No</td>\n",
+       "      <td>Trezeguet yerine El Sharawy daha iyi olmaz mı</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>...</th>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>43344</th>\n",
+       "      <td>101</td>\n",
+       "      <td>20065</td>\n",
+       "      <td>10161</td>\n",
+       "      <td>115</td>\n",
+       "      <td>115</td>\n",
+       "      <td>103784</td>\n",
+       "      <td>10774</td>\n",
+       "      <td>21388</td>\n",
+       "      <td>10245</td>\n",
+       "      <td>92067</td>\n",
+       "      <td>...</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>1</td>\n",
+       "      <td>0.079412</td>\n",
+       "      <td>No</td>\n",
+       "      <td>-1.196769</td>\n",
+       "      <td>No</td>\n",
+       "      <td>Hil**adamlar kesinlikle kelimeleri anlamıyorla...</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>43345</th>\n",
+       "      <td>101</td>\n",
+       "      <td>139</td>\n",
+       "      <td>80839</td>\n",
+       "      <td>24109</td>\n",
+       "      <td>13406</td>\n",
+       "      <td>18985</td>\n",
+       "      <td>16285</td>\n",
+       "      <td>10163</td>\n",
+       "      <td>11062</td>\n",
+       "      <td>276</td>\n",
+       "      <td>...</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>1</td>\n",
+       "      <td>0.118245</td>\n",
+       "      <td>No</td>\n",
+       "      <td>-1.108304</td>\n",
+       "      <td>No</td>\n",
+       "      <td>Böyle piçlerin çok erken ölmemelerini ve çok f...</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>43346</th>\n",
+       "      <td>101</td>\n",
+       "      <td>105549</td>\n",
+       "      <td>102635</td>\n",
+       "      <td>10140</td>\n",
+       "      <td>26943</td>\n",
+       "      <td>11499</td>\n",
+       "      <td>110516</td>\n",
+       "      <td>21899</td>\n",
+       "      <td>11861</td>\n",
+       "      <td>10561</td>\n",
+       "      <td>...</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>1</td>\n",
+       "      <td>0.138229</td>\n",
+       "      <td>No</td>\n",
+       "      <td>-1.307328</td>\n",
+       "      <td>No</td>\n",
+       "      <td>Turgay denilen bu holigonda bir sorun yok, gur...</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>43347</th>\n",
+       "      <td>101</td>\n",
+       "      <td>81424</td>\n",
+       "      <td>26398</td>\n",
+       "      <td>92017</td>\n",
+       "      <td>109620</td>\n",
+       "      <td>10941</td>\n",
+       "      <td>76010</td>\n",
+       "      <td>10115</td>\n",
+       "      <td>19830</td>\n",
+       "      <td>26083</td>\n",
+       "      <td>...</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>1</td>\n",
+       "      <td>0.181065</td>\n",
+       "      <td>No</td>\n",
+       "      <td>-1.127932</td>\n",
+       "      <td>No</td>\n",
+       "      <td>Umarım ülkenin düşük zekadan kurtulması ilgile...</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>43348</th>\n",
+       "      <td>101</td>\n",
+       "      <td>39774</td>\n",
+       "      <td>11127</td>\n",
+       "      <td>45989</td>\n",
+       "      <td>24596</td>\n",
+       "      <td>11933</td>\n",
+       "      <td>170</td>\n",
+       "      <td>17145</td>\n",
+       "      <td>10710</td>\n",
+       "      <td>39125</td>\n",
+       "      <td>...</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>1</td>\n",
+       "      <td>0.085161</td>\n",
+       "      <td>No</td>\n",
+       "      <td>-1.286323</td>\n",
+       "      <td>No</td>\n",
+       "      <td>CHP sandıkları bırakmaz, üzerine oturur, bir c...</td>\n",
+       "    </tr>\n",
+       "  </tbody>\n",
+       "</table>\n",
+       "<p>43029 rows × 70 columns</p>\n",
+       "</div>"
+      ],
+      "text/plain": [
+       "         0       1       2      3       4       5       6      7      8   \n",
+       "0      101   10110     175  78653     189   25285   15976  40840    276  \\\n",
+       "1      101   11589   10706  10713   10794   94698   30668  24883    117   \n",
+       "2      101     148   30471  10774   13785   13779   33642  14399  48271   \n",
+       "3      101   19319   16724  10118   10107   78323   12407  38959  22934   \n",
+       "4      101   30932   58706  58054   44907   10224  106583  10288  12524   \n",
+       "...    ...     ...     ...    ...     ...     ...     ...    ...    ...   \n",
+       "43344  101   20065   10161    115     115  103784   10774  21388  10245   \n",
+       "43345  101     139   80839  24109   13406   18985   16285  10163  11062   \n",
+       "43346  101  105549  102635  10140   26943   11499  110516  21899  11861   \n",
+       "43347  101   81424   26398  92017  109620   10941   76010  10115  19830   \n",
+       "43348  101   39774   11127  45989   24596   11933     170  17145  10710   \n",
+       "\n",
+       "           9  ...  60  61  62  63  labels  iso_forest_scores   \n",
+       "0      31623  ...   0   0   0   0       0           0.189202  \\\n",
+       "1      23763  ...   0   0   0   0       0           0.181234   \n",
+       "2      76686  ...   0   0   0   0       0           0.166332   \n",
+       "3      10147  ...   0   0   0   0       0           0.151816   \n",
+       "4      13878  ...   0   0   0   0       0           0.184008   \n",
+       "...      ...  ...  ..  ..  ..  ..     ...                ...   \n",
+       "43344  92067  ...   0   0   0   0       1           0.079412   \n",
+       "43345    276  ...   0   0   0   0       1           0.118245   \n",
+       "43346  10561  ...   0   0   0   0       1           0.138229   \n",
+       "43347  26083  ...   0   0   0   0       1           0.181065   \n",
+       "43348  39125  ...   0   0   0   0       1           0.085161   \n",
+       "\n",
+       "       iso_forest_outliers  lof_outliers  outliers   \n",
+       "0                       No     -1.209681        No  \\\n",
+       "1                       No     -1.107479        No   \n",
+       "2                       No     -1.202529        No   \n",
+       "3                       No     -1.216599        No   \n",
+       "4                       No     -1.188488        No   \n",
+       "...                    ...           ...       ...   \n",
+       "43344                   No     -1.196769        No   \n",
+       "43345                   No     -1.108304        No   \n",
+       "43346                   No     -1.307328        No   \n",
+       "43347                   No     -1.127932        No   \n",
+       "43348                   No     -1.286323        No   \n",
+       "\n",
+       "                                                   tweet  \n",
+       "0       en güzel uyuyan insan ödülü jeon jungkook'a g...  \n",
+       "1       Mekanı cennet olsun, saygılar sayın avukatımı...  \n",
+       "2      Kızlar aranızda kas yığını beylere düşenler ol...  \n",
+       "3      Biraz ders çalışayım. Tembellik ve uyku düşman...  \n",
+       "4          Trezeguet yerine El Sharawy daha iyi olmaz mı  \n",
+       "...                                                  ...  \n",
+       "43344  Hil**adamlar kesinlikle kelimeleri anlamıyorla...  \n",
+       "43345  Böyle piçlerin çok erken ölmemelerini ve çok f...  \n",
+       "43346  Turgay denilen bu holigonda bir sorun yok, gur...  \n",
+       "43347  Umarım ülkenin düşük zekadan kurtulması ilgile...  \n",
+       "43348  CHP sandıkları bırakmaz, üzerine oturur, bir c...  \n",
+       "\n",
+       "[43029 rows x 70 columns]"
+      ]
+     },
+     "execution_count": 18,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "embeding_df"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 19,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# embeding_df.drop(embeding_df.loc[embeding_df['outliers']=='Yes' ].index, inplace=True)\n",
+    "# embeding_df.drop(embeding_df.loc[embeding_df['iso_forest_outliers']=='Yes' ].index, inplace=True)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 20,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# iso_df=embeding_df[embeding_df['iso_forest_outliers']=='Yes' ]\n",
+    "# embeding_df.drop(embeding_df.loc[embeding_df['iso_forest_outliers']=='Yes' ].index, inplace=True)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 21,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# lof_df=embeding_df[embeding_df['outliers']=='Yes' ]\n",
+    "# embeding_df.drop(embeding_df.loc[embeding_df['outliers']=='Yes' ].index, inplace=True)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 22,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# iso_df"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 23,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# iso_df['labels']=iso_df['labels'].replace({0: 1, 1: 0})"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 24,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# iso_df"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 25,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# lof_df['labels']=lof_df['labels'].replace({0: 1, 1: 0})"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 26,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# lof_df"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 27,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# x=pd.concat([lof_df,iso_df], axis=0)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 28,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# embeding_df=pd.concat([x,embeding_df], axis=0)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 29,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# embeding_df.reset_index()"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 30,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# embeding_df=embeding_df.drop(['iso_forest_scores', 'iso_forest_outliers','lof_outliers','outliers'], axis=1)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 31,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "embeding_df['0'] = embeding_df[embeding_df.columns[:-1]].apply(lambda x: ','.join(x.dropna().astype(str)),axis=1)\n"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 32,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "df=pd.DataFrame()\n",
+    "df['tweet']=embeding_df['tweet']\n",
+    "df['subtas_a']=embeding_df['labels']\n"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 33,
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/html": [
+       "<div>\n",
+       "<style scoped>\n",
+       "    .dataframe tbody tr th:only-of-type {\n",
+       "        vertical-align: middle;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe tbody tr th {\n",
+       "        vertical-align: top;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe thead th {\n",
+       "        text-align: right;\n",
+       "    }\n",
+       "</style>\n",
+       "<table border=\"1\" class=\"dataframe\">\n",
+       "  <thead>\n",
+       "    <tr style=\"text-align: right;\">\n",
+       "      <th></th>\n",
+       "      <th>tweet</th>\n",
+       "      <th>subtas_a</th>\n",
+       "    </tr>\n",
+       "  </thead>\n",
+       "  <tbody>\n",
+       "    <tr>\n",
+       "      <th>0</th>\n",
+       "      <td>en güzel uyuyan insan ödülü jeon jungkook'a g...</td>\n",
+       "      <td>0</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>1</th>\n",
+       "      <td>Mekanı cennet olsun, saygılar sayın avukatımı...</td>\n",
+       "      <td>0</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>2</th>\n",
+       "      <td>Kızlar aranızda kas yığını beylere düşenler ol...</td>\n",
+       "      <td>0</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>3</th>\n",
+       "      <td>Biraz ders çalışayım. Tembellik ve uyku düşman...</td>\n",
+       "      <td>0</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>4</th>\n",
+       "      <td>Trezeguet yerine El Sharawy daha iyi olmaz mı</td>\n",
+       "      <td>0</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>...</th>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>43344</th>\n",
+       "      <td>Hil**adamlar kesinlikle kelimeleri anlamıyorla...</td>\n",
+       "      <td>1</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>43345</th>\n",
+       "      <td>Böyle piçlerin çok erken ölmemelerini ve çok f...</td>\n",
+       "      <td>1</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>43346</th>\n",
+       "      <td>Turgay denilen bu holigonda bir sorun yok, gur...</td>\n",
+       "      <td>1</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>43347</th>\n",
+       "      <td>Umarım ülkenin düşük zekadan kurtulması ilgile...</td>\n",
+       "      <td>1</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>43348</th>\n",
+       "      <td>CHP sandıkları bırakmaz, üzerine oturur, bir c...</td>\n",
+       "      <td>1</td>\n",
+       "    </tr>\n",
+       "  </tbody>\n",
+       "</table>\n",
+       "<p>43029 rows × 2 columns</p>\n",
+       "</div>"
+      ],
+      "text/plain": [
+       "                                                   tweet  subtas_a\n",
+       "0       en güzel uyuyan insan ödülü jeon jungkook'a g...         0\n",
+       "1       Mekanı cennet olsun, saygılar sayın avukatımı...         0\n",
+       "2      Kızlar aranızda kas yığını beylere düşenler ol...         0\n",
+       "3      Biraz ders çalışayım. Tembellik ve uyku düşman...         0\n",
+       "4          Trezeguet yerine El Sharawy daha iyi olmaz mı         0\n",
+       "...                                                  ...       ...\n",
+       "43344  Hil**adamlar kesinlikle kelimeleri anlamıyorla...         1\n",
+       "43345  Böyle piçlerin çok erken ölmemelerini ve çok f...         1\n",
+       "43346  Turgay denilen bu holigonda bir sorun yok, gur...         1\n",
+       "43347  Umarım ülkenin düşük zekadan kurtulması ilgile...         1\n",
+       "43348  CHP sandıkları bırakmaz, üzerine oturur, bir c...         1\n",
+       "\n",
+       "[43029 rows x 2 columns]"
+      ]
+     },
+     "execution_count": 33,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "df"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 40,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "df.to_csv('inverse_outliers.csv')  "
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 34,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "df.to_csv('int_2_outliers.csv')  "
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": []
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "dl_env",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.9.0"
+  },
+  "orig_nbformat": 4
+ },
+ "nbformat": 4,
+ "nbformat_minor": 2
+}

pycaret_outlier_detection.ipynb ADDED Viewed

The diff for this file is too large to render. See raw diff

requirements.txt ADDED Viewed

	@@ -0,0 +1,10 @@

+pytorch_lightning
+emoji
+transformers
+numpy
+pandas
+os
+random
+torch
+torch-metrics
+torch-utils

trainer.ipynb ADDED Viewed

	@@ -0,0 +1,1165 @@

+{
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": 1,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import emoji\n",
+    "import numpy as np\n",
+    "import pandas as pd\n",
+    "from sklearn.preprocessing import LabelEncoder\n",
+    "from transformers import AutoTokenizer"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 2,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# train_df=pd.read_csv('/DATA/sin-kaf/offenseval-tr-training-v1.tsv',sep='\\t')\n",
+    "# test_df=pd.read_csv('/DATA/sin-kaf/offenseval-tr-testset-v1.tsv',sep='\\t')\n",
+    "# augmented_df=pd.read_csv('augmented_data_offensive.csv')\n",
+    "# selin_df=pd.read_csv('/DATA/sin-kaf/selin_data.csv')"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 3,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "outliers_df=pd.read_csv('/DATA/sin-kaf/cluster_outliers.csv')\n",
+    "outliers_df=outliers_df.drop(['Unnamed: 0'], axis=1)\n",
+    "outliers_df['subtask_a'] = outliers_df['subtas_a']\n",
+    "outliers_df=outliers_df.drop(['subtas_a'], axis=1)\n"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 4,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "train_df=outliers_df"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 5,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# augmented_df=augmented_df.drop(['Unnamed: 0'], axis=1)\n",
+    "# augmented_df = augmented_df.dropna()\n",
+    "# train_df=pd.concat([train_df,augmented_df], axis=0)\n",
+    "# train_df=pd.concat([train_df,test_df], axis=0)\n",
+    "# train_df=train_df.drop(['id'], axis=1)\n",
+    "data=train_df['tweet'].tolist()\n",
+    "for i in range(len(data)):\n",
+    "    data[i] = data[i].replace('@USER','')\n",
+    "    data[i] = data[i].replace('#','')\n",
+    "    data[i] = data[i].replace('$','')\n",
+    "    data[i] = emoji.demojize(data[i])\n",
+    "    \n",
+    "train_df['tweet'] = data\n",
+    "lab = LabelEncoder()\n",
+    "train_df['subtask_a'] = lab.fit_transform(train_df['subtask_a'])\n",
+    "df = train_df[train_df.subtask_a != 2]"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 6,
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/html": [
+       "<div>\n",
+       "<style scoped>\n",
+       "    .dataframe tbody tr th:only-of-type {\n",
+       "        vertical-align: middle;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe tbody tr th {\n",
+       "        vertical-align: top;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe thead th {\n",
+       "        text-align: right;\n",
+       "    }\n",
+       "</style>\n",
+       "<table border=\"1\" class=\"dataframe\">\n",
+       "  <thead>\n",
+       "    <tr style=\"text-align: right;\">\n",
+       "      <th></th>\n",
+       "      <th>tweet</th>\n",
+       "      <th>subtask_a</th>\n",
+       "    </tr>\n",
+       "  </thead>\n",
+       "  <tbody>\n",
+       "    <tr>\n",
+       "      <th>0</th>\n",
+       "      <td>en güzel uyuyan insan ödülü jeon jungkook'a g...</td>\n",
+       "      <td>0</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>1</th>\n",
+       "      <td>Mekanı cennet olsun, saygılar sayın avukatımı...</td>\n",
+       "      <td>0</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>2</th>\n",
+       "      <td>Kızlar aranızda kas yığını beylere düşenler ol...</td>\n",
+       "      <td>0</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>3</th>\n",
+       "      <td>Biraz ders çalışayım. Tembellik ve uyku düşman...</td>\n",
+       "      <td>0</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>4</th>\n",
+       "      <td>Trezeguet yerine El Sharawy daha iyi olmaz mı</td>\n",
+       "      <td>0</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>...</th>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>41177</th>\n",
+       "      <td>Hil**adamlar kesinlikle kelimeleri anlamıyorla...</td>\n",
+       "      <td>1</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>41178</th>\n",
+       "      <td>Böyle piçlerin çok erken ölmemelerini ve çok f...</td>\n",
+       "      <td>1</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>41179</th>\n",
+       "      <td>Turgay denilen bu holigonda bir sorun yok, gur...</td>\n",
+       "      <td>1</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>41180</th>\n",
+       "      <td>Umarım ülkenin düşük zekadan kurtulması ilgile...</td>\n",
+       "      <td>1</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>41181</th>\n",
+       "      <td>CHP sandıkları bırakmaz, üzerine oturur, bir c...</td>\n",
+       "      <td>1</td>\n",
+       "    </tr>\n",
+       "  </tbody>\n",
+       "</table>\n",
+       "<p>41182 rows × 2 columns</p>\n",
+       "</div>"
+      ],
+      "text/plain": [
+       "                                                   tweet  subtask_a\n",
+       "0       en güzel uyuyan insan ödülü jeon jungkook'a g...          0\n",
+       "1       Mekanı cennet olsun, saygılar sayın avukatımı...          0\n",
+       "2      Kızlar aranızda kas yığını beylere düşenler ol...          0\n",
+       "3      Biraz ders çalışayım. Tembellik ve uyku düşman...          0\n",
+       "4          Trezeguet yerine El Sharawy daha iyi olmaz mı          0\n",
+       "...                                                  ...        ...\n",
+       "41177  Hil**adamlar kesinlikle kelimeleri anlamıyorla...          1\n",
+       "41178  Böyle piçlerin çok erken ölmemelerini ve çok f...          1\n",
+       "41179  Turgay denilen bu holigonda bir sorun yok, gur...          1\n",
+       "41180  Umarım ülkenin düşük zekadan kurtulması ilgile...          1\n",
+       "41181  CHP sandıkları bırakmaz, üzerine oturur, bir c...          1\n",
+       "\n",
+       "[41182 rows x 2 columns]"
+      ]
+     },
+     "execution_count": 6,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "train_df"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 7,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# train_df=pd.concat([train_df,selin_df], axis=0)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 8,
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/html": [
+       "<div>\n",
+       "<style scoped>\n",
+       "    .dataframe tbody tr th:only-of-type {\n",
+       "        vertical-align: middle;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe tbody tr th {\n",
+       "        vertical-align: top;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe thead th {\n",
+       "        text-align: right;\n",
+       "    }\n",
+       "</style>\n",
+       "<table border=\"1\" class=\"dataframe\">\n",
+       "  <thead>\n",
+       "    <tr style=\"text-align: right;\">\n",
+       "      <th></th>\n",
+       "      <th>tweet</th>\n",
+       "      <th>subtask_a</th>\n",
+       "    </tr>\n",
+       "  </thead>\n",
+       "  <tbody>\n",
+       "    <tr>\n",
+       "      <th>0</th>\n",
+       "      <td>en güzel uyuyan insan ödülü jeon jungkook'a g...</td>\n",
+       "      <td>0</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>1</th>\n",
+       "      <td>Mekanı cennet olsun, saygılar sayın avukatımı...</td>\n",
+       "      <td>0</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>2</th>\n",
+       "      <td>Kızlar aranızda kas yığını beylere düşenler ol...</td>\n",
+       "      <td>0</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>3</th>\n",
+       "      <td>Biraz ders çalışayım. Tembellik ve uyku düşman...</td>\n",
+       "      <td>0</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>4</th>\n",
+       "      <td>Trezeguet yerine El Sharawy daha iyi olmaz mı</td>\n",
+       "      <td>0</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>...</th>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>41177</th>\n",
+       "      <td>Hil**adamlar kesinlikle kelimeleri anlamıyorla...</td>\n",
+       "      <td>1</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>41178</th>\n",
+       "      <td>Böyle piçlerin çok erken ölmemelerini ve çok f...</td>\n",
+       "      <td>1</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>41179</th>\n",
+       "      <td>Turgay denilen bu holigonda bir sorun yok, gur...</td>\n",
+       "      <td>1</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>41180</th>\n",
+       "      <td>Umarım ülkenin düşük zekadan kurtulması ilgile...</td>\n",
+       "      <td>1</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>41181</th>\n",
+       "      <td>CHP sandıkları bırakmaz, üzerine oturur, bir c...</td>\n",
+       "      <td>1</td>\n",
+       "    </tr>\n",
+       "  </tbody>\n",
+       "</table>\n",
+       "<p>41182 rows × 2 columns</p>\n",
+       "</div>"
+      ],
+      "text/plain": [
+       "                                                   tweet  subtask_a\n",
+       "0       en güzel uyuyan insan ödülü jeon jungkook'a g...          0\n",
+       "1       Mekanı cennet olsun, saygılar sayın avukatımı...          0\n",
+       "2      Kızlar aranızda kas yığını beylere düşenler ol...          0\n",
+       "3      Biraz ders çalışayım. Tembellik ve uyku düşman...          0\n",
+       "4          Trezeguet yerine El Sharawy daha iyi olmaz mı          0\n",
+       "...                                                  ...        ...\n",
+       "41177  Hil**adamlar kesinlikle kelimeleri anlamıyorla...          1\n",
+       "41178  Böyle piçlerin çok erken ölmemelerini ve çok f...          1\n",
+       "41179  Turgay denilen bu holigonda bir sorun yok, gur...          1\n",
+       "41180  Umarım ülkenin düşük zekadan kurtulması ilgile...          1\n",
+       "41181  CHP sandıkları bırakmaz, üzerine oturur, bir c...          1\n",
+       "\n",
+       "[41182 rows x 2 columns]"
+      ]
+     },
+     "execution_count": 8,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "train_df"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 9,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "train_df = df.sample(frac = 0.7, random_state = 200)\n",
+    "df_2 = df.drop(train_df.index)\n",
+    "test_df = df_2.sample(frac = 0.15, random_state = 200)\n",
+    "val_df = df_2.drop(test_df.index)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 10,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "text_train = train_df.tweet.values\n",
+    "label_train = train_df.subtask_a.values"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 11,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "text_test = test_df.tweet.values\n",
+    "label_test = test_df.subtask_a.values"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 12,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "text_val = val_df.tweet.values\n",
+    "label_val = val_df.subtask_a.values"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 13,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "from datasets.dataset_dict import DatasetDict\n",
+    "from datasets import Dataset\n",
+    "dataset={'train':Dataset.from_dict({'label':label_train,'text':text_train}),\n",
+    "        'val':Dataset.from_dict({'label':label_val,'text':text_val}),\n",
+    "        'test':Dataset.from_dict({'label':label_test,'text':text_test})\n",
+    "        }\n",
+    "dataset = DatasetDict(dataset)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 14,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# tokenizer = AutoTokenizer.from_pretrained(\"dbmdz/bert-base-turkish-128k-uncased\")\n",
+    "# tokenizer = AutoTokenizer.from_pretrained(\"dbmdz/distilbert-base-turkish-cased\")\n",
+    "tokenizer = AutoTokenizer.from_pretrained(\"Overfit-GM/distilbert-base-turkish-cased-offensive\")\n",
+    "# tokenizer = AutoTokenizer.from_pretrained(\"Overfit-GM/distilbert-base-turkish-cased-offensive\",max_length=208,padding=\"max_length\",truncation=True,return_tensors=\"pt\",add_special_tokens=True,)\n",
+    "# tokenizer = AutoTokenizer.from_pretrained(\"stage_f/pretrain_mlm_distilbert-base-turkish-cased\")\n",
+    "def tokenize_function(examples):\n",
+    "    return tokenizer(examples[\"text\"], padding=\"max_length\", truncation=True)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 15,
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "application/vnd.jupyter.widget-view+json": {
+       "model_id": "5fba4c9671724e9a93d6ad14a1427345",
+       "version_major": 2,
+       "version_minor": 0
+      },
+      "text/plain": [
+       "Map:   0%|          | 0/28827 [00:00<?, ? examples/s]"
+      ]
+     },
+     "metadata": {},
+     "output_type": "display_data"
+    },
+    {
+     "data": {
+      "application/vnd.jupyter.widget-view+json": {
+       "model_id": "2fff446f4f094d2fb66da549a49ad8a4",
+       "version_major": 2,
+       "version_minor": 0
+      },
+      "text/plain": [
+       "Map:   0%|          | 0/10502 [00:00<?, ? examples/s]"
+      ]
+     },
+     "metadata": {},
+     "output_type": "display_data"
+    },
+    {
+     "data": {
+      "application/vnd.jupyter.widget-view+json": {
+       "model_id": "675f3b595b21489abaca01453c06db2c",
+       "version_major": 2,
+       "version_minor": 0
+      },
+      "text/plain": [
+       "Map:   0%|          | 0/1853 [00:00<?, ? examples/s]"
+      ]
+     },
+     "metadata": {},
+     "output_type": "display_data"
+    }
+   ],
+   "source": [
+    "tokenized_datasets = dataset.map(tokenize_function, batched=True)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 16,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "small_train_dataset = tokenized_datasets[\"train\"].shuffle(seed=42)\n",
+    "small_eval_dataset = tokenized_datasets[\"test\"].shuffle(seed=42)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 17,
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "Dataset({\n",
+       "    features: ['label', 'text', 'input_ids', 'attention_mask'],\n",
+       "    num_rows: 28827\n",
+       "})"
+      ]
+     },
+     "execution_count": 17,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "small_train_dataset"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 18,
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "Dataset({\n",
+       "    features: ['label', 'text', 'input_ids', 'attention_mask'],\n",
+       "    num_rows: 1853\n",
+       "})"
+      ]
+     },
+     "execution_count": 18,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "small_eval_dataset"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 19,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "Some weights of DistilBertForSequenceClassification were not initialized from the model checkpoint at Overfit-GM/distilbert-base-turkish-cased-offensive and are newly initialized because the shapes did not match:\n",
+      "- classifier.weight: found shape torch.Size([5, 768]) in the checkpoint and torch.Size([2, 768]) in the model instantiated\n",
+      "- classifier.bias: found shape torch.Size([5]) in the checkpoint and torch.Size([2]) in the model instantiated\n",
+      "You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.\n"
+     ]
+    }
+   ],
+   "source": [
+    "from transformers import AutoModelForSequenceClassification\n",
+    "\n",
+    "# model = AutoModelForSequenceClassification.from_pretrained(\"dbmdz/bert-base-turkish-128k-uncased\",num_labels = 2)\n",
+    "# model = AutoModelForSequenceClassification.from_pretrained(\"dbmdz/distilbert-base-turkish-cased\",num_labels = 2)\n",
+    "# model = AutoModelForSequenceClassification.from_pretrained(\"Overfit-GM/distilbert-base-turkish-cased-offensive\",num_labels = 2, ignore_mismatched_sizes=True)\n",
+    "model = AutoModelForSequenceClassification.from_pretrained(\"Overfit-GM/distilbert-base-turkish-cased-offensive\",num_labels = 2, ignore_mismatched_sizes=True)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 20,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "from transformers import TrainingArguments\n",
+    "\n",
+    "training_args = TrainingArguments(output_dir=\"test_trainer\")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 21,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# import numpy as np\n",
+    "# import evaluate\n",
+    "\n",
+    "# # metric = evaluate.load(\"accuracy\")\n",
+    "# # confusion_matrix = evaluate.load(\"BucketHeadP65/confusion_matrix\")\n",
+    "# # metric = evaluate.combine([\"accuracy\", \"f1\", \"precision\", \"recall\", \"confusion_matrix\"])\n",
+    "# metric = evaluate.combine([\"accuracy\", \"f1\", \"precision\", \"recall\"])"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 22,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import numpy as np\n",
+    "import evaluate\n",
+    "\n",
+    "metric = evaluate.combine([\"accuracy\", \"f1\", \"precision\", \"recall\"])\n",
+    "conf_matrix = evaluate.load(\"BucketHeadP65/confusion_matrix\")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 23,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "def compute_metrics(eval_pred):\n",
+    "    logits, labels = eval_pred\n",
+    "    predictions = np.argmax(logits, axis=-1)\n",
+    "    print(conf_matrix.compute(predictions=predictions, references=labels))\n",
+    "    return metric.compute(predictions=predictions, references=labels)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 24,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "from transformers import TrainingArguments, Trainer\n",
+    "from pytorch_lightning.loggers import TensorBoardLogger,MLFlowLogger\n",
+    "\n",
+    "training_args = TrainingArguments(output_dir=\"test_trainer\", evaluation_strategy=\"epoch\", num_train_epochs = 5, logging_dir ='TensorBoard',report_to ='mlflow')"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 25,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "trainer = Trainer(\n",
+    "    model=model,\n",
+    "    args=training_args,\n",
+    "    train_dataset=small_train_dataset,\n",
+    "    eval_dataset=small_eval_dataset,\n",
+    "    compute_metrics=compute_metrics,\n",
+    ")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 26,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...\n",
+      "To disable this warning, you can either:\n",
+      "\t- Avoid using `tokenizers` before the fork if possible\n",
+      "\t- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)\n",
+      "huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...\n",
+      "To disable this warning, you can either:\n",
+      "\t- Avoid using `tokenizers` before the fork if possible\n",
+      "\t- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)\n",
+      "huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...\n",
+      "To disable this warning, you can either:\n",
+      "\t- Avoid using `tokenizers` before the fork if possible\n",
+      "\t- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)\n"
+     ]
+    },
+    {
+     "data": {
+      "application/vnd.jupyter.widget-view+json": {
+       "model_id": "a38121a009be4a0f90e30fc9c0cf49ed",
+       "version_major": 2,
+       "version_minor": 0
+      },
+      "text/plain": [
+       "  0%|          | 0/18020 [00:00<?, ?it/s]"
+      ]
+     },
+     "metadata": {},
+     "output_type": "display_data"
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "{'loss': 0.4638, 'learning_rate': 4.86126526082131e-05, 'epoch': 0.14}\n",
+      "{'loss': 0.3886, 'learning_rate': 4.72253052164262e-05, 'epoch': 0.28}\n",
+      "{'loss': 0.3893, 'learning_rate': 4.583795782463929e-05, 'epoch': 0.42}\n",
+      "{'loss': 0.3594, 'learning_rate': 4.445061043285239e-05, 'epoch': 0.55}\n",
+      "{'loss': 0.3547, 'learning_rate': 4.306326304106548e-05, 'epoch': 0.69}\n",
+      "{'loss': 0.3384, 'learning_rate': 4.167591564927858e-05, 'epoch': 0.83}\n",
+      "{'loss': 0.3498, 'learning_rate': 4.028856825749168e-05, 'epoch': 0.97}\n"
+     ]
+    },
+    {
+     "data": {
+      "application/vnd.jupyter.widget-view+json": {
+       "model_id": "94ab139e1ebb482da2111517ad5a3a78",
+       "version_major": 2,
+       "version_minor": 0
+      },
+      "text/plain": [
+       "  0%|          | 0/232 [00:00<?, ?it/s]"
+      ]
+     },
+     "metadata": {},
+     "output_type": "display_data"
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "{'confusion_matrix': array([[966,  90],\n",
+      "       [118, 679]])}\n",
+      "{'eval_loss': 0.28741681575775146, 'eval_accuracy': 0.8877495952509444, 'eval_f1': 0.8671775223499362, 'eval_precision': 0.88296488946684, 'eval_recall': 0.8519447929736512, 'eval_runtime': 11.4928, 'eval_samples_per_second': 161.231, 'eval_steps_per_second': 20.186, 'epoch': 1.0}\n",
+      "{'loss': 0.2449, 'learning_rate': 3.890122086570477e-05, 'epoch': 1.11}\n",
+      "{'loss': 0.2178, 'learning_rate': 3.751387347391787e-05, 'epoch': 1.25}\n",
+      "{'loss': 0.2431, 'learning_rate': 3.612652608213097e-05, 'epoch': 1.39}\n",
+      "{'loss': 0.2261, 'learning_rate': 3.4739178690344064e-05, 'epoch': 1.53}\n",
+      "{'loss': 0.2365, 'learning_rate': 3.3351831298557165e-05, 'epoch': 1.66}\n",
+      "{'loss': 0.2169, 'learning_rate': 3.196448390677026e-05, 'epoch': 1.8}\n",
+      "{'loss': 0.222, 'learning_rate': 3.0577136514983354e-05, 'epoch': 1.94}\n"
+     ]
+    },
+    {
+     "data": {
+      "application/vnd.jupyter.widget-view+json": {
+       "model_id": "063c47c6cae0467194d4c0827e67c277",
+       "version_major": 2,
+       "version_minor": 0
+      },
+      "text/plain": [
+       "  0%|          | 0/232 [00:00<?, ?it/s]"
+      ]
+     },
+     "metadata": {},
+     "output_type": "display_data"
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "{'confusion_matrix': array([[900, 156],\n",
+      "       [ 76, 721]])}\n",
+      "{'eval_loss': 0.47509443759918213, 'eval_accuracy': 0.8747976254722072, 'eval_f1': 0.8614097968936678, 'eval_precision': 0.82212086659065, 'eval_recall': 0.904642409033877, 'eval_runtime': 11.6203, 'eval_samples_per_second': 159.462, 'eval_steps_per_second': 19.965, 'epoch': 2.0}\n",
+      "{'loss': 0.146, 'learning_rate': 2.918978912319645e-05, 'epoch': 2.08}\n",
+      "{'loss': 0.1163, 'learning_rate': 2.7802441731409544e-05, 'epoch': 2.22}\n",
+      "{'loss': 0.1008, 'learning_rate': 2.641509433962264e-05, 'epoch': 2.36}\n",
+      "{'loss': 0.0967, 'learning_rate': 2.502774694783574e-05, 'epoch': 2.5}\n",
+      "{'loss': 0.1456, 'learning_rate': 2.3640399556048838e-05, 'epoch': 2.64}\n",
+      "{'loss': 0.1178, 'learning_rate': 2.2253052164261932e-05, 'epoch': 2.77}\n",
+      "{'loss': 0.1155, 'learning_rate': 2.0865704772475027e-05, 'epoch': 2.91}\n"
+     ]
+    },
+    {
+     "data": {
+      "application/vnd.jupyter.widget-view+json": {
+       "model_id": "4fa52dfbbae54cde8c627a237bed51bc",
+       "version_major": 2,
+       "version_minor": 0
+      },
+      "text/plain": [
+       "  0%|          | 0/232 [00:00<?, ?it/s]"
+      ]
+     },
+     "metadata": {},
+     "output_type": "display_data"
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "{'confusion_matrix': array([[954, 102],\n",
+      "       [106, 691]])}\n",
+      "{'eval_loss': 0.5530020594596863, 'eval_accuracy': 0.8877495952509444, 'eval_f1': 0.8691823899371071, 'eval_precision': 0.8713745271122321, 'eval_recall': 0.8670012547051443, 'eval_runtime': 11.6026, 'eval_samples_per_second': 159.706, 'eval_steps_per_second': 19.996, 'epoch': 3.0}\n",
+      "{'loss': 0.0879, 'learning_rate': 1.9478357380688125e-05, 'epoch': 3.05}\n",
+      "{'loss': 0.0351, 'learning_rate': 1.8091009988901223e-05, 'epoch': 3.19}\n",
+      "{'loss': 0.0501, 'learning_rate': 1.670366259711432e-05, 'epoch': 3.33}\n",
+      "{'loss': 0.0425, 'learning_rate': 1.5316315205327412e-05, 'epoch': 3.47}\n",
+      "{'loss': 0.0564, 'learning_rate': 1.392896781354051e-05, 'epoch': 3.61}\n",
+      "{'loss': 0.05, 'learning_rate': 1.2541620421753608e-05, 'epoch': 3.75}\n",
+      "{'loss': 0.034, 'learning_rate': 1.1154273029966705e-05, 'epoch': 3.88}\n"
+     ]
+    },
+    {
+     "data": {
+      "application/vnd.jupyter.widget-view+json": {
+       "model_id": "a9b754cd0e7641cb8d8023f28bc32a06",
+       "version_major": 2,
+       "version_minor": 0
+      },
+      "text/plain": [
+       "  0%|          | 0/232 [00:00<?, ?it/s]"
+      ]
+     },
+     "metadata": {},
+     "output_type": "display_data"
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "{'confusion_matrix': array([[966,  90],\n",
+      "       [109, 688]])}\n",
+      "{'eval_loss': 0.824292778968811, 'eval_accuracy': 0.8926065839179709, 'eval_f1': 0.8736507936507937, 'eval_precision': 0.884318766066838, 'eval_recall': 0.863237139272271, 'eval_runtime': 11.6185, 'eval_samples_per_second': 159.487, 'eval_steps_per_second': 19.968, 'epoch': 4.0}\n",
+      "{'loss': 0.0354, 'learning_rate': 9.766925638179801e-06, 'epoch': 4.02}\n",
+      "{'loss': 0.0165, 'learning_rate': 8.379578246392897e-06, 'epoch': 4.16}\n",
+      "{'loss': 0.0119, 'learning_rate': 6.992230854605994e-06, 'epoch': 4.3}\n",
+      "{'loss': 0.0145, 'learning_rate': 5.60488346281909e-06, 'epoch': 4.44}\n",
+      "{'loss': 0.0169, 'learning_rate': 4.217536071032187e-06, 'epoch': 4.58}\n",
+      "{'loss': 0.0132, 'learning_rate': 2.830188679245283e-06, 'epoch': 4.72}\n",
+      "{'loss': 0.0232, 'learning_rate': 1.4428412874583796e-06, 'epoch': 4.86}\n",
+      "{'loss': 0.0189, 'learning_rate': 5.549389567147614e-08, 'epoch': 4.99}\n"
+     ]
+    },
+    {
+     "data": {
+      "application/vnd.jupyter.widget-view+json": {
+       "model_id": "e66e5b59c6ba42ae9939f55dcda3c877",
+       "version_major": 2,
+       "version_minor": 0
+      },
+      "text/plain": [
+       "  0%|          | 0/232 [00:00<?, ?it/s]"
+      ]
+     },
+     "metadata": {},
+     "output_type": "display_data"
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "{'confusion_matrix': array([[955, 101],\n",
+      "       [111, 686]])}\n",
+      "{'eval_loss': 0.937654972076416, 'eval_accuracy': 0.8855909336211549, 'eval_f1': 0.8661616161616161, 'eval_precision': 0.8716645489199492, 'eval_recall': 0.8607277289836889, 'eval_runtime': 11.5644, 'eval_samples_per_second': 160.233, 'eval_steps_per_second': 20.062, 'epoch': 5.0}\n",
+      "{'train_runtime': 3027.4521, 'train_samples_per_second': 47.609, 'train_steps_per_second': 5.952, 'train_loss': 0.15528733040680712, 'epoch': 5.0}\n"
+     ]
+    },
+    {
+     "data": {
+      "text/plain": [
+       "TrainOutput(global_step=18020, training_loss=0.15528733040680712, metrics={'train_runtime': 3027.4521, 'train_samples_per_second': 47.609, 'train_steps_per_second': 5.952, 'train_loss': 0.15528733040680712, 'epoch': 5.0})"
+      ]
+     },
+     "execution_count": 26,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "trainer.train()"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "# best case"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 25,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...\n",
+      "To disable this warning, you can either:\n",
+      "\t- Avoid using `tokenizers` before the fork if possible\n",
+      "\t- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)\n",
+      "huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...\n",
+      "To disable this warning, you can either:\n",
+      "\t- Avoid using `tokenizers` before the fork if possible\n",
+      "\t- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)\n",
+      "huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...\n",
+      "To disable this warning, you can either:\n",
+      "\t- Avoid using `tokenizers` before the fork if possible\n",
+      "\t- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)\n"
+     ]
+    },
+    {
+     "data": {
+      "application/vnd.jupyter.widget-view+json": {
+       "model_id": "4620503cb22c41a582c44a3d17fac2f6",
+       "version_major": 2,
+       "version_minor": 0
+      },
+      "text/plain": [
+       "  0%|          | 0/18825 [00:00<?, ?it/s]"
+      ]
+     },
+     "metadata": {},
+     "output_type": "display_data"
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "{'loss': 0.4623, 'learning_rate': 4.867197875166003e-05, 'epoch': 0.13}\n",
+      "{'loss': 0.3955, 'learning_rate': 4.734395750332006e-05, 'epoch': 0.27}\n",
+      "{'loss': 0.3695, 'learning_rate': 4.601593625498008e-05, 'epoch': 0.4}\n",
+      "{'loss': 0.368, 'learning_rate': 4.4687915006640105e-05, 'epoch': 0.53}\n",
+      "{'loss': 0.3418, 'learning_rate': 4.335989375830013e-05, 'epoch': 0.66}\n",
+      "{'loss': 0.3519, 'learning_rate': 4.203187250996016e-05, 'epoch': 0.8}\n",
+      "{'loss': 0.3418, 'learning_rate': 4.070385126162019e-05, 'epoch': 0.93}\n"
+     ]
+    },
+    {
+     "data": {
+      "application/vnd.jupyter.widget-view+json": {
+       "model_id": "c81779b9a7eb43cfa29966957f13ec31",
+       "version_major": 2,
+       "version_minor": 0
+      },
+      "text/plain": [
+       "  0%|          | 0/242 [00:00<?, ?it/s]"
+      ]
+     },
+     "metadata": {},
+     "output_type": "display_data"
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "{'eval_loss': 0.2548353374004364, 'eval_accuracy': 0.9013429752066116, 'eval_f1': 0.8737607402511566, 'eval_precision': 0.9218967921896792, 'eval_recall': 0.8304020100502513, 'eval_runtime': 12.1488, 'eval_samples_per_second': 159.357, 'eval_steps_per_second': 19.92, 'epoch': 1.0}\n",
+      "{'loss': 0.2884, 'learning_rate': 3.9375830013280215e-05, 'epoch': 1.06}\n",
+      "{'loss': 0.2136, 'learning_rate': 3.804780876494024e-05, 'epoch': 1.2}\n",
+      "{'loss': 0.2422, 'learning_rate': 3.671978751660027e-05, 'epoch': 1.33}\n",
+      "{'loss': 0.2105, 'learning_rate': 3.53917662682603e-05, 'epoch': 1.46}\n",
+      "{'loss': 0.2203, 'learning_rate': 3.406374501992032e-05, 'epoch': 1.59}\n",
+      "{'loss': 0.2455, 'learning_rate': 3.2735723771580345e-05, 'epoch': 1.73}\n",
+      "{'loss': 0.2282, 'learning_rate': 3.140770252324037e-05, 'epoch': 1.86}\n",
+      "{'loss': 0.2328, 'learning_rate': 3.00796812749004e-05, 'epoch': 1.99}\n"
+     ]
+    },
+    {
+     "data": {
+      "application/vnd.jupyter.widget-view+json": {
+       "model_id": "f83c5030d5c34216ba6422f2c22858ba",
+       "version_major": 2,
+       "version_minor": 0
+      },
+      "text/plain": [
+       "  0%|          | 0/242 [00:00<?, ?it/s]"
+      ]
+     },
+     "metadata": {},
+     "output_type": "display_data"
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "{'eval_loss': 0.4118729829788208, 'eval_accuracy': 0.8982438016528925, 'eval_f1': 0.8763339610797238, 'eval_precision': 0.875784190715182, 'eval_recall': 0.8768844221105527, 'eval_runtime': 12.1691, 'eval_samples_per_second': 159.092, 'eval_steps_per_second': 19.886, 'epoch': 2.0}\n",
+      "{'loss': 0.1086, 'learning_rate': 2.8751660026560427e-05, 'epoch': 2.12}\n",
+      "{'loss': 0.1137, 'learning_rate': 2.742363877822045e-05, 'epoch': 2.26}\n",
+      "{'loss': 0.1058, 'learning_rate': 2.609561752988048e-05, 'epoch': 2.39}\n",
+      "{'loss': 0.1073, 'learning_rate': 2.4767596281540506e-05, 'epoch': 2.52}\n",
+      "{'loss': 0.0953, 'learning_rate': 2.3439575033200534e-05, 'epoch': 2.66}\n",
+      "{'loss': 0.1066, 'learning_rate': 2.2111553784860558e-05, 'epoch': 2.79}\n",
+      "{'loss': 0.1152, 'learning_rate': 2.0783532536520585e-05, 'epoch': 2.92}\n"
+     ]
+    },
+    {
+     "data": {
+      "application/vnd.jupyter.widget-view+json": {
+       "model_id": "3c4d464cb3a340d4aa4f6a1a8e4d95b9",
+       "version_major": 2,
+       "version_minor": 0
+      },
+      "text/plain": [
+       "  0%|          | 0/242 [00:00<?, ?it/s]"
+      ]
+     },
+     "metadata": {},
+     "output_type": "display_data"
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "{'eval_loss': 0.4992543160915375, 'eval_accuracy': 0.9039256198347108, 'eval_f1': 0.8831658291457286, 'eval_precision': 0.8831658291457286, 'eval_recall': 0.8831658291457286, 'eval_runtime': 12.145, 'eval_samples_per_second': 159.407, 'eval_steps_per_second': 19.926, 'epoch': 3.0}\n",
+      "{'loss': 0.0761, 'learning_rate': 1.9455511288180613e-05, 'epoch': 3.05}\n",
+      "{'loss': 0.0434, 'learning_rate': 1.812749003984064e-05, 'epoch': 3.19}\n",
+      "{'loss': 0.0395, 'learning_rate': 1.6799468791500664e-05, 'epoch': 3.32}\n",
+      "{'loss': 0.0516, 'learning_rate': 1.547144754316069e-05, 'epoch': 3.45}\n",
+      "{'loss': 0.0344, 'learning_rate': 1.4143426294820719e-05, 'epoch': 3.59}\n",
+      "{'loss': 0.0588, 'learning_rate': 1.2815405046480745e-05, 'epoch': 3.72}\n",
+      "{'loss': 0.0323, 'learning_rate': 1.148738379814077e-05, 'epoch': 3.85}\n",
+      "{'loss': 0.0574, 'learning_rate': 1.0159362549800798e-05, 'epoch': 3.98}\n"
+     ]
+    },
+    {
+     "data": {
+      "application/vnd.jupyter.widget-view+json": {
+       "model_id": "bf0675bd947c472bb221d755dc55a219",
+       "version_major": 2,
+       "version_minor": 0
+      },
+      "text/plain": [
+       "  0%|          | 0/242 [00:00<?, ?it/s]"
+      ]
+     },
+     "metadata": {},
+     "output_type": "display_data"
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "{'eval_loss': 0.6084339618682861, 'eval_accuracy': 0.9121900826446281, 'eval_f1': 0.8933500627352573, 'eval_precision': 0.8922305764411027, 'eval_recall': 0.8944723618090452, 'eval_runtime': 11.9875, 'eval_samples_per_second': 161.502, 'eval_steps_per_second': 20.188, 'epoch': 4.0}\n",
+      "{'loss': 0.0175, 'learning_rate': 8.831341301460823e-06, 'epoch': 4.12}\n",
+      "{'loss': 0.0248, 'learning_rate': 7.503320053120851e-06, 'epoch': 4.25}\n",
+      "{'loss': 0.0212, 'learning_rate': 6.175298804780877e-06, 'epoch': 4.38}\n",
+      "{'loss': 0.0215, 'learning_rate': 4.847277556440903e-06, 'epoch': 4.52}\n",
+      "{'loss': 0.0216, 'learning_rate': 3.51925630810093e-06, 'epoch': 4.65}\n",
+      "{'loss': 0.0169, 'learning_rate': 2.1912350597609563e-06, 'epoch': 4.78}\n",
+      "{'loss': 0.0199, 'learning_rate': 8.632138114209828e-07, 'epoch': 4.91}\n"
+     ]
+    },
+    {
+     "data": {
+      "application/vnd.jupyter.widget-view+json": {
+       "model_id": "0ac0cee28031479d9721321ec9c949a4",
+       "version_major": 2,
+       "version_minor": 0
+      },
+      "text/plain": [
+       "  0%|          | 0/242 [00:00<?, ?it/s]"
+      ]
+     },
+     "metadata": {},
+     "output_type": "display_data"
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "{'eval_loss': 0.6909418106079102, 'eval_accuracy': 0.9158057851239669, 'eval_f1': 0.8963763509218055, 'eval_precision': 0.9073359073359073, 'eval_recall': 0.885678391959799, 'eval_runtime': 12.1798, 'eval_samples_per_second': 158.952, 'eval_steps_per_second': 19.869, 'epoch': 5.0}\n",
+      "{'train_runtime': 3197.4084, 'train_samples_per_second': 47.101, 'train_steps_per_second': 5.888, 'train_loss': 0.15457879885892628, 'epoch': 5.0}\n"
+     ]
+    },
+    {
+     "data": {
+      "text/plain": [
+       "TrainOutput(global_step=18825, training_loss=0.15457879885892628, metrics={'train_runtime': 3197.4084, 'train_samples_per_second': 47.101, 'train_steps_per_second': 5.888, 'train_loss': 0.15457879885892628, 'epoch': 5.0})"
+      ]
+     },
+     "execution_count": 25,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "trainer.train()"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "# load model"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 20,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import torch"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 21,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "model = AutoModelForSequenceClassification.from_pretrained('/DATA/sin-kaf/test_trainer/checkpoint-16000')"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 30,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Original:  güzel kızz\n",
+      "Token IDs: tensor([[   2, 2639, 2889, 1050,    3,    0,    0,    0,    0,    0,    0,    0,\n",
+      "            0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,\n",
+      "            0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,\n",
+      "            0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,\n",
+      "            0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,\n",
+      "            0,    0,    0,    0]])\n",
+      "Token IDs: tensor([[1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,\n",
+      "         0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,\n",
+      "         0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]])\n"
+     ]
+    }
+   ],
+   "source": [
+    "sent = 'güzel kızz'\n",
+    "input_ids = []\n",
+    "attention_masks = []\n",
+    "\n",
+    "encoded_dict = tokenizer.encode_plus(\n",
+    "                    sent,\n",
+    "                    add_special_tokens = True,\n",
+    "                    max_length = 64,\n",
+    "                    pad_to_max_length = True,\n",
+    "                    return_attention_mask = True,\n",
+    "                    return_tensors = 'pt',\n",
+    "                )\n",
+    "\n",
+    "\n",
+    "input_ids = encoded_dict['input_ids']\n",
+    "attention_masks = encoded_dict['attention_mask']\n",
+    "\n",
+    "\n",
+    "input_ids = torch.cat([input_ids], dim=0)\n",
+    "input_mask = torch.cat([attention_masks], dim=0)\n",
+    "\n",
+    "\n",
+    "\n",
+    "print('Original: ', sent)\n",
+    "print('Token IDs:', input_ids)\n",
+    "print('Token IDs:', input_mask)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 31,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "outputs = model(input_ids, input_mask)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 32,
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "SequenceClassifierOutput(loss=None, logits=tensor([[ 3.6835, -3.6147]], grad_fn=<AddmmBackward0>), hidden_states=None, attentions=None)"
+      ]
+     },
+     "execution_count": 32,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "outputs"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 33,
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "tensor(0)"
+      ]
+     },
+     "execution_count": 33,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "torch.argmax(outputs['logits'])"
+   ]
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "dlenv",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.9.17"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 2
+}