{ "cells": [ { "cell_type": "code", "execution_count": 1, "metadata": {}, "outputs": [], "source": [ "import emoji\n", "import numpy as np\n", "import pandas as pd\n", "from sklearn.preprocessing import LabelEncoder\n", "from transformers import AutoTokenizer" ] }, { "cell_type": "code", "execution_count": 2, "metadata": {}, "outputs": [], "source": [ "# train_df=pd.read_csv('/DATA/sin-kaf/offenseval-tr-training-v1.tsv',sep='\\t')\n", "# test_df=pd.read_csv('/DATA/sin-kaf/offenseval-tr-testset-v1.tsv',sep='\\t')\n", "# augmented_df=pd.read_csv('augmented_data_offensive.csv')\n", "# selin_df=pd.read_csv('/DATA/sin-kaf/selin_data.csv')" ] }, { "cell_type": "code", "execution_count": 3, "metadata": {}, "outputs": [], "source": [ "outliers_df=pd.read_csv('/DATA/sin-kaf/cluster_outliers.csv')\n", "outliers_df=outliers_df.drop(['Unnamed: 0'], axis=1)\n", "outliers_df['subtask_a'] = outliers_df['subtas_a']\n", "outliers_df=outliers_df.drop(['subtas_a'], axis=1)\n" ] }, { "cell_type": "code", "execution_count": 4, "metadata": {}, "outputs": [], "source": [ "train_df=outliers_df" ] }, { "cell_type": "code", "execution_count": 5, "metadata": {}, "outputs": [], "source": [ "# augmented_df=augmented_df.drop(['Unnamed: 0'], axis=1)\n", "# augmented_df = augmented_df.dropna()\n", "# train_df=pd.concat([train_df,augmented_df], axis=0)\n", "# train_df=pd.concat([train_df,test_df], axis=0)\n", "# train_df=train_df.drop(['id'], axis=1)\n", "data=train_df['tweet'].tolist()\n", "for i in range(len(data)):\n", " data[i] = data[i].replace('@USER','')\n", " data[i] = data[i].replace('#','')\n", " data[i] = data[i].replace('$','')\n", " data[i] = emoji.demojize(data[i])\n", " \n", "train_df['tweet'] = data\n", "lab = LabelEncoder()\n", "train_df['subtask_a'] = lab.fit_transform(train_df['subtask_a'])\n", "df = train_df[train_df.subtask_a != 2]" ] }, { "cell_type": "code", "execution_count": 6, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", " | tweet | \n", "subtask_a | \n", "
---|---|---|
0 | \n", "en güzel uyuyan insan ödülü jeon jungkook'a g... | \n", "0 | \n", "
1 | \n", "Mekanı cennet olsun, saygılar sayın avukatımı... | \n", "0 | \n", "
2 | \n", "Kızlar aranızda kas yığını beylere düşenler ol... | \n", "0 | \n", "
3 | \n", "Biraz ders çalışayım. Tembellik ve uyku düşman... | \n", "0 | \n", "
4 | \n", "Trezeguet yerine El Sharawy daha iyi olmaz mı | \n", "0 | \n", "
... | \n", "... | \n", "... | \n", "
41177 | \n", "Hil**adamlar kesinlikle kelimeleri anlamıyorla... | \n", "1 | \n", "
41178 | \n", "Böyle piçlerin çok erken ölmemelerini ve çok f... | \n", "1 | \n", "
41179 | \n", "Turgay denilen bu holigonda bir sorun yok, gur... | \n", "1 | \n", "
41180 | \n", "Umarım ülkenin düşük zekadan kurtulması ilgile... | \n", "1 | \n", "
41181 | \n", "CHP sandıkları bırakmaz, üzerine oturur, bir c... | \n", "1 | \n", "
41182 rows × 2 columns
\n", "\n", " | tweet | \n", "subtask_a | \n", "
---|---|---|
0 | \n", "en güzel uyuyan insan ödülü jeon jungkook'a g... | \n", "0 | \n", "
1 | \n", "Mekanı cennet olsun, saygılar sayın avukatımı... | \n", "0 | \n", "
2 | \n", "Kızlar aranızda kas yığını beylere düşenler ol... | \n", "0 | \n", "
3 | \n", "Biraz ders çalışayım. Tembellik ve uyku düşman... | \n", "0 | \n", "
4 | \n", "Trezeguet yerine El Sharawy daha iyi olmaz mı | \n", "0 | \n", "
... | \n", "... | \n", "... | \n", "
41177 | \n", "Hil**adamlar kesinlikle kelimeleri anlamıyorla... | \n", "1 | \n", "
41178 | \n", "Böyle piçlerin çok erken ölmemelerini ve çok f... | \n", "1 | \n", "
41179 | \n", "Turgay denilen bu holigonda bir sorun yok, gur... | \n", "1 | \n", "
41180 | \n", "Umarım ülkenin düşük zekadan kurtulması ilgile... | \n", "1 | \n", "
41181 | \n", "CHP sandıkları bırakmaz, üzerine oturur, bir c... | \n", "1 | \n", "
41182 rows × 2 columns
\n", "