File size: 6,355 Bytes
cee1077 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 |
{
"cells": [
{
"cell_type": "code",
"execution_count": 5,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"<div>\n",
"<style scoped>\n",
" .dataframe tbody tr th:only-of-type {\n",
" vertical-align: middle;\n",
" }\n",
"\n",
" .dataframe tbody tr th {\n",
" vertical-align: top;\n",
" }\n",
"\n",
" .dataframe thead th {\n",
" text-align: right;\n",
" }\n",
"</style>\n",
"<table border=\"1\" class=\"dataframe\">\n",
" <thead>\n",
" <tr style=\"text-align: right;\">\n",
" <th></th>\n",
" <th>right1</th>\n",
" <th>wrong</th>\n",
" </tr>\n",
" </thead>\n",
" <tbody>\n",
" <tr>\n",
" <th>0</th>\n",
" <td>Pinag-iingat ng Konsulado ng Pilipinas sa Duba...</td>\n",
" <td>Pinag-iingat ng Konsulado ng Pilipinas sa Duba...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>1</th>\n",
" <td>\"Para bang iniuugoy kami sa duyan,\" kuwento ni...</td>\n",
" <td>Para bang uuguyin kami sa duyan,\" kuwento ni M...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>2</th>\n",
" <td>Agad namang nagkaloob ng ayuda ang pamahalaang...</td>\n",
" <td>Agad namang nagkaloob ng ayuda ang pamahalaang...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>3</th>\n",
" <td>May malaking pananagutan umano ang gobyerno la...</td>\n",
" <td>May malaking pananagutan umano ang gobyerno la...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>4</th>\n",
" <td>Inupakan ng isang militanteng kongresista si B...</td>\n",
" <td>Uupakan ng isang militanteng kongresista si Bu...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>...</th>\n",
" <td>...</td>\n",
" <td>...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>5165</th>\n",
" <td>Nais naman ng Patnubay na malinawan kung bakit...</td>\n",
" <td>Nais naman ng Patnubay na sa kung bakit inabot...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>5166</th>\n",
" <td>Paliwanag ng kongresista, base sa utos ng Land...</td>\n",
" <td>Paliwanag ng kongresista, base sa utos ng Land...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>5167</th>\n",
" <td>Sinibak na rin ni Ortiz si Col. Alexander Maca...</td>\n",
" <td>Sinibak na rin ni Ortiz si Col. Alexander Maca...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>5168</th>\n",
" <td>Batay sa guidelines sa MECQ at GCQ areas, dapa...</td>\n",
" <td>Batay sa guidelines sa MECQ at GCQ areas, dapa...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>5169</th>\n",
" <td>Hahayaan na lamang aniya ng Malacanang na mags...</td>\n",
" <td>Hahayaan na lamang gustong ng Malacanang na ma...</td>\n",
" </tr>\n",
" </tbody>\n",
"</table>\n",
"<p>5170 rows × 2 columns</p>\n",
"</div>"
],
"text/plain": [
" right1 \\\n",
"0 Pinag-iingat ng Konsulado ng Pilipinas sa Duba... \n",
"1 \"Para bang iniuugoy kami sa duyan,\" kuwento ni... \n",
"2 Agad namang nagkaloob ng ayuda ang pamahalaang... \n",
"3 May malaking pananagutan umano ang gobyerno la... \n",
"4 Inupakan ng isang militanteng kongresista si B... \n",
"... ... \n",
"5165 Nais naman ng Patnubay na malinawan kung bakit... \n",
"5166 Paliwanag ng kongresista, base sa utos ng Land... \n",
"5167 Sinibak na rin ni Ortiz si Col. Alexander Maca... \n",
"5168 Batay sa guidelines sa MECQ at GCQ areas, dapa... \n",
"5169 Hahayaan na lamang aniya ng Malacanang na mags... \n",
"\n",
" wrong \n",
"0 Pinag-iingat ng Konsulado ng Pilipinas sa Duba... \n",
"1 Para bang uuguyin kami sa duyan,\" kuwento ni M... \n",
"2 Agad namang nagkaloob ng ayuda ang pamahalaang... \n",
"3 May malaking pananagutan umano ang gobyerno la... \n",
"4 Uupakan ng isang militanteng kongresista si Bu... \n",
"... ... \n",
"5165 Nais naman ng Patnubay na sa kung bakit inabot... \n",
"5166 Paliwanag ng kongresista, base sa utos ng Land... \n",
"5167 Sinibak na rin ni Ortiz si Col. Alexander Maca... \n",
"5168 Batay sa guidelines sa MECQ at GCQ areas, dapa... \n",
"5169 Hahayaan na lamang gustong ng Malacanang na ma... \n",
"\n",
"[5170 rows x 2 columns]"
]
},
"metadata": {},
"output_type": "display_data"
}
],
"source": [
"import pandas as pd\n",
"\n",
"# Load your dataset into a pandas DataFrame\n",
"# Replace 'your_dataset.csv' with the actual path to your dataset file\n",
"df = pd.read_csv(r'D:\\Thesis\\Datasets\\finetune_BERT.csv')\n",
"\n",
"# Fill missing values in 'right1' column with values from 'right2' column\n",
"df['right1'].fillna(df['right2'], inplace=True)\n",
"\n",
"# Drop the 'right2' column if no longer needed\n",
"df.drop(columns=['right2', 'type'], inplace=True)\n",
"display(df)\n",
"\n",
"\n",
"\n",
"# Save the combined dataset to a new file if needed\n",
"df.to_csv('test_bert_data.csv', index=False)\n"
]
}
],
"metadata": {
"kernelspec": {
"display_name": "Python 3",
"language": "python",
"name": "python3"
},
"language_info": {
"codemirror_mode": {
"name": "ipython",
"version": 3
},
"file_extension": ".py",
"mimetype": "text/x-python",
"name": "python",
"nbconvert_exporter": "python",
"pygments_lexer": "ipython3",
"version": "3.11.1"
}
},
"nbformat": 4,
"nbformat_minor": 2
}
|