diff --git "a/space/space/space/notebooks/Kien_Rule_base.ipynb" "b/space/space/space/notebooks/Kien_Rule_base.ipynb" new file mode 100644--- /dev/null +++ "b/space/space/space/notebooks/Kien_Rule_base.ipynb" @@ -0,0 +1,8495 @@ +{ + "cells": [ + { + "cell_type": "code", + "execution_count": 1, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "7bPdA3aUaZqD", + "outputId": "e0cca7aa-2bee-4d86-ceb1-663e3733e103" + }, + "outputs": [ + { + "name": "stderr", + "output_type": "stream", + "text": [ + "/usr/local/lib/python3.11/dist-packages/huggingface_hub/utils/_auth.py:94: UserWarning: \n", + "The secret `HF_TOKEN` does not exist in your Colab secrets.\n", + "To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.\n", + "You will be able to reuse this secret in all of your notebooks.\n", + "Please note that authentication is recommended but still optional to access public models or datasets.\n", + " warnings.warn(\n" + ] + } + ], + "source": [ + "import pandas as pd\n", + "\n", + "splits = {'train': 'data/train-00000-of-00001-b0417886a268b83a.parquet', 'valid': 'data/valid-00000-of-00001-846411c236133ba3.parquet'}\n", + "df_train = pd.read_parquet(\"hf://datasets/datnth1709/VLSP2016-NER-data/\" + splits[\"train\"])\n", + "df_valid = pd.read_parquet(\"hf://datasets/datnth1709/VLSP2016-NER-data/\" + splits[\"valid\"])\n", + "df = pd.concat([df_train, df_valid]).reset_index(drop=True)" + ] + }, + { + "cell_type": "code", + "execution_count": 2, + "metadata": { + "id": "UGHTgnkil_4R" + }, + "outputs": [], + "source": [ + "tag_id = {'O': 0, 'B-PER': 1, 'I-PER': 2, 'B-ORG': 3, 'I-ORG': 4, 'B-LOC': 5, 'I-LOC': 6, 'B-NAT': 7, 'I-NAT': 8}\n", + "id_tag = {0: 'O', 1: 'B-PER', 2: 'I-PER', 3: 'B-ORG', 4: 'I-ORG', 5: 'B-LOC', 6: 'I-LOC', 7: 'B-NAT', 8: 'I-NAT'}" + ] + }, + { + "cell_type": "code", + "execution_count": 3, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/", + "height": 423 + }, + "id": "gg8a9_1AibFj", + "outputId": "ff63e8d2-2782-4b64-c135-f4d15b43c818" + }, + "outputs": [ + { + "data": { + "application/vnd.google.colaboratory.intrinsic+json": { + "summary": "{\n \"name\": \"df\",\n \"rows\": 16858,\n \"fields\": [\n {\n \"column\": \"tokens\",\n \"properties\": {\n \"dtype\": \"object\",\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n },\n {\n \"column\": \"ner_tags\",\n \"properties\": {\n \"dtype\": \"object\",\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n },\n {\n \"column\": \"ner_labels\",\n \"properties\": {\n \"dtype\": \"object\",\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n }\n ]\n}", + "type": "dataframe", + "variable_name": "df" + }, + "text/html": [ + "\n", + "
\n", + "
\n", + "\n", + "\n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + "
tokensner_tagsner_labels
0[Không_khí, thật, náo_nhiệt, .][0, 0, 0, 0][O, O, O, O]
1[Chị, Lãnh, và, Xăng, ra, đi, ,, mình, đứng, n...[0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ...[O, B-PER, O, B-PER, O, O, O, O, O, O, O, O, O...
2[Suy_tính, mãi, ,, khóc, mãi, rồi, Phúc, lấy, ...[0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, ...[O, O, O, O, O, O, B-PER, O, O, O, O, O, O, O,...
3[Hoà, bảo, hồi, mới, qua, đâu, có, biết, nấu_n...[1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 5, 0, ...[B-PER, O, O, O, O, O, O, O, O, O, O, O, O, B-...
4[Nhật_ký, của, thuyền_viên, .][0, 0, 0, 0][O, O, O, O]
............
16853[Nghe, thấy, đã, ghê_ghê, nhưng, Nhiêu, chưa, ...[0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, ...[O, O, O, O, O, B-PER, O, O, O, O, O, O, O, O,...
16854[Nhưng, mọi, chuyện, không, dừng, ở, đó, .][0, 0, 0, 0, 0, 0, 0, 0][O, O, O, O, O, O, O, O]
16855[Hoà, bảo, thời_gian, đầu, mặc_cảm, lắm, ,, ở,...[1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ...[B-PER, O, O, O, O, O, O, O, O, O, O, O, O, O,...
16856[Biết_bao, người, đã, tình_nguyện, hiến_dâng, ...[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0][O, O, O, O, O, O, O, O, O, O, O, O, O, O, O]
16857[Trên, đây, mới, là, “, thành_tích, ”, tiêu, t...[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ...[O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ...
\n", + "

16858 rows × 3 columns

\n", + "
\n", + "
\n", + "\n", + "
\n", + " \n", + "\n", + " \n", + "\n", + " \n", + "
\n", + "\n", + "\n", + "
\n", + " \n", + "\n", + "\n", + "\n", + " \n", + "
\n", + "\n", + "
\n", + " \n", + " \n", + " \n", + "
\n", + "\n", + "
\n", + "
\n" + ], + "text/plain": [ + " tokens \\\n", + "0 [Không_khí, thật, náo_nhiệt, .] \n", + "1 [Chị, Lãnh, và, Xăng, ra, đi, ,, mình, đứng, n... \n", + "2 [Suy_tính, mãi, ,, khóc, mãi, rồi, Phúc, lấy, ... \n", + "3 [Hoà, bảo, hồi, mới, qua, đâu, có, biết, nấu_n... \n", + "4 [Nhật_ký, của, thuyền_viên, .] \n", + "... ... \n", + "16853 [Nghe, thấy, đã, ghê_ghê, nhưng, Nhiêu, chưa, ... \n", + "16854 [Nhưng, mọi, chuyện, không, dừng, ở, đó, .] \n", + "16855 [Hoà, bảo, thời_gian, đầu, mặc_cảm, lắm, ,, ở,... \n", + "16856 [Biết_bao, người, đã, tình_nguyện, hiến_dâng, ... \n", + "16857 [Trên, đây, mới, là, “, thành_tích, ”, tiêu, t... \n", + "\n", + " ner_tags \\\n", + "0 [0, 0, 0, 0] \n", + "1 [0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... \n", + "2 [0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, ... \n", + "3 [1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 5, 0, ... \n", + "4 [0, 0, 0, 0] \n", + "... ... \n", + "16853 [0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, ... \n", + "16854 [0, 0, 0, 0, 0, 0, 0, 0] \n", + "16855 [1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... \n", + "16856 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0] \n", + "16857 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... \n", + "\n", + " ner_labels \n", + "0 [O, O, O, O] \n", + "1 [O, B-PER, O, B-PER, O, O, O, O, O, O, O, O, O... \n", + "2 [O, O, O, O, O, O, B-PER, O, O, O, O, O, O, O,... \n", + "3 [B-PER, O, O, O, O, O, O, O, O, O, O, O, O, B-... \n", + "4 [O, O, O, O] \n", + "... ... \n", + "16853 [O, O, O, O, O, B-PER, O, O, O, O, O, O, O, O,... \n", + "16854 [O, O, O, O, O, O, O, O] \n", + "16855 [B-PER, O, O, O, O, O, O, O, O, O, O, O, O, O,... \n", + "16856 [O, O, O, O, O, O, O, O, O, O, O, O, O, O, O] \n", + "16857 [O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ... \n", + "\n", + "[16858 rows x 3 columns]" + ] + }, + "execution_count": 3, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "def label(x):\n", + " return [id_tag[int(i)] for i in x]\n", + "df[\"ner_labels\"] = df.ner_tags.apply(label)\n", + "df" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "l3KdOY9Imz8D" + }, + "source": [ + "# Overview" + ] + }, + { + "cell_type": "code", + "execution_count": 4, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/", + "height": 206 + }, + "id": "dvkgtj0Ilzno", + "outputId": "3053d59d-b399-4729-9507-916b127e62fa" + }, + "outputs": [ + { + "data": { + "application/vnd.google.colaboratory.intrinsic+json": { + "summary": "{\n \"name\": \"df\",\n \"rows\": 16858,\n \"fields\": [\n {\n \"column\": \"tokens\",\n \"properties\": {\n \"dtype\": \"object\",\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n },\n {\n \"column\": \"ner_tags\",\n \"properties\": {\n \"dtype\": \"object\",\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n },\n {\n \"column\": \"ner_labels\",\n \"properties\": {\n \"dtype\": \"object\",\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n }\n ]\n}", + "type": "dataframe", + "variable_name": "df" + }, + "text/html": [ + "\n", + "
\n", + "
\n", + "\n", + "\n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + "
tokensner_tagsner_labels
0[Không_khí, thật, náo_nhiệt, .][0, 0, 0, 0][O, O, O, O]
1[Chị, Lãnh, và, Xăng, ra, đi, ,, mình, đứng, n...[0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ...[O, B-PER, O, B-PER, O, O, O, O, O, O, O, O, O...
2[Suy_tính, mãi, ,, khóc, mãi, rồi, Phúc, lấy, ...[0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, ...[O, O, O, O, O, O, B-PER, O, O, O, O, O, O, O,...
3[Hoà, bảo, hồi, mới, qua, đâu, có, biết, nấu_n...[1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 5, 0, ...[B-PER, O, O, O, O, O, O, O, O, O, O, O, O, B-...
4[Nhật_ký, của, thuyền_viên, .][0, 0, 0, 0][O, O, O, O]
\n", + "
\n", + "
\n", + "\n", + "
\n", + " \n", + "\n", + " \n", + "\n", + " \n", + "
\n", + "\n", + "\n", + "
\n", + " \n", + "\n", + "\n", + "\n", + " \n", + "
\n", + "\n", + "
\n", + "
\n" + ], + "text/plain": [ + " tokens \\\n", + "0 [Không_khí, thật, náo_nhiệt, .] \n", + "1 [Chị, Lãnh, và, Xăng, ra, đi, ,, mình, đứng, n... \n", + "2 [Suy_tính, mãi, ,, khóc, mãi, rồi, Phúc, lấy, ... \n", + "3 [Hoà, bảo, hồi, mới, qua, đâu, có, biết, nấu_n... \n", + "4 [Nhật_ký, của, thuyền_viên, .] \n", + "\n", + " ner_tags \\\n", + "0 [0, 0, 0, 0] \n", + "1 [0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... \n", + "2 [0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, ... \n", + "3 [1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 5, 0, ... \n", + "4 [0, 0, 0, 0] \n", + "\n", + " ner_labels \n", + "0 [O, O, O, O] \n", + "1 [O, B-PER, O, B-PER, O, O, O, O, O, O, O, O, O... \n", + "2 [O, O, O, O, O, O, B-PER, O, O, O, O, O, O, O,... \n", + "3 [B-PER, O, O, O, O, O, O, O, O, O, O, O, O, B-... \n", + "4 [O, O, O, O] " + ] + }, + "execution_count": 4, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "df.head(5)" + ] + }, + { + "cell_type": "code", + "execution_count": 5, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "XbY94Vjqb3UY", + "outputId": "ae7af3c6-4c0d-41eb-a671-b9d1a660ff5c" + }, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "\n", + "RangeIndex: 16858 entries, 0 to 16857\n", + "Data columns (total 3 columns):\n", + " # Column Non-Null Count Dtype \n", + "--- ------ -------------- ----- \n", + " 0 tokens 16858 non-null object\n", + " 1 ner_tags 16858 non-null object\n", + " 2 ner_labels 16858 non-null object\n", + "dtypes: object(3)\n", + "memory usage: 395.2+ KB\n" + ] + } + ], + "source": [ + "df.info()" + ] + }, + { + "cell_type": "code", + "execution_count": 6, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "1vHfeaHgjpMg", + "outputId": "62a5028b-3758-4e71-e473-36aeb9cda5a3" + }, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "tokens - \n", + "ner_tags - \n" + ] + } + ], + "source": [ + "print(\"tokens - \", type(df.tokens[0]))\n", + "print(\"ner_tags - \", type(df.ner_tags[0]))" + ] + }, + { + "cell_type": "code", + "execution_count": 7, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/", + "height": 562 + }, + "id": "Oi5-brhr2GZc", + "outputId": "e239b808-581f-4f09-85f9-dd562cb1e63a" + }, + "outputs": [ + { + "data": { + "application/vnd.google.colaboratory.intrinsic+json": { + "summary": "{\n \"name\": \"df\",\n \"rows\": 16858,\n \"fields\": [\n {\n \"column\": \"tokens\",\n \"properties\": {\n \"dtype\": \"object\",\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n },\n {\n \"column\": \"ner_tags\",\n \"properties\": {\n \"dtype\": \"object\",\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n },\n {\n \"column\": \"ner_labels\",\n \"properties\": {\n \"dtype\": \"object\",\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n },\n {\n \"column\": \"text_withseg\",\n \"properties\": {\n \"dtype\": \"string\",\n \"num_unique_values\": 16787,\n \"samples\": [\n \"T\\u00ednh th\\u00f4ng_minh , l\\u1ea1i t\\u00f2_m\\u00f2 , anh Ki\\u1ec7m b\\u1eaft_\\u0111\\u1ea7u \\u0111i \\u0111\\u1ebfn c\\u00e1c x\\u01b0\\u1edfng c\\u01a1_kh\\u00ed \\u0111\\u1ec3 quan_s\\u00e1t c\\u00e1c lo\\u1ea1i m\\u00e1y_m\\u00f3c , r\\u1ed3i v\\u1ec1 nh\\u00e0 suy_ngh\\u0129 v\\u00e0 c\\u1ea7m b\\u00fat v\\u1ebd ph\\u00e1c_ho\\u1ea1 ra c\\u00e1i m\\u00e1y v\\u00fat g\\u1ea1o .\",\n \"V\\u1eady th\\u00ec , h\\u1ecd c\\u1ea7n ph\\u1ea3i \\u0111\\u01b0\\u1ee3c gi\\u00fap_\\u0111\\u1ee1 , ph\\u1ea3i \\u0111\\u01b0\\u1ee3c s\\u1ed1ng \\u0111\\u00e0ng_ho\\u00e0ng , ph\\u1ea3i \\u0111\\u01b0\\u1ee3c l\\u00e0m ng\\u01b0\\u1eddi d\\u00f9 ch\\u1ec9 l\\u00e0 nh\\u1eefng ng\\u00e0y cu\\u1ed1i_c\\u00f9ng .\",\n \"Nhi\\u1ec1u ng\\u01b0\\u1eddi th\\u00f4ng_d\\u1ecbch c\\u00f9ng th\\u1eddi v\\u1edbi Nguy\\u1ec5n Trung Hi\\u1ebfu c\\u0169ng \\u0111\\u00e3 ch\\u1ebft trong khi th\\u1ef1c_hi\\u1ec7n nhi\\u1ec7m_v\\u1ee5 t\\u1ea1i chi\\u1ebfn_tr\\u01b0\\u1eddng ho\\u1eb7c tr\\u00ean \\u0111\\u01b0\\u1eddng h\\u00e0nh_qu\\u00e2n .\"\n ],\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n },\n {\n \"column\": \"text_raw\",\n \"properties\": {\n \"dtype\": \"string\",\n \"num_unique_values\": 16785,\n \"samples\": [\n \"Trong kho\\u1ea3ng th\\u1eddi gian \\u0111\\u00f3 ch\\u1ecb c\\u1ed1 c\\u00f4ng t\\u1ef1 h\\u1ecdc ti\\u1ebfng Anh .\",\n \"Sau \\u0111\\u00f3 , ch\\u00ednh b\\u00e0 Susan \\u0111\\u00e3 \\u0111\\u01b0a Mai l\\u00ean h\\u1ecdc \\u0111\\u1ea1i h\\u1ecdc , m\\u1ed7i n\\u0103m chu c\\u1ea5p cho c\\u00f4 30.000 USD .\",\n \"T\\u1eeb r\\u1ea5t l\\u00e2u r\\u1ed3i t\\u00f4i v\\u1eabn ngh\\u0129 n\\u1ebfu nh\\u01b0 cu\\u1ed1n s\\u00e1ch \\u0111\\u01b0\\u1ee3c xu\\u1ea5t b\\u1ea3n , ho\\u1eb7c ng\\u01b0\\u1eddi ta l\\u00e0m phim v\\u1ec1 n\\u00f3 th\\u00ec t\\u00f4i s\\u1ebd d\\u00f9ng s\\u1ed1 ti\\u1ec1n b\\u00e1n s\\u00e1ch \\u0111\\u1ec3 thi\\u1ebft l\\u1eadp m\\u1ed9t s\\u1ed1 gi\\u01b0\\u1eddng b\\u1ec7nh t\\u1ea1i H\\u00e0 N\\u1ed9i .\"\n ],\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n }\n ]\n}", + "type": "dataframe", + "variable_name": "df" + }, + "text/html": [ + "\n", + "
\n", + "
\n", + "\n", + "\n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + "
tokensner_tagsner_labelstext_withsegtext_raw
0[Không_khí, thật, náo_nhiệt, .][0, 0, 0, 0][O, O, O, O]Không_khí thật náo_nhiệt .Không khí thật náo nhiệt .
1[Chị, Lãnh, và, Xăng, ra, đi, ,, mình, đứng, n...[0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ...[O, B-PER, O, B-PER, O, O, O, O, O, O, O, O, O...Chị Lãnh và Xăng ra đi , mình đứng nhìn hai ch...Chị Lãnh và Xăng ra đi , mình đứng nhìn hai ch...
2[Suy_tính, mãi, ,, khóc, mãi, rồi, Phúc, lấy, ...[0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, ...[O, O, O, O, O, O, B-PER, O, O, O, O, O, O, O,...Suy_tính mãi , khóc mãi rồi Phúc lấy ra tờ giấ...Suy tính mãi , khóc mãi rồi Phúc lấy ra tờ giấ...
3[Hoà, bảo, hồi, mới, qua, đâu, có, biết, nấu_n...[1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 5, 0, ...[B-PER, O, O, O, O, O, O, O, O, O, O, O, O, B-...Hoà bảo hồi mới qua đâu có biết nấu_nướng gì ,...Hoà bảo hồi mới qua đâu có biết nấu nướng gì ,...
4[Nhật_ký, của, thuyền_viên, .][0, 0, 0, 0][O, O, O, O]Nhật_ký của thuyền_viên .Nhật ký của thuyền viên .
..................
16853[Nghe, thấy, đã, ghê_ghê, nhưng, Nhiêu, chưa, ...[0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, ...[O, O, O, O, O, B-PER, O, O, O, O, O, O, O, O,...Nghe thấy đã ghê_ghê nhưng Nhiêu chưa được tườ...Nghe thấy đã ghê ghê nhưng Nhiêu chưa được tườ...
16854[Nhưng, mọi, chuyện, không, dừng, ở, đó, .][0, 0, 0, 0, 0, 0, 0, 0][O, O, O, O, O, O, O, O]Nhưng mọi chuyện không dừng ở đó .Nhưng mọi chuyện không dừng ở đó .
16855[Hoà, bảo, thời_gian, đầu, mặc_cảm, lắm, ,, ở,...[1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ...[B-PER, O, O, O, O, O, O, O, O, O, O, O, O, O,...Hoà bảo thời_gian đầu mặc_cảm lắm , ở trong nh...Hoà bảo thời gian đầu mặc cảm lắm , ở trong nh...
16856[Biết_bao, người, đã, tình_nguyện, hiến_dâng, ...[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0][O, O, O, O, O, O, O, O, O, O, O, O, O, O, O]Biết_bao người đã tình_nguyện hiến_dâng cả cuộ...Biết bao người đã tình nguyện hiến dâng cả cuộ...
16857[Trên, đây, mới, là, “, thành_tích, ”, tiêu, t...[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ...[O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ...Trên đây mới là “ thành_tích ” tiêu tiền của m...Trên đây mới là “ thành tích ” tiêu tiền của m...
\n", + "

16858 rows × 5 columns

\n", + "
\n", + "
\n", + "\n", + "
\n", + " \n", + "\n", + " \n", + "\n", + " \n", + "
\n", + "\n", + "\n", + "
\n", + " \n", + "\n", + "\n", + "\n", + " \n", + "
\n", + "\n", + "
\n", + " \n", + " \n", + " \n", + "
\n", + "\n", + "
\n", + "
\n" + ], + "text/plain": [ + " tokens \\\n", + "0 [Không_khí, thật, náo_nhiệt, .] \n", + "1 [Chị, Lãnh, và, Xăng, ra, đi, ,, mình, đứng, n... \n", + "2 [Suy_tính, mãi, ,, khóc, mãi, rồi, Phúc, lấy, ... \n", + "3 [Hoà, bảo, hồi, mới, qua, đâu, có, biết, nấu_n... \n", + "4 [Nhật_ký, của, thuyền_viên, .] \n", + "... ... \n", + "16853 [Nghe, thấy, đã, ghê_ghê, nhưng, Nhiêu, chưa, ... \n", + "16854 [Nhưng, mọi, chuyện, không, dừng, ở, đó, .] \n", + "16855 [Hoà, bảo, thời_gian, đầu, mặc_cảm, lắm, ,, ở,... \n", + "16856 [Biết_bao, người, đã, tình_nguyện, hiến_dâng, ... \n", + "16857 [Trên, đây, mới, là, “, thành_tích, ”, tiêu, t... \n", + "\n", + " ner_tags \\\n", + "0 [0, 0, 0, 0] \n", + "1 [0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... \n", + "2 [0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, ... \n", + "3 [1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 5, 0, ... \n", + "4 [0, 0, 0, 0] \n", + "... ... \n", + "16853 [0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, ... \n", + "16854 [0, 0, 0, 0, 0, 0, 0, 0] \n", + "16855 [1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... \n", + "16856 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0] \n", + "16857 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... \n", + "\n", + " ner_labels \\\n", + "0 [O, O, O, O] \n", + "1 [O, B-PER, O, B-PER, O, O, O, O, O, O, O, O, O... \n", + "2 [O, O, O, O, O, O, B-PER, O, O, O, O, O, O, O,... \n", + "3 [B-PER, O, O, O, O, O, O, O, O, O, O, O, O, B-... \n", + "4 [O, O, O, O] \n", + "... ... \n", + "16853 [O, O, O, O, O, B-PER, O, O, O, O, O, O, O, O,... \n", + "16854 [O, O, O, O, O, O, O, O] \n", + "16855 [B-PER, O, O, O, O, O, O, O, O, O, O, O, O, O,... \n", + "16856 [O, O, O, O, O, O, O, O, O, O, O, O, O, O, O] \n", + "16857 [O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ... \n", + "\n", + " text_withseg \\\n", + "0 Không_khí thật náo_nhiệt . \n", + "1 Chị Lãnh và Xăng ra đi , mình đứng nhìn hai ch... \n", + "2 Suy_tính mãi , khóc mãi rồi Phúc lấy ra tờ giấ... \n", + "3 Hoà bảo hồi mới qua đâu có biết nấu_nướng gì ,... \n", + "4 Nhật_ký của thuyền_viên . \n", + "... ... \n", + "16853 Nghe thấy đã ghê_ghê nhưng Nhiêu chưa được tườ... \n", + "16854 Nhưng mọi chuyện không dừng ở đó . \n", + "16855 Hoà bảo thời_gian đầu mặc_cảm lắm , ở trong nh... \n", + "16856 Biết_bao người đã tình_nguyện hiến_dâng cả cuộ... \n", + "16857 Trên đây mới là “ thành_tích ” tiêu tiền của m... \n", + "\n", + " text_raw \n", + "0 Không khí thật náo nhiệt . \n", + "1 Chị Lãnh và Xăng ra đi , mình đứng nhìn hai ch... \n", + "2 Suy tính mãi , khóc mãi rồi Phúc l��y ra tờ giấ... \n", + "3 Hoà bảo hồi mới qua đâu có biết nấu nướng gì ,... \n", + "4 Nhật ký của thuyền viên . \n", + "... ... \n", + "16853 Nghe thấy đã ghê ghê nhưng Nhiêu chưa được tườ... \n", + "16854 Nhưng mọi chuyện không dừng ở đó . \n", + "16855 Hoà bảo thời gian đầu mặc cảm lắm , ở trong nh... \n", + "16856 Biết bao người đã tình nguyện hiến dâng cả cuộ... \n", + "16857 Trên đây mới là “ thành tích ” tiêu tiền của m... \n", + "\n", + "[16858 rows x 5 columns]" + ] + }, + "execution_count": 7, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "# Hàm gộp và xử lý dấu câu\n", + "def join_tokens(tokens):\n", + " text = ' '.join(tokens)\n", + " return text\n", + "\n", + "def reform_raw_text(tokens):\n", + " text = ' '.join(tokens)\n", + " return text.replace(\"_\", \" \")\n", + "\n", + "df['text_withseg'] = df['tokens'].apply(join_tokens)\n", + "df['text_raw'] = df['tokens'].apply(reform_raw_text)\n", + "\n", + "def label(x):\n", + " return [id_tag[int(i)] for i in x]\n", + "df[\"ner_labels\"] = df.ner_tags.apply(label)\n", + "df" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "sYlRxG7K9PYx" + }, + "source": [] + }, + { + "cell_type": "code", + "execution_count": 8, + "metadata": { + "id": "lkTKRcYPsZiD" + }, + "outputs": [], + "source": [ + "time = 0\n", + "org_idx = []\n", + "token = []\n", + "tag = []\n", + "for i in (df.index):\n", + " for a in range(len(df.ner_tags[i])):\n", + " # if df.ner_tags[i][a] == 6 or df.ner_tags[i][a] == 5:\n", + " if df.ner_labels[i][a] != 'O':\n", + " token.append(df.tokens[i][[a]])\n", + " tag.append(df.ner_labels[i][a])\n", + " org_idx.append(i)" + ] + }, + { + "cell_type": "code", + "execution_count": 9, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/", + "height": 366 + }, + "id": "vTufL8Blu5fe", + "outputId": "ed82540c-c2d0-450b-9eff-0ba680a11698" + }, + "outputs": [ + { + "data": { + "text/html": [ + "
\n", + "\n", + "\n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + "
count
tag
B-PER7479
B-LOC6244
I-PER3522
I-LOC2783
I-ORG2055
B-ORG1212
B-NAT282
I-NAT279
\n", + "

" + ], + "text/plain": [ + "tag\n", + "B-PER 7479\n", + "B-LOC 6244\n", + "I-PER 3522\n", + "I-LOC 2783\n", + "I-ORG 2055\n", + "B-ORG 1212\n", + "B-NAT 282\n", + "I-NAT 279\n", + "Name: count, dtype: int64" + ] + }, + "execution_count": 9, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "tag_data = pd.DataFrame({'org_idx': org_idx, 'token': token, 'tag': tag})\n", + "tag_data.tag.value_counts()" + ] + }, + { + "cell_type": "code", + "execution_count": 10, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/", + "height": 363 + }, + "id": "en1q55Tf9lD7", + "outputId": "1de18f2e-88e5-4e75-847f-8aaf6b2932b4" + }, + "outputs": [ + { + "data": { + "application/vnd.google.colaboratory.intrinsic+json": { + "summary": "{\n \"name\": \"tag_data[tag_data\",\n \"rows\": 10,\n \"fields\": [\n {\n \"column\": \"org_idx\",\n \"properties\": {\n \"dtype\": \"number\",\n \"std\": 5203,\n \"min\": 1364,\n \"max\": 15557,\n \"num_unique_values\": 10,\n \"samples\": [\n 1364,\n 14208,\n 12272\n ],\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n },\n {\n \"column\": \"token\",\n \"properties\": {\n \"dtype\": \"object\",\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n },\n {\n \"column\": \"tag\",\n \"properties\": {\n \"dtype\": \"category\",\n \"num_unique_values\": 1,\n \"samples\": [\n \"B-PER\"\n ],\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n }\n ]\n}", + "type": "dataframe" + }, + "text/html": [ + "\n", + "
\n", + "
\n", + "\n", + "\n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + "
org_idxtokentag
113238102[Rơ]B-PER
1993614208[Thạc]B-PER
50743612[Khánh]B-PER
88706383[Bibi]B-PER
59274246[Thuỳ]B-PER
1712212272[Chương]B-PER
32362290[Claudia]B-PER
1690312150[Chương]B-PER
19531364[Thạc]B-PER
2188815557[Đợi]B-PER
\n", + "
\n", + "
\n", + "\n", + "
\n", + " \n", + "\n", + " \n", + "\n", + " \n", + "
\n", + "\n", + "\n", + "
\n", + " \n", + "\n", + "\n", + "\n", + " \n", + "
\n", + "\n", + "
\n", + "
\n" + ], + "text/plain": [ + " org_idx token tag\n", + "11323 8102 [Rơ] B-PER\n", + "19936 14208 [Thạc] B-PER\n", + "5074 3612 [Khánh] B-PER\n", + "8870 6383 [Bibi] B-PER\n", + "5927 4246 [Thuỳ] B-PER\n", + "17122 12272 [Chương] B-PER\n", + "3236 2290 [Claudia] B-PER\n", + "16903 12150 [Chương] B-PER\n", + "1953 1364 [Thạc] B-PER\n", + "21888 15557 [Đợi] B-PER" + ] + }, + "execution_count": 10, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "tag_data[tag_data.tag == 'B-PER'].sample(10)" + ] + }, + { + "cell_type": "code", + "execution_count": 11, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/", + "height": 607 + }, + "id": "bDjW72xzQTwS", + "outputId": "305f8523-dda8-4a34-d116-63b535e766fa" + }, + "outputs": [ + { + "data": { + "image/png": "", + "text/plain": [ + "
" + ] + }, + "metadata": {}, + "output_type": "display_data" + } + ], + "source": [ + "import matplotlib.pyplot as plt\n", + "\n", + "tag_counts = tag_data.tag.value_counts()\n", + "\n", + "plt.figure(figsize=(10, 6))\n", + "tag_counts.plot(kind='bar')\n", + "plt.title('Distribution of NER Label Frequency')\n", + "plt.xlabel('NER Label')\n", + "plt.ylabel('Frequency')\n", + "plt.xticks(rotation=45, ha='right')\n", + "plt.tight_layout()\n", + "plt.show()\n" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "s_2oNNTJARjZ" + }, + "source": [ + "Nhãn B-PER có tần suất cao nhất, vượt quá 7.000.\n", + "\n", + "Nhãn B-LOC đứng thứ hai với khoảng 6.000 lần xuất hiện.\n", + "\n", + "Các nhãn I-PER, I-LOC, và I-ORG có tần suất giảm dần, lần lượt khoảng 4.000, 3000, và 2.000.\n", + "\n", + "Nhãn B-ORG và B-NAT có tần suất thấp hơn, dưới 1.000.\n", + "\n", + "Nhãn I-NAT có tần suất rất thấp." + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "BOVwaIiGAqDo" + }, + "source": [ + "Vấn đề:\n", + "\n", + "\n", + "* Lệch dữ liệu (Data Imbalance): Mô hình có thể thiên về dự đoán các nhãn phổ biến (như B-PER, B-LOC), dẫn đến hiệu suất kém với các nhãn hiếm (như I-NAT, B-NAT).\n", + "\n", + "* Khó khăn trong học tập: Các nhãn có tần suất thấp có thể không cung cấp đủ thông tin để mô hình học tốt, làm giảm độ chính xác tổng thể.\n", + "\n", + "\n", + "\n", + "* Cần kỹ thuật cân bằng: Có thể cần áp dụng các phương pháp như oversampling cho nhãn hiếm, undersampling cho nhãn phổ biến, hoặc sử dụng các hàm mất mát có trọng số (weighted loss) để cải thiện hiệu suất. (Khó nha bro\n", + ")\n", + "\n", + "\n", + "\n", + "\n", + "\n", + "\n" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "8c3ogIAxQTmM" + }, + "source": [] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "m2WSqdVxbboH" + }, + "source": [ + "### Thay đổi các chunking chứa NAT bằng O" + ] + }, + { + "cell_type": "code", + "execution_count": 12, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/", + "height": 363 + }, + "id": "lIPB1IyCbjEd", + "outputId": "f580ffc9-9460-4aed-821a-dca9d7379699" + }, + "outputs": [ + { + "data": { + "application/vnd.google.colaboratory.intrinsic+json": { + "summary": "{\n \"name\": \"tag_data[tag_data\",\n \"rows\": 10,\n \"fields\": [\n {\n \"column\": \"org_idx\",\n \"properties\": {\n \"dtype\": \"number\",\n \"std\": 4449,\n \"min\": 269,\n \"max\": 10741,\n \"num_unique_values\": 10,\n \"samples\": [\n 640,\n 3419,\n 9305\n ],\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n },\n {\n \"column\": \"token\",\n \"properties\": {\n \"dtype\": \"object\",\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n },\n {\n \"column\": \"tag\",\n \"properties\": {\n \"dtype\": \"category\",\n \"num_unique_values\": 1,\n \"samples\": [\n \"B-NAT\"\n ],\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n }\n ]\n}", + "type": "dataframe" + }, + "text/html": [ + "\n", + "
\n", + "
\n", + "\n", + "\n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + "
org_idxtokentag
31542236[tiếng]B-NAT
48873419[VN]B-NAT
419269[Người]B-NAT
25481821[người]B-NAT
993678[người]B-NAT
130329305[Mỹ]B-NAT
131839436[tiếng]B-NAT
1411910184[tiếng]B-NAT
942640[người]B-NAT
1484610741[người]B-NAT
\n", + "
\n", + "
\n", + "\n", + "
\n", + " \n", + "\n", + " \n", + "\n", + " \n", + "
\n", + "\n", + "\n", + "
\n", + " \n", + "\n", + "\n", + "\n", + " \n", + "
\n", + "\n", + "
\n", + "
\n" + ], + "text/plain": [ + " org_idx token tag\n", + "3154 2236 [tiếng] B-NAT\n", + "4887 3419 [VN] B-NAT\n", + "419 269 [Người] B-NAT\n", + "2548 1821 [người] B-NAT\n", + "993 678 [người] B-NAT\n", + "13032 9305 [Mỹ] B-NAT\n", + "13183 9436 [tiếng] B-NAT\n", + "14119 10184 [tiếng] B-NAT\n", + "942 640 [người] B-NAT\n", + "14846 10741 [người] B-NAT" + ] + }, + "execution_count": 12, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "tag_data[tag_data.tag == 'B-NAT'].sample(10)" + ] + }, + { + "cell_type": "code", + "execution_count": 13, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "SV71o4CkeNMJ", + "outputId": "ef587b35-80ad-4078-a444-a6a76f9e13f3" + }, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Tag counts before replacement:\n", + "tag\n", + "B-PER 7479\n", + "B-LOC 6244\n", + "I-PER 3522\n", + "I-LOC 2783\n", + "I-ORG 2055\n", + "B-ORG 1212\n", + "B-NAT 282\n", + "I-NAT 279\n", + "Name: count, dtype: int64\n", + "\n", + "Tag counts after replacing NAT with O:\n", + "tag\n", + "B-PER 7479\n", + "B-LOC 6244\n", + "I-PER 3522\n", + "I-LOC 2783\n", + "I-ORG 2055\n", + "B-ORG 1212\n", + "Name: count, dtype: int64\n" + ] + } + ], + "source": [ + "def replace_label_in_dataset(target, x):\n", + " new_labels = []\n", + " # print(x)\n", + " i = 0\n", + " while i < len(x):\n", + " if id_tag[x[i]] == target:\n", + " # Find the end of the entity\n", + " j = i\n", + " while j < len(x) and (id_tag[x[j]] == target or id_tag[x[j]] == target.replace('B-', 'I-')):\n", + " j += 1\n", + " # Replace all tags in this entity with 'O' (id 0)\n", + " for k in range(i, j):\n", + " new_labels.append(0)\n", + " i = j # Move to the end of the entity\n", + " else:\n", + " new_labels.append(x[i])\n", + " i += 1\n", + " return new_labels\n", + "\n", + "df['ner_tags_replaced_nat'] = df.ner_tags.apply(lambda x: replace_label_in_dataset('B-NAT', x))\n", + "df['ner_labels_replaced_nat'] = df.ner_tags_replaced_nat.apply(label)\n", + "\n", + "# Verify the change\n", + "time = 0\n", + "org_idx_replaced = []\n", + "token_replaced = []\n", + "tag_replaced = []\n", + "for i in (df.index):\n", + " for a in range(len(df.ner_tags_replaced_nat[i])):\n", + " if df.ner_labels_replaced_nat[i][a] != 'O':\n", + " token_replaced.append(df.tokens[i][[a]])\n", + " tag_replaced.append(df.ner_labels_replaced_nat[i][a])\n", + " org_idx_replaced.append(i)\n", + "\n", + "tag_data_replaced = pd.DataFrame({'org_idx': org_idx_replaced, 'token': token_replaced, 'tag': tag_replaced})\n", + "\n", + "print(\"Tag counts before replacement:\")\n", + "print(tag_data.tag.value_counts())\n", + "print(\"\\nTag counts after replacing NAT with O:\")\n", + "print(tag_data_replaced.tag.value_counts())" + ] + }, + { + "cell_type": "code", + "execution_count": 14, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "ygcdOZIFfdSg", + "outputId": "b5b76ff1-e391-4c1a-9997-127b8ddc286f" + }, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "\n", + "Unique values in ner_labels_replaced_nat:\n", + "O 346105\n", + "B-PER 7479\n", + "B-LOC 6244\n", + "I-PER 3522\n", + "I-LOC 2783\n", + "I-ORG 2055\n", + "B-ORG 1212\n", + "Name: count, dtype: int64\n" + ] + } + ], + "source": [ + "print(\"\\nUnique values in ner_labels_replaced_nat:\")\n", + "all_labels_replaced = [label for sublist in df['ner_labels_replaced_nat'] for label in sublist]\n", + "print(pd.Series(all_labels_replaced).value_counts())\n" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "YVtsiaqLgTo9" + }, + "source": [ + "### After process" + ] + }, + { + "cell_type": "code", + "execution_count": 15, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/", + "height": 1000 + }, + "collapsed": true, + "id": "-nQAuJLHfRgU", + "outputId": "608a93f9-292a-4f33-b2d8-7a074d5b8816" + }, + "outputs": [ + { + "data": { + "application/vnd.google.colaboratory.intrinsic+json": { + "summary": "{\n \"name\": \"df[40:80]\",\n \"rows\": 40,\n \"fields\": [\n {\n \"column\": \"tokens\",\n \"properties\": {\n \"dtype\": \"object\",\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n },\n {\n \"column\": \"ner_tags\",\n \"properties\": {\n \"dtype\": \"object\",\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n },\n {\n \"column\": \"ner_labels\",\n \"properties\": {\n \"dtype\": \"object\",\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n },\n {\n \"column\": \"text_withseg\",\n \"properties\": {\n \"dtype\": \"string\",\n \"num_unique_values\": 40,\n \"samples\": [\n \"C\\u00f3 \\u0111\\u00fang ch\\u1ecb n\\u1eb1m tr\\u00ean m\\u1ed9t d\\u00e3y n\\u00fai cao \\u1edf mi\\u1ec1n t\\u00e2y \\u0110\\u1ee9c_Ph\\u1ed5 ?\",\n \"B\\u01b0\\u1edbc v\\u00e0o \\u0111\\u1ea7u ng\\u00f5 , nh\\u00e0 c\\u00f4 C\\u00fac ph\\u01a1i \\u0111\\u1ea7y b\\u00e1nh_tr\\u00e1ng ph\\u00eda tr\\u01b0\\u1edbc .\",\n \"Chung m\\u1ed9t ch\\u1eef \\\" L\\u01b0\\u01a1ng \\\" ...\"\n ],\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n },\n {\n \"column\": \"text_raw\",\n \"properties\": {\n \"dtype\": \"string\",\n \"num_unique_values\": 40,\n \"samples\": [\n \"C\\u00f3 \\u0111\\u00fang ch\\u1ecb n\\u1eb1m tr\\u00ean m\\u1ed9t d\\u00e3y n\\u00fai cao \\u1edf mi\\u1ec1n t\\u00e2y \\u0110\\u1ee9c Ph\\u1ed5 ?\",\n \"B\\u01b0\\u1edbc v\\u00e0o \\u0111\\u1ea7u ng\\u00f5 , nh\\u00e0 c\\u00f4 C\\u00fac ph\\u01a1i \\u0111\\u1ea7y b\\u00e1nh tr\\u00e1ng ph\\u00eda tr\\u01b0\\u1edbc .\",\n \"Chung m\\u1ed9t ch\\u1eef \\\" L\\u01b0\\u01a1ng \\\" ...\"\n ],\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n },\n {\n \"column\": \"ner_tags_replaced_nat\",\n \"properties\": {\n \"dtype\": \"object\",\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n },\n {\n \"column\": \"ner_labels_replaced_nat\",\n \"properties\": {\n \"dtype\": \"object\",\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n }\n ]\n}", + "type": "dataframe" + }, + "text/html": [ + "\n", + "
\n", + "
\n", + "\n", + "\n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + "
tokensner_tagsner_labelstext_withsegtext_rawner_tags_replaced_natner_labels_replaced_nat
40[Nguyên, phân_công, anh, bạn, đồng_nghiệp, ở, ...[1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ...[B-PER, O, O, O, O, O, O, O, O, O, O, O, O, O,...Nguyên phân_công anh bạn đồng_nghiệp ở vòng ng...Nguyên phân công anh bạn đồng nghiệp ở vòng ng...[1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ...[B-PER, O, O, O, O, O, O, O, O, O, O, O, O, O,...
41[Theo, kế_hoạch, ,, những, ngày, đầu, cả, hai,...[0, 0, 0, 0, 0, 0, 0, 0, 0, 7, 8, 0, 0, 0, 0, ...[O, O, O, O, O, O, O, O, O, B-NAT, I-NAT, O, O...Theo kế_hoạch , những ngày đầu cả hai luyện ti...Theo kế hoạch , những ngày đầu cả hai luyện ti...[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ...[O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ...
42[Thật, đáng, tiếc, biết_bao, ,, những, ngày, n...[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ...[O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ...Thật đáng tiếc biết_bao , những ngày này trăng...Thật đáng tiếc biết bao , những ngày này trăng...[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ...[O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ...
43[Hải, và, bố_mẹ, ngày, trước, ở, chung, với, ô...[1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 5, 6, 0, 0, 0, ...[B-PER, O, O, O, O, O, O, O, O, O, B-LOC, I-LO...Hải và bố_mẹ ngày trước ở chung với ông_bà trê...Hải và bố mẹ ngày trước ở chung với ông bà trê...[1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 5, 6, 0, 0, 0, ...[B-PER, O, O, O, O, O, O, O, O, O, B-LOC, I-LO...
44[Cho_nên, phương_án, của, ông, Phong, là, “, b...[0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ...[O, O, O, O, B-PER, O, O, O, O, O, O, O, O, O,...Cho_nên phương_án của ông Phong là “ bán cả co...Cho nên phương án của ông Phong là “ bán cả co...[0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ...[O, O, O, O, B-PER, O, O, O, O, O, O, O, O, O,...
45[Một, thời_gian, ngắn, sau, trận, tỉ_thí, lịch...[0, 0, 0, 0, 0, 0, 0, 0, 1, 2, 0, 0, 0, 0, 0, ...[O, O, O, O, O, O, O, O, B-PER, I-PER, O, O, O...Một thời_gian ngắn sau trận tỉ_thí lịch_sử , M...Một thời gian ngắn sau trận tỉ thí lịch sử , M...[0, 0, 0, 0, 0, 0, 0, 0, 1, 2, 0, 0, 0, 0, 0, ...[O, O, O, O, O, O, O, O, B-PER, I-PER, O, O, O...
46[Kao, chỉ, mới, được, gửi, lên, đây, hơn, một,...[1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ...[B-PER, O, O, O, O, O, O, O, O, O, O, O, O, O,...Kao chỉ mới được gửi lên đây hơn một tuần , nh...Kao chỉ mới được gửi lên đây hơn một tuần , nh...[1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ...[B-PER, O, O, O, O, O, O, O, O, O, O, O, O, O,...
47[An_Lư, cũng, tích_cực, đào_tạo, các, thuyền_v...[5, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ...[B-LOC, O, O, O, O, O, O, O, O, O, O, O, O, O,...An_Lư cũng tích_cực đào_tạo các thuyền_viên ng...An Lư cũng tích cực đào tạo các thuyền viên ng...[5, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ...[B-LOC, O, O, O, O, O, O, O, O, O, O, O, O, O,...
48[Anh, cười, tươi, :, \", Nếu, không, thắng, thì...[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0][O, O, O, O, O, O, O, O, O, O, O, O, O, O, O]Anh cười tươi : \" Nếu không thắng thì đâu còn ...Anh cười tươi : \" Nếu không thắng thì đâu còn ...[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0][O, O, O, O, O, O, O, O, O, O, O, O, O, O, O]
49[Hắn, không, có, một, dữ_liệu, nào, nằm, trong...[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ...[O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ...Hắn không có một dữ_liệu nào nằm trong tay thá...Hắn không có một dữ liệu nào nằm trong tay thá...[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ...[O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ...
50[Và, cho_dù, xảy, ra, tình_huống, nào, thì, ôn...[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0][O, O, O, O, O, O, O, O, O, O, O, O]Và cho_dù xảy ra tình_huống nào thì ông giám_đ...Và cho dù xảy ra tình huống nào thì ông giám đ...[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0][O, O, O, O, O, O, O, O, O, O, O, O]
51[Để, em, tính, lại, .][0, 0, 0, 0, 0][O, O, O, O, O]Để em tính lại .Để em tính lại .[0, 0, 0, 0, 0][O, O, O, O, O]
52[Ông, đến, có, khi, mặc, sắc_phục, ,, có, khi,...[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ...[O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ...Ông đến có khi mặc sắc_phục , có khi mặc thườn...Ông đến có khi mặc sắc phục , có khi mặc thườn...[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ...[O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ...
53[Có, đứa, trả_lời, :, chưa, có, lúc, nào, thấy...[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0][O, O, O, O, O, O, O, O, O, O, O, O, O]Có đứa trả_lời : chưa có lúc nào thấy hạnh_phú...Có đứa trả lời : chưa có lúc nào thấy hạnh phú...[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0][O, O, O, O, O, O, O, O, O, O, O, O, O]
54[Vậy, đó, ,, lửa, thử, vàng, gian_nan, thử, sứ...[0, 0, 0, 0, 0, 0, 0, 0, 0, 0][O, O, O, O, O, O, O, O, O, O]Vậy đó , lửa thử vàng gian_nan thử sức .Vậy đó , lửa thử vàng gian nan thử sức .[0, 0, 0, 0, 0, 0, 0, 0, 0, 0][O, O, O, O, O, O, O, O, O, O]
55[Chung, một, chữ, \", Lương, \", ...][0, 0, 0, 0, 0, 0, 0][O, O, O, O, O, O, O]Chung một chữ \" Lương \" ...Chung một chữ \" Lương \" ...[0, 0, 0, 0, 0, 0, 0][O, O, O, O, O, O, O]
56[Bước, vào, đầu, ngõ, ,, nhà, cô, Cúc, phơi, đ...[0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0][O, O, O, O, O, O, O, B-PER, O, O, O, O, O, O]Bước vào đầu ngõ , nhà cô Cúc phơi đầy bánh_tr...Bước vào đầu ngõ , nhà cô Cúc phơi đầy bánh tr...[0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0][O, O, O, O, O, O, O, B-PER, O, O, O, O, O, O]
57[Nếu, có, trở_ngại, một_chút, thì, đúng, là, l...[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 5, 6, 0, 5, ...[O, O, O, O, O, O, O, O, O, O, O, B-LOC, I-LOC...Nếu có trở_ngại một_chút thì đúng là lượng khá...Nếu có trở ngại một chút thì đúng là lượng khá...[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 5, 6, 0, 5, ...[O, O, O, O, O, O, O, O, O, O, O, B-LOC, I-LOC...
58[Anh, Dĩa, kéo, chúng_tôi, lên, bờ, ,, khui, b...[0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ...[O, B-PER, O, O, O, O, O, O, O, O, O, O, O, O,...Anh Dĩa kéo chúng_tôi lên bờ , khui bia , rượu...Anh Dĩa kéo chúng tôi lên bờ , khui bia , rượu...[0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ...[O, B-PER, O, O, O, O, O, O, O, O, O, O, O, O,...
59[Có, đúng, chị, nằm, trên, một, dãy, núi, cao,...[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 5, 0][O, O, O, O, O, O, O, O, O, O, O, O, B-LOC, O]Có đúng chị nằm trên một dãy núi cao ở miền tâ...Có đúng chị nằm trên một dãy núi cao ở miền tâ...[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 5, 0][O, O, O, O, O, O, O, O, O, O, O, O, B-LOC, O]
60[Bắt_đầu, từ, năm, 1961, ,, xã, Nhuận_Đức, phá...[0, 0, 0, 0, 0, 5, 6, 0, 0, 0, 0, 0][O, O, O, O, O, B-LOC, I-LOC, O, O, O, O, O]Bắt_đầu từ năm 1961 , xã Nhuận_Đức phát_động p...Bắt đầu từ năm 1961 , xã Nhuận Đức phát động p...[0, 0, 0, 0, 0, 5, 6, 0, 0, 0, 0, 0][O, O, O, O, O, B-LOC, I-LOC, O, O, O, O, O]
61[Năm, nay, đầu, trên, xóm, dưới, lắc_đầu, ngao...[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0][O, O, O, O, O, O, O, O, O, O, O, O, O]Năm nay đầu trên xóm dưới lắc_đầu ngao_ngán bỏ...Năm nay đầu trên xóm dưới lắc đầu ngao ngán bỏ...[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0][O, O, O, O, O, O, O, O, O, O, O, O, O]
62[Và, đến, nay, những, mét, hầm, cuối_cùng, cũn...[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0][O, O, O, O, O, O, O, O, O, O, O, O]Và đến nay những mét hầm cuối_cùng cũng đã về ...Và đến nay những mét hầm cuối cùng cũng đã về ...[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0][O, O, O, O, O, O, O, O, O, O, O, O]
63[Đèn, đường, loang_loáng, ,, hoà, chung, dòng,...[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 5, 6, ...[O, O, O, O, O, O, O, O, O, O, O, O, O, B-LOC,...Đèn đường loang_loáng , hoà chung dòng xe tấp_...Đèn đường loang loáng , hoà chung dòng xe tấp ...[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 5, 6, ...[O, O, O, O, O, O, O, O, O, O, O, O, O, B-LOC,...
64[Cả, đám, bắt_đầu, lên_cơn, lắc, quậy, điên_cu...[0, 0, 0, 0, 0, 0, 0, 0][O, O, O, O, O, O, O, O]Cả đám bắt_đầu lên_cơn lắc quậy điên_cuồng ...Cả đám bắt đầu lên cơn lắc quậy điên cuồng ...[0, 0, 0, 0, 0, 0, 0, 0][O, O, O, O, O, O, O, O]
65[Ở, trạm_xá, xã, Hưng_Long, đối_diện, với, căn...[0, 0, 5, 6, 0, 0, 0, 0, 0, 1, 2, 2, 2, 0, 0, ...[O, O, B-LOC, I-LOC, O, O, O, O, O, B-PER, I-P...Ở trạm_xá xã Hưng_Long đối_diện với căn nhà tử...Ở trạm xá xã Hưng Long đối diện với căn nhà tử...[0, 0, 5, 6, 0, 0, 0, 0, 0, 1, 2, 2, 2, 0, 0, ...[O, O, B-LOC, I-LOC, O, O, O, O, O, B-PER, I-P...
66[Mới_đó, mà, ta, xa, nhau, ,, thật, là, kinh_k...[0, 0, 0, 0, 0, 0, 0, 0, 0, 0][O, O, O, O, O, O, O, O, O, O]Mới_đó mà ta xa nhau , thật là kinh_khủng .Mới đó mà ta xa nhau , thật là kinh khủng .[0, 0, 0, 0, 0, 0, 0, 0, 0, 0][O, O, O, O, O, O, O, O, O, O]
67[Trong, cuộc, chiến_đấu, vì, nghĩa_vụ, quốc_tế...[0, 0, 0, 0, 0, 0, 0, 0, 0, 5, 0, 0, 0, 5, 0, ...[O, O, O, O, O, O, O, O, O, B-LOC, O, O, O, B-...Trong cuộc chiến_đấu vì nghĩa_vụ quốc_tế với n...Trong cuộc chiến đấu vì nghĩa vụ quốc tế với n...[0, 0, 0, 0, 0, 0, 0, 0, 0, 5, 0, 0, 0, 5, 0, ...[O, O, O, O, O, O, O, O, O, B-LOC, O, O, O, B-...
68[Mỗi, khi, sóng, dập, vào, và, đẩy, người, lên...[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ...[O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ...Mỗi khi sóng dập vào và đẩy người lên theo thậ...Mỗi khi sóng dập vào và đẩy người lên theo thậ...[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ...[O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ...
69[Đây, là, một, giai_đoạn, khó_khăn, ,, đau_đớn...[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0][O, O, O, O, O, O, O, O, O, O, O, O]Đây là một giai_đoạn khó_khăn , đau_đớn nhất c...Đây là một giai đoạn khó khăn , đau đớn nhất c...[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0][O, O, O, O, O, O, O, O, O, O, O, O]
70[Và, hôm_nay, ,, chúng_ta, cũng, cần, hỏi, câu...[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0][O, O, O, O, O, O, O, O, O, O, O, O, O, O]Và hôm_nay , chúng_ta cũng cần hỏi câu hỏi này...Và hôm nay , chúng ta cũng cần hỏi câu hỏi này...[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0][O, O, O, O, O, O, O, O, O, O, O, O, O, O]
71[Thạc_sĩ, thú_y, với, bầy, muông_thú, .][0, 0, 0, 0, 0, 0][O, O, O, O, O, O]Thạc_sĩ thú_y với bầy muông_thú .Thạc sĩ thú y với bầy muông thú .[0, 0, 0, 0, 0, 0][O, O, O, O, O, O]
72[Tôi, lại, điện, hỏi_thăm, ông, khi, về, tới, ...[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ...[O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ...Tôi lại điện hỏi_thăm ông khi về tới nhà , ông...Tôi lại điện hỏi thăm ông khi về tới nhà , ông...[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ...[O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ...
73[Hương_Rừng, xuất_hiện, ở, nhiều, nơi, từ, nội...[5, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 5, ...[B-LOC, O, O, O, O, O, O, O, O, O, O, O, O, O,...Hương_Rừng xuất_hiện ở nhiều nơi từ nội_thành ...Hương Rừng xuất hiện ở nhiều nơi từ nội thành ...[5, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 5, ...[B-LOC, O, O, O, O, O, O, O, O, O, O, O, O, O,...
74[Nhìn, những, cảnh, đó, mình, cười, mà, nước_m...[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0][O, O, O, O, O, O, O, O, O, O, O, O, O, O]Nhìn những cảnh đó mình cười mà nước_mắt chực ...Nhìn những cảnh đó mình cười mà nước mắt chực ...[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0][O, O, O, O, O, O, O, O, O, O, O, O, O, O]
75[Ông, nhớ, mãi, năm, cô, con, gái, út, học, cấ...[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ...[O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ...Ông nhớ mãi năm cô con gái út học cấp II , thư...Ông nhớ mãi năm cô con gái út học cấp II , thư...[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ...[O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ...
76[Đường, về, xã, Ia_Yeng, cắt, ngang, cánh, đồn...[0, 0, 5, 6, 0, 0, 0, 0, 5, 0][O, O, B-LOC, I-LOC, O, O, O, O, B-LOC, O]Đường về xã Ia_Yeng cắt ngang cánh đồng Ayun_Hạ .Đường về xã Ia Yeng cắt ngang cánh đồng Ayun Hạ .[0, 0, 5, 6, 0, 0, 0, 0, 5, 0][O, O, B-LOC, I-LOC, O, O, O, O, B-LOC, O]
77[Sang, đây, ,, đầu_tiên, tôi, làm, nghề, rửa, ...[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ...[O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ...Sang đây , đầu_tiên tôi làm nghề rửa chén ở nh...Sang đây , đầu tiên tôi làm nghề rửa chén ở nh...[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ...[O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ...
78[Cộng_tác_viên, của, Thanh, ở, Berlin, tìm, đế...[0, 0, 1, 0, 5, 0, 0, 0, 0, 1, 0, 0][O, O, B-PER, O, B-LOC, O, O, O, O, B-PER, O, O]Cộng_tác_viên của Thanh ở Berlin tìm đến khu_v...Cộng tác viên của Thanh ở Berlin tìm đến khu v...[0, 0, 1, 0, 5, 0, 0, 0, 0, 1, 0, 0][O, O, B-PER, O, B-LOC, O, O, O, O, B-PER, O, O]
79[Trời, đang, mưa, lớn, ,, con, tàu, bị, chao, ...[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ...[O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ...Trời đang mưa lớn , con tàu bị chao lắc rất mạ...Trời đang mưa lớn , con tàu bị chao lắc rất mạ...[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ...[O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ...
\n", + "
\n", + "
\n", + "\n", + "
\n", + " \n", + "\n", + " \n", + "\n", + " \n", + "
\n", + "\n", + "\n", + "
\n", + " \n", + "\n", + "\n", + "\n", + " \n", + "
\n", + "\n", + "
\n", + "
\n" + ], + "text/plain": [ + " tokens \\\n", + "40 [Nguyên, phân_công, anh, bạn, đồng_nghiệp, ở, ... \n", + "41 [Theo, kế_hoạch, ,, những, ngày, đầu, cả, hai,... \n", + "42 [Thật, đáng, tiếc, biết_bao, ,, những, ngày, n... \n", + "43 [Hải, và, bố_mẹ, ngày, trước, ở, chung, với, ô... \n", + "44 [Cho_nên, phương_án, của, ông, Phong, là, “, b... \n", + "45 [Một, thời_gian, ngắn, sau, trận, tỉ_thí, lịch... \n", + "46 [Kao, chỉ, mới, được, gửi, lên, đây, hơn, một,... \n", + "47 [An_Lư, cũng, tích_cực, đào_tạo, các, thuyền_v... \n", + "48 [Anh, cười, tươi, :, \", Nếu, không, thắng, thì... \n", + "49 [Hắn, không, có, một, dữ_liệu, nào, nằm, trong... \n", + "50 [Và, cho_dù, xảy, ra, tình_huống, nào, thì, ôn... \n", + "51 [Để, em, tính, lại, .] \n", + "52 [Ông, đến, có, khi, mặc, sắc_phục, ,, có, khi,... \n", + "53 [Có, đứa, trả_lời, :, chưa, có, lúc, nào, thấy... \n", + "54 [Vậy, đó, ,, lửa, thử, vàng, gian_nan, thử, sứ... \n", + "55 [Chung, một, chữ, \", Lương, \", ...] \n", + "56 [Bước, vào, đầu, ngõ, ,, nhà, cô, Cúc, phơi, đ... \n", + "57 [Nếu, có, trở_ngại, một_chút, thì, đúng, là, l... \n", + "58 [Anh, Dĩa, kéo, chúng_tôi, lên, bờ, ,, khui, b... \n", + "59 [Có, đúng, chị, nằm, trên, một, dãy, núi, cao,... \n", + "60 [Bắt_đầu, từ, năm, 1961, ,, xã, Nhuận_Đức, phá... \n", + "61 [Năm, nay, đầu, trên, xóm, dưới, lắc_đầu, ngao... \n", + "62 [Và, đến, nay, những, mét, hầm, cuối_cùng, cũn... \n", + "63 [Đèn, đường, loang_loáng, ,, hoà, chung, dòng,... \n", + "64 [Cả, đám, bắt_đầu, lên_cơn, lắc, quậy, điên_cu... \n", + "65 [Ở, trạm_xá, xã, Hưng_Long, đối_diện, với, căn... \n", + "66 [Mới_đó, mà, ta, xa, nhau, ,, thật, là, kinh_k... \n", + "67 [Trong, cuộc, chiến_đấu, vì, nghĩa_vụ, quốc_tế... \n", + "68 [Mỗi, khi, sóng, dập, vào, và, đẩy, người, lên... \n", + "69 [Đây, là, một, giai_đoạn, khó_khăn, ,, đau_đớn... \n", + "70 [Và, hôm_nay, ,, chúng_ta, cũng, cần, hỏi, câu... \n", + "71 [Thạc_sĩ, thú_y, với, bầy, muông_thú, .] \n", + "72 [Tôi, lại, điện, hỏi_thăm, ông, khi, về, tới, ... \n", + "73 [Hương_Rừng, xuất_hiện, ở, nhiều, nơi, từ, nội... \n", + "74 [Nhìn, những, cảnh, đó, mình, cười, mà, nước_m... \n", + "75 [Ông, nhớ, mãi, năm, cô, con, gái, út, học, cấ... \n", + "76 [Đường, về, xã, Ia_Yeng, cắt, ngang, cánh, đồn... \n", + "77 [Sang, đây, ,, đầu_tiên, tôi, làm, nghề, rửa, ... \n", + "78 [Cộng_tác_viên, của, Thanh, ở, Berlin, tìm, đế... \n", + "79 [Trời, đang, mưa, lớn, ,, con, tàu, bị, chao, ... \n", + "\n", + " ner_tags \\\n", + "40 [1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... \n", + "41 [0, 0, 0, 0, 0, 0, 0, 0, 0, 7, 8, 0, 0, 0, 0, ... \n", + "42 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... \n", + "43 [1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 5, 6, 0, 0, 0, ... \n", + "44 [0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... \n", + "45 [0, 0, 0, 0, 0, 0, 0, 0, 1, 2, 0, 0, 0, 0, 0, ... \n", + "46 [1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... \n", + "47 [5, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... \n", + "48 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0] \n", + "49 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... \n", + "50 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0] \n", + "51 [0, 0, 0, 0, 0] \n", + "52 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... \n", + "53 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0] \n", + "54 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0] \n", + "55 [0, 0, 0, 0, 0, 0, 0] \n", + "56 [0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0] \n", + "57 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 5, 6, 0, 5, ... \n", + "58 [0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... \n", + "59 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 5, 0] \n", + "60 [0, 0, 0, 0, 0, 5, 6, 0, 0, 0, 0, 0] \n", + "61 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0] \n", + "62 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0] \n", + "63 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 5, 6, ... \n", + "64 [0, 0, 0, 0, 0, 0, 0, 0] \n", + "65 [0, 0, 5, 6, 0, 0, 0, 0, 0, 1, 2, 2, 2, 0, 0, ... \n", + "66 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0] \n", + "67 [0, 0, 0, 0, 0, 0, 0, 0, 0, 5, 0, 0, 0, 5, 0, ... \n", + "68 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... \n", + "69 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0] \n", + "70 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0] \n", + "71 [0, 0, 0, 0, 0, 0] \n", + "72 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... \n", + "73 [5, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 5, ... \n", + "74 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0] \n", + "75 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... \n", + "76 [0, 0, 5, 6, 0, 0, 0, 0, 5, 0] \n", + "77 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... \n", + "78 [0, 0, 1, 0, 5, 0, 0, 0, 0, 1, 0, 0] \n", + "79 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... \n", + "\n", + " ner_labels \\\n", + "40 [B-PER, O, O, O, O, O, O, O, O, O, O, O, O, O,... \n", + "41 [O, O, O, O, O, O, O, O, O, B-NAT, I-NAT, O, O... \n", + "42 [O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ... \n", + "43 [B-PER, O, O, O, O, O, O, O, O, O, B-LOC, I-LO... \n", + "44 [O, O, O, O, B-PER, O, O, O, O, O, O, O, O, O,... \n", + "45 [O, O, O, O, O, O, O, O, B-PER, I-PER, O, O, O... \n", + "46 [B-PER, O, O, O, O, O, O, O, O, O, O, O, O, O,... \n", + "47 [B-LOC, O, O, O, O, O, O, O, O, O, O, O, O, O,... \n", + "48 [O, O, O, O, O, O, O, O, O, O, O, O, O, O, O] \n", + "49 [O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ... \n", + "50 [O, O, O, O, O, O, O, O, O, O, O, O] \n", + "51 [O, O, O, O, O] \n", + "52 [O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ... \n", + "53 [O, O, O, O, O, O, O, O, O, O, O, O, O] \n", + "54 [O, O, O, O, O, O, O, O, O, O] \n", + "55 [O, O, O, O, O, O, O] \n", + "56 [O, O, O, O, O, O, O, B-PER, O, O, O, O, O, O] \n", + "57 [O, O, O, O, O, O, O, O, O, O, O, B-LOC, I-LOC... \n", + "58 [O, B-PER, O, O, O, O, O, O, O, O, O, O, O, O,... \n", + "59 [O, O, O, O, O, O, O, O, O, O, O, O, B-LOC, O] \n", + "60 [O, O, O, O, O, B-LOC, I-LOC, O, O, O, O, O] \n", + "61 [O, O, O, O, O, O, O, O, O, O, O, O, O] \n", + "62 [O, O, O, O, O, O, O, O, O, O, O, O] \n", + "63 [O, O, O, O, O, O, O, O, O, O, O, O, O, B-LOC,... \n", + "64 [O, O, O, O, O, O, O, O] \n", + "65 [O, O, B-LOC, I-LOC, O, O, O, O, O, B-PER, I-P... \n", + "66 [O, O, O, O, O, O, O, O, O, O] \n", + "67 [O, O, O, O, O, O, O, O, O, B-LOC, O, O, O, B-... \n", + "68 [O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ... \n", + "69 [O, O, O, O, O, O, O, O, O, O, O, O] \n", + "70 [O, O, O, O, O, O, O, O, O, O, O, O, O, O] \n", + "71 [O, O, O, O, O, O] \n", + "72 [O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ... \n", + "73 [B-LOC, O, O, O, O, O, O, O, O, O, O, O, O, O,... \n", + "74 [O, O, O, O, O, O, O, O, O, O, O, O, O, O] \n", + "75 [O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ... \n", + "76 [O, O, B-LOC, I-LOC, O, O, O, O, B-LOC, O] \n", + "77 [O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ... \n", + "78 [O, O, B-PER, O, B-LOC, O, O, O, O, B-PER, O, O] \n", + "79 [O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ... \n", + "\n", + " text_withseg \\\n", + "40 Nguyên phân_công anh bạn đồng_nghiệp ở vòng ng... \n", + "41 Theo kế_hoạch , những ngày đầu cả hai luyện ti... \n", + "42 Thật đáng tiếc biết_bao , những ngày này trăng... \n", + "43 Hải và bố_mẹ ngày trước ở chung với ông_bà trê... \n", + "44 Cho_nên phương_án của ông Phong là “ bán cả co... \n", + "45 Một thời_gian ngắn sau trận tỉ_thí lịch_sử , M... \n", + "46 Kao chỉ mới được gửi lên đây hơn một tuần , nh... \n", + "47 An_Lư cũng tích_cực đào_tạo các thuyền_viên ng... \n", + "48 Anh cười tươi : \" Nếu không thắng thì đâu còn ... \n", + "49 Hắn không có một dữ_liệu nào nằm trong tay thá... \n", + "50 Và cho_dù xảy ra tình_huống nào thì ông giám_đ... \n", + "51 Để em tính lại . \n", + "52 Ông đến có khi mặc sắc_phục , có khi mặc thườn... \n", + "53 Có đứa trả_lời : chưa có lúc nào thấy hạnh_phú... \n", + "54 Vậy đó , lửa thử vàng gian_nan thử sức . \n", + "55 Chung một ch��� \" Lương \" ... \n", + "56 Bước vào đầu ngõ , nhà cô Cúc phơi đầy bánh_tr... \n", + "57 Nếu có trở_ngại một_chút thì đúng là lượng khá... \n", + "58 Anh Dĩa kéo chúng_tôi lên bờ , khui bia , rượu... \n", + "59 Có đúng chị nằm trên một dãy núi cao ở miền tâ... \n", + "60 Bắt_đầu từ năm 1961 , xã Nhuận_Đức phát_động p... \n", + "61 Năm nay đầu trên xóm dưới lắc_đầu ngao_ngán bỏ... \n", + "62 Và đến nay những mét hầm cuối_cùng cũng đã về ... \n", + "63 Đèn đường loang_loáng , hoà chung dòng xe tấp_... \n", + "64 Cả đám bắt_đầu lên_cơn lắc quậy điên_cuồng ... \n", + "65 Ở trạm_xá xã Hưng_Long đối_diện với căn nhà tử... \n", + "66 Mới_đó mà ta xa nhau , thật là kinh_khủng . \n", + "67 Trong cuộc chiến_đấu vì nghĩa_vụ quốc_tế với n... \n", + "68 Mỗi khi sóng dập vào và đẩy người lên theo thậ... \n", + "69 Đây là một giai_đoạn khó_khăn , đau_đớn nhất c... \n", + "70 Và hôm_nay , chúng_ta cũng cần hỏi câu hỏi này... \n", + "71 Thạc_sĩ thú_y với bầy muông_thú . \n", + "72 Tôi lại điện hỏi_thăm ông khi về tới nhà , ông... \n", + "73 Hương_Rừng xuất_hiện ở nhiều nơi từ nội_thành ... \n", + "74 Nhìn những cảnh đó mình cười mà nước_mắt chực ... \n", + "75 Ông nhớ mãi năm cô con gái út học cấp II , thư... \n", + "76 Đường về xã Ia_Yeng cắt ngang cánh đồng Ayun_Hạ . \n", + "77 Sang đây , đầu_tiên tôi làm nghề rửa chén ở nh... \n", + "78 Cộng_tác_viên của Thanh ở Berlin tìm đến khu_v... \n", + "79 Trời đang mưa lớn , con tàu bị chao lắc rất mạ... \n", + "\n", + " text_raw \\\n", + "40 Nguyên phân công anh bạn đồng nghiệp ở vòng ng... \n", + "41 Theo kế hoạch , những ngày đầu cả hai luyện ti... \n", + "42 Thật đáng tiếc biết bao , những ngày này trăng... \n", + "43 Hải và bố mẹ ngày trước ở chung với ông bà trê... \n", + "44 Cho nên phương án của ông Phong là “ bán cả co... \n", + "45 Một thời gian ngắn sau trận tỉ thí lịch sử , M... \n", + "46 Kao chỉ mới được gửi lên đây hơn một tuần , nh... \n", + "47 An Lư cũng tích cực đào tạo các thuyền viên ng... \n", + "48 Anh cười tươi : \" Nếu không thắng thì đâu còn ... \n", + "49 Hắn không có một dữ liệu nào nằm trong tay thá... \n", + "50 Và cho dù xảy ra tình huống nào thì ông giám đ... \n", + "51 Để em tính lại . \n", + "52 Ông đến có khi mặc sắc phục , có khi mặc thườn... \n", + "53 Có đứa trả lời : chưa có lúc nào thấy hạnh phú... \n", + "54 Vậy đó , lửa thử vàng gian nan thử sức . \n", + "55 Chung một chữ \" Lương \" ... \n", + "56 Bước vào đầu ngõ , nhà cô Cúc phơi đầy bánh tr... \n", + "57 Nếu có trở ngại một chút thì đúng là lượng khá... \n", + "58 Anh Dĩa kéo chúng tôi lên bờ , khui bia , rượu... \n", + "59 Có đúng chị nằm trên một dãy núi cao ở miền tâ... \n", + "60 Bắt đầu từ năm 1961 , xã Nhuận Đức phát động p... \n", + "61 Năm nay đầu trên xóm dưới lắc đầu ngao ngán bỏ... \n", + "62 Và đến nay những mét hầm cuối cùng cũng đã về ... \n", + "63 Đèn đường loang loáng , hoà chung dòng xe tấp ... \n", + "64 Cả đám bắt đầu lên cơn lắc quậy điên cuồng ... \n", + "65 Ở trạm xá xã Hưng Long đối diện với căn nhà tử... \n", + "66 Mới đó mà ta xa nhau , thật là kinh khủng . \n", + "67 Trong cuộc chiến đấu vì nghĩa vụ quốc tế với n... \n", + "68 Mỗi khi sóng dập vào và đẩy người lên theo thậ... \n", + "69 Đây là một giai đoạn khó khăn , đau đớn nhất c... \n", + "70 Và hôm nay , chúng ta cũng cần hỏi câu hỏi này... \n", + "71 Thạc sĩ thú y với bầy muông thú . \n", + "72 Tôi lại điện hỏi thăm ông khi về tới nhà , ông... \n", + "73 Hương Rừng xuất hiện ở nhiều nơi từ nội thành ... \n", + "74 Nhìn những cảnh đó mình cười mà nước mắt chực ... \n", + "75 Ông nhớ mãi năm cô con gái út học cấp II , thư... \n", + "76 Đường về xã Ia Yeng cắt ngang cánh đồng Ayun Hạ . \n", + "77 Sang đây , đầu tiên tôi làm nghề rửa chén ở nh... \n", + "78 Cộng tác viên của Thanh ở Berlin tìm đến khu v... \n", + "79 Trời đang mưa lớn , con tàu bị chao lắc rất mạ... \n", + "\n", + " ner_tags_replaced_nat \\\n", + "40 [1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... \n", + "41 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... \n", + "42 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... \n", + "43 [1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 5, 6, 0, 0, 0, ... \n", + "44 [0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... \n", + "45 [0, 0, 0, 0, 0, 0, 0, 0, 1, 2, 0, 0, 0, 0, 0, ... \n", + "46 [1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... \n", + "47 [5, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... \n", + "48 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0] \n", + "49 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... \n", + "50 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0] \n", + "51 [0, 0, 0, 0, 0] \n", + "52 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... \n", + "53 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0] \n", + "54 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0] \n", + "55 [0, 0, 0, 0, 0, 0, 0] \n", + "56 [0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0] \n", + "57 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 5, 6, 0, 5, ... \n", + "58 [0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... \n", + "59 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 5, 0] \n", + "60 [0, 0, 0, 0, 0, 5, 6, 0, 0, 0, 0, 0] \n", + "61 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0] \n", + "62 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0] \n", + "63 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 5, 6, ... \n", + "64 [0, 0, 0, 0, 0, 0, 0, 0] \n", + "65 [0, 0, 5, 6, 0, 0, 0, 0, 0, 1, 2, 2, 2, 0, 0, ... \n", + "66 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0] \n", + "67 [0, 0, 0, 0, 0, 0, 0, 0, 0, 5, 0, 0, 0, 5, 0, ... \n", + "68 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... \n", + "69 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0] \n", + "70 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0] \n", + "71 [0, 0, 0, 0, 0, 0] \n", + "72 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... \n", + "73 [5, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 5, ... \n", + "74 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0] \n", + "75 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... \n", + "76 [0, 0, 5, 6, 0, 0, 0, 0, 5, 0] \n", + "77 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... \n", + "78 [0, 0, 1, 0, 5, 0, 0, 0, 0, 1, 0, 0] \n", + "79 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... \n", + "\n", + " ner_labels_replaced_nat \n", + "40 [B-PER, O, O, O, O, O, O, O, O, O, O, O, O, O,... \n", + "41 [O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ... \n", + "42 [O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ... \n", + "43 [B-PER, O, O, O, O, O, O, O, O, O, B-LOC, I-LO... \n", + "44 [O, O, O, O, B-PER, O, O, O, O, O, O, O, O, O,... \n", + "45 [O, O, O, O, O, O, O, O, B-PER, I-PER, O, O, O... \n", + "46 [B-PER, O, O, O, O, O, O, O, O, O, O, O, O, O,... \n", + "47 [B-LOC, O, O, O, O, O, O, O, O, O, O, O, O, O,... \n", + "48 [O, O, O, O, O, O, O, O, O, O, O, O, O, O, O] \n", + "49 [O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ... \n", + "50 [O, O, O, O, O, O, O, O, O, O, O, O] \n", + "51 [O, O, O, O, O] \n", + "52 [O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ... \n", + "53 [O, O, O, O, O, O, O, O, O, O, O, O, O] \n", + "54 [O, O, O, O, O, O, O, O, O, O] \n", + "55 [O, O, O, O, O, O, O] \n", + "56 [O, O, O, O, O, O, O, B-PER, O, O, O, O, O, O] \n", + "57 [O, O, O, O, O, O, O, O, O, O, O, B-LOC, I-LOC... \n", + "58 [O, B-PER, O, O, O, O, O, O, O, O, O, O, O, O,... \n", + "59 [O, O, O, O, O, O, O, O, O, O, O, O, B-LOC, O] \n", + "60 [O, O, O, O, O, B-LOC, I-LOC, O, O, O, O, O] \n", + "61 [O, O, O, O, O, O, O, O, O, O, O, O, O] \n", + "62 [O, O, O, O, O, O, O, O, O, O, O, O] \n", + "63 [O, O, O, O, O, O, O, O, O, O, O, O, O, B-LOC,... \n", + "64 [O, O, O, O, O, O, O, O] \n", + "65 [O, O, B-LOC, I-LOC, O, O, O, O, O, B-PER, I-P... \n", + "66 [O, O, O, O, O, O, O, O, O, O] \n", + "67 [O, O, O, O, O, O, O, O, O, B-LOC, O, O, O, B-... \n", + "68 [O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ... \n", + "69 [O, O, O, O, O, O, O, O, O, O, O, O] \n", + "70 [O, O, O, O, O, O, O, O, O, O, O, O, O, O] \n", + "71 [O, O, O, O, O, O] \n", + "72 [O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ... \n", + "73 [B-LOC, O, O, O, O, O, O, O, O, O, O, O, O, O,... \n", + "74 [O, O, O, O, O, O, O, O, O, O, O, O, O, O] \n", + "75 [O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ... \n", + "76 [O, O, B-LOC, I-LOC, O, O, O, O, B-LOC, O] \n", + "77 [O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ... \n", + "78 [O, O, B-PER, O, B-LOC, O, O, O, O, B-PER, O, O] \n", + "79 [O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ... " + ] + }, + "execution_count": 15, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "df[40:80]" + ] + }, + { + "cell_type": "code", + "execution_count": 16, + "metadata": { + "id": "Ugoe49T1hHvF" + }, + "outputs": [], + "source": [ + "df = df.drop(columns=['ner_tags','ner_labels'])\n" + ] + }, + { + "cell_type": "code", + "execution_count": 17, + "metadata": { + "id": "yQ1v1VhIlUuF" + }, + "outputs": [], + "source": [ + "df.rename(columns={'ner_tags_replaced_nat': 'ner_tags', 'ner_labels_replaced_nat': 'ner_labels'}, inplace=True)" + ] + }, + { + "cell_type": "code", + "execution_count": 18, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/", + "height": 487 + }, + "id": "0RfL3A9FlmVA", + "outputId": "b6dd057a-14a6-42a6-b309-48f7816eb5e7" + }, + "outputs": [ + { + "data": { + "application/vnd.google.colaboratory.intrinsic+json": { + "summary": "{\n \"name\": \"df[41:50]\",\n \"rows\": 9,\n \"fields\": [\n {\n \"column\": \"tokens\",\n \"properties\": {\n \"dtype\": \"object\",\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n },\n {\n \"column\": \"text_withseg\",\n \"properties\": {\n \"dtype\": \"string\",\n \"num_unique_values\": 9,\n \"samples\": [\n \"Anh c\\u01b0\\u1eddi t\\u01b0\\u01a1i : \\\" N\\u1ebfu kh\\u00f4ng th\\u1eafng th\\u00ec \\u0111\\u00e2u c\\u00f2n s\\u1ed1ng \\u0111\\u1ebfn b\\u00e2y_gi\\u1edd .\",\n \"Th\\u1eadt \\u0111\\u00e1ng ti\\u1ebfc bi\\u1ebft_bao , nh\\u1eefng ng\\u00e0y n\\u00e0y tr\\u0103ng r\\u1eafc b\\u1ee5i v\\u00e0ng tr\\u00ean c\\u00e1c n\\u1ebbo \\u0111\\u01b0\\u1eddng H\\u00e0_N\\u1ed9i .\",\n \"Kao ch\\u1ec9 m\\u1edbi \\u0111\\u01b0\\u1ee3c g\\u1eedi l\\u00ean \\u0111\\u00e2y h\\u01a1n m\\u1ed9t tu\\u1ea7n , nh\\u1eefng b\\u00e0i_t\\u1eadp \\u0111\\u1ea7u_ti\\u00ean m\\u1edbi_ch\\u1ec9 l\\u00e0 nh\\u1eefng \\u0111i\\u1ec7u m\\u00faa kh\\u1edfi_\\u0111\\u1ed9ng \\u201c Wai-kru \\u201d m\\u00e0 Kao r\\u1ea5t th\\u00edch , nh\\u01b0ng em \\u0111\\u00e2u th\\u1ec3 bi\\u1ebft ph\\u00eda tr\\u01b0\\u1edbc s\\u1ebd l\\u00e0 con \\u0111\\u01b0\\u1eddng d\\u00e0i \\u0111\\u1ea7y m\\u00e1u v\\u00e0 n\\u01b0\\u1edbc_m\\u1eaft \\u2026\"\n ],\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n },\n {\n \"column\": \"text_raw\",\n \"properties\": {\n \"dtype\": \"string\",\n \"num_unique_values\": 9,\n \"samples\": [\n \"Anh c\\u01b0\\u1eddi t\\u01b0\\u01a1i : \\\" N\\u1ebfu kh\\u00f4ng th\\u1eafng th\\u00ec \\u0111\\u00e2u c\\u00f2n s\\u1ed1ng \\u0111\\u1ebfn b\\u00e2y gi\\u1edd .\",\n \"Th\\u1eadt \\u0111\\u00e1ng ti\\u1ebfc bi\\u1ebft bao , nh\\u1eefng ng\\u00e0y n\\u00e0y tr\\u0103ng r\\u1eafc b\\u1ee5i v\\u00e0ng tr\\u00ean c\\u00e1c n\\u1ebbo \\u0111\\u01b0\\u1eddng H\\u00e0 N\\u1ed9i .\",\n \"Kao ch\\u1ec9 m\\u1edbi \\u0111\\u01b0\\u1ee3c g\\u1eedi l\\u00ean \\u0111\\u00e2y h\\u01a1n m\\u1ed9t tu\\u1ea7n , nh\\u1eefng b\\u00e0i t\\u1eadp \\u0111\\u1ea7u ti\\u00ean m\\u1edbi ch\\u1ec9 l\\u00e0 nh\\u1eefng \\u0111i\\u1ec7u m\\u00faa kh\\u1edfi \\u0111\\u1ed9ng \\u201c Wai-kru \\u201d m\\u00e0 Kao r\\u1ea5t th\\u00edch , nh\\u01b0ng em \\u0111\\u00e2u th\\u1ec3 bi\\u1ebft ph\\u00eda tr\\u01b0\\u1edbc s\\u1ebd l\\u00e0 con \\u0111\\u01b0\\u1eddng d\\u00e0i \\u0111\\u1ea7y m\\u00e1u v\\u00e0 n\\u01b0\\u1edbc m\\u1eaft \\u2026\"\n ],\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n },\n {\n \"column\": \"ner_tags\",\n \"properties\": {\n \"dtype\": \"object\",\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n },\n {\n \"column\": \"ner_labels\",\n \"properties\": {\n \"dtype\": \"object\",\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n }\n ]\n}", + "type": "dataframe" + }, + "text/html": [ + "\n", + "
\n", + "
\n", + "\n", + "\n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + "
tokenstext_withsegtext_rawner_tagsner_labels
41[Theo, kế_hoạch, ,, những, ngày, đầu, cả, hai,...Theo kế_hoạch , những ngày đầu cả hai luyện ti...Theo kế hoạch , những ngày đầu cả hai luyện ti...[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ...[O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ...
42[Thật, đáng, tiếc, biết_bao, ,, những, ngày, n...Thật đáng tiếc biết_bao , những ngày này trăng...Thật đáng tiếc biết bao , những ngày này trăng...[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ...[O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ...
43[Hải, và, bố_mẹ, ngày, trước, ở, chung, với, ô...Hải và bố_mẹ ngày trước ở chung với ông_bà trê...Hải và bố mẹ ngày trước ở chung với ông bà trê...[1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 5, 6, 0, 0, 0, ...[B-PER, O, O, O, O, O, O, O, O, O, B-LOC, I-LO...
44[Cho_nên, phương_án, của, ông, Phong, là, “, b...Cho_nên phương_án của ông Phong là “ bán cả co...Cho nên phương án của ông Phong là “ bán cả co...[0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ...[O, O, O, O, B-PER, O, O, O, O, O, O, O, O, O,...
45[Một, thời_gian, ngắn, sau, trận, tỉ_thí, lịch...Một thời_gian ngắn sau trận tỉ_thí lịch_sử , M...Một thời gian ngắn sau trận tỉ thí lịch sử , M...[0, 0, 0, 0, 0, 0, 0, 0, 1, 2, 0, 0, 0, 0, 0, ...[O, O, O, O, O, O, O, O, B-PER, I-PER, O, O, O...
46[Kao, chỉ, mới, được, gửi, lên, đây, hơn, một,...Kao chỉ mới được gửi lên đây hơn một tuần , nh...Kao chỉ mới được gửi lên đây hơn một tuần , nh...[1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ...[B-PER, O, O, O, O, O, O, O, O, O, O, O, O, O,...
47[An_Lư, cũng, tích_cực, đào_tạo, các, thuyền_v...An_Lư cũng tích_cực đào_tạo các thuyền_viên ng...An Lư cũng tích cực đào tạo các thuyền viên ng...[5, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ...[B-LOC, O, O, O, O, O, O, O, O, O, O, O, O, O,...
48[Anh, cười, tươi, :, \", Nếu, không, thắng, thì...Anh cười tươi : \" Nếu không thắng thì đâu còn ...Anh cười tươi : \" Nếu không thắng thì đâu còn ...[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0][O, O, O, O, O, O, O, O, O, O, O, O, O, O, O]
49[Hắn, không, có, một, dữ_liệu, nào, nằm, trong...Hắn không có một dữ_liệu nào nằm trong tay thá...Hắn không có một dữ liệu nào nằm trong tay thá...[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ...[O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ...
\n", + "
\n", + "
\n", + "\n", + "
\n", + " \n", + "\n", + " \n", + "\n", + " \n", + "
\n", + "\n", + "\n", + "
\n", + " \n", + "\n", + "\n", + "\n", + " \n", + "
\n", + "\n", + "
\n", + "
\n" + ], + "text/plain": [ + " tokens \\\n", + "41 [Theo, kế_hoạch, ,, những, ngày, đầu, cả, hai,... \n", + "42 [Thật, đáng, tiếc, biết_bao, ,, những, ngày, n... \n", + "43 [Hải, và, bố_mẹ, ngày, trước, ở, chung, với, ô... \n", + "44 [Cho_nên, phương_án, của, ông, Phong, là, “, b... \n", + "45 [Một, thời_gian, ngắn, sau, trận, tỉ_thí, lịch... \n", + "46 [Kao, chỉ, mới, được, gửi, lên, đây, hơn, một,... \n", + "47 [An_Lư, cũng, tích_cực, đào_tạo, các, thuyền_v... \n", + "48 [Anh, cười, tươi, :, \", Nếu, không, thắng, thì... \n", + "49 [Hắn, không, có, một, dữ_liệu, nào, nằm, trong... \n", + "\n", + " text_withseg \\\n", + "41 Theo kế_hoạch , những ngày đầu cả hai luyện ti... \n", + "42 Thật đáng tiếc biết_bao , những ngày này trăng... \n", + "43 Hải và bố_mẹ ngày trước ở chung với ông_bà trê... \n", + "44 Cho_nên phương_án của ông Phong là “ bán cả co... \n", + "45 Một thời_gian ngắn sau trận tỉ_thí lịch_sử , M... \n", + "46 Kao chỉ mới được gửi lên đây hơn một tuần , nh... \n", + "47 An_Lư cũng tích_cực đào_tạo các thuyền_viên ng... \n", + "48 Anh cười tươi : \" Nếu không thắng thì đâu còn ... \n", + "49 Hắn không có một dữ_liệu nào nằm trong tay thá... \n", + "\n", + " text_raw \\\n", + "41 Theo kế hoạch , những ngày đầu cả hai luyện ti... \n", + "42 Thật đáng tiếc biết bao , những ngày này trăng... \n", + "43 Hải và bố mẹ ngày trước ở chung với ông bà trê... \n", + "44 Cho nên phương án của ông Phong là “ bán cả co... \n", + "45 Một thời gian ngắn sau trận tỉ thí lịch sử , M... \n", + "46 Kao chỉ mới được gửi lên đây hơn một tuần , nh... \n", + "47 An Lư cũng tích cực đào tạo các thuyền viên ng... \n", + "48 Anh cười tươi : \" Nếu không thắng thì đâu còn ... \n", + "49 Hắn không có một dữ liệu nào nằm trong tay thá... \n", + "\n", + " ner_tags \\\n", + "41 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... \n", + "42 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... \n", + "43 [1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 5, 6, 0, 0, 0, ... \n", + "44 [0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... \n", + "45 [0, 0, 0, 0, 0, 0, 0, 0, 1, 2, 0, 0, 0, 0, 0, ... \n", + "46 [1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... \n", + "47 [5, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... \n", + "48 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0] \n", + "49 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... \n", + "\n", + " ner_labels \n", + "41 [O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ... \n", + "42 [O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ... \n", + "43 [B-PER, O, O, O, O, O, O, O, O, O, B-LOC, I-LO... \n", + "44 [O, O, O, O, B-PER, O, O, O, O, O, O, O, O, O,... \n", + "45 [O, O, O, O, O, O, O, O, B-PER, I-PER, O, O, O... \n", + "46 [B-PER, O, O, O, O, O, O, O, O, O, O, O, O, O,... \n", + "47 [B-LOC, O, O, O, O, O, O, O, O, O, O, O, O, O,... \n", + "48 [O, O, O, O, O, O, O, O, O, O, O, O, O, O, O] \n", + "49 [O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ... " + ] + }, + "execution_count": 18, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "df[41:50]" + ] + }, + { + "cell_type": "code", + "execution_count": 19, + "metadata": { + "id": "XBvlZok5ntB7" + }, + "outputs": [], + "source": [ + "time = 0\n", + "org_idx = []\n", + "token = []\n", + "tag = []\n", + "for i in (df.index):\n", + " for a in range(len(df.ner_tags[i])):\n", + " # if df.ner_tags[i][a] == 6 or df.ner_tags[i][a] == 5:\n", + " if df.ner_labels[i][a] != 'O':\n", + " token.append(df.tokens[i][[a]])\n", + " tag.append(df.ner_labels[i][a])\n", + " org_idx.append(i)" + ] + }, + { + "cell_type": "code", + "execution_count": 20, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/", + "height": 303 + }, + "id": "xcw4uS1lngk5", + "outputId": "a978a005-50aa-458e-e48a-3fda6e992b25" + }, + "outputs": [ + { + "data": { + "text/html": [ + "
\n", + "\n", + "\n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + "
count
tag
B-PER7479
B-LOC6244
I-PER3522
I-LOC2783
I-ORG2055
B-ORG1212
\n", + "

" + ], + "text/plain": [ + "tag\n", + "B-PER 7479\n", + "B-LOC 6244\n", + "I-PER 3522\n", + "I-LOC 2783\n", + "I-ORG 2055\n", + "B-ORG 1212\n", + "Name: count, dtype: int64" + ] + }, + "execution_count": 20, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "tag_data = pd.DataFrame({'org_idx': org_idx, 'token': token, 'tag': tag})\n", + "tag_data.tag.value_counts()" + ] + }, + { + "cell_type": "code", + "execution_count": 21, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/", + "height": 607 + }, + "id": "QnAnqvw6l5-l", + "outputId": "b4a7cd6c-c003-4cd7-ed74-6141d5336fd2" + }, + "outputs": [ + { + "data": { + "image/png": "", + "text/plain": [ + "
" + ] + }, + "metadata": {}, + "output_type": "display_data" + } + ], + "source": [ + "import matplotlib.pyplot as plt\n", + "\n", + "tag_counts = tag_data.tag.value_counts()\n", + "\n", + "plt.figure(figsize=(10, 6))\n", + "tag_counts.plot(kind='bar')\n", + "plt.title('Distribution of NER Label Frequency')\n", + "plt.xlabel('NER Label')\n", + "plt.ylabel('Frequency')\n", + "plt.xticks(rotation=45, ha='right')\n", + "plt.tight_layout()\n", + "plt.show()\n" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "cZdD8L9fqsDV" + }, + "source": [ + "## NOTE\n", + "\n", + "\n", + "1. Phân bố độ dài câu\n", + "2. \n", + "\n" + ] + }, + { + "cell_type": "code", + "execution_count": 22, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/", + "height": 607 + }, + "id": "2mkmZj6xqqwp", + "outputId": "0836d9f9-099d-4f28-f402-9da1e444639f" + }, + "outputs": [ + { + "data": { + "image/png": "", + "text/plain": [ + "
" + ] + }, + "metadata": {}, + "output_type": "display_data" + } + ], + "source": [ + "df['token_lengths'] = df['tokens'].apply(lambda token_list: [len(token) for token in token_list])\n", + "\n", + "# Flatten the list of token lengths for all rows\n", + "all_token_lengths = [length for sublist in df['token_lengths'] for length in sublist]\n", + "\n", + "# Convert to a pandas Series to easily get the distribution\n", + "token_length_series = pd.Series(all_token_lengths)\n", + "\n", + "# Plot the distribution of token lengths\n", + "plt.figure(figsize=(12, 6))\n", + "token_length_series.hist(bins=range(min(token_length_series), max(token_length_series) + 1), edgecolor='black', align='left')\n", + "plt.title('Distribution of Token Lengths')\n", + "plt.xlabel('Token Length')\n", + "plt.ylabel('Frequency')\n", + "plt.xticks(range(min(token_length_series), max(token_length_series) + 1))\n", + "plt.tight_layout()\n", + "plt.show()\n" + ] + }, + { + "cell_type": "code", + "execution_count": 23, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/", + "height": 798 + }, + "id": "48udWdKjxUcw", + "outputId": "c593638c-b7c0-4464-c477-b1ec2bf41463" + }, + "outputs": [ + { + "data": { + "image/png": "", + "text/plain": [ + "
" + ] + }, + "metadata": {}, + "output_type": "display_data" + }, + { + "name": "stdout", + "output_type": "stream", + "text": [ + "\n", + "Descriptive statistics for sentence lengths:\n", + "count 16858.000000\n", + "mean 21.912445\n", + "std 12.940344\n", + "min 1.000000\n", + "25% 13.000000\n", + "50% 20.000000\n", + "75% 29.000000\n", + "max 118.000000\n", + "Name: sentence_length, dtype: float64\n" + ] + } + ], + "source": [ + "import matplotlib.pyplot as plt\n", + "df['sentence_length'] = df['tokens'].apply(len)\n", + "\n", + "plt.figure(figsize=(12, 6))\n", + "df['sentence_length'].hist(bins=50, edgecolor='black')\n", + "plt.title('Distribution of Sentence Lengths')\n", + "plt.xlabel('Sentence Length (number of tokens)')\n", + "plt.ylabel('Frequency')\n", + "plt.tight_layout()\n", + "plt.show()\n", + "\n", + "print(\"\\nDescriptive statistics for sentence lengths:\")\n", + "print(df['sentence_length'].describe())" + ] + }, + { + "cell_type": "code", + "execution_count": 24, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/", + "height": 597 + }, + "id": "r7RqJtBDoIaC", + "outputId": "90317572-ab0f-45df-a6d9-8c026f45df5a" + }, + "outputs": [ + { + "data": { + "application/vnd.google.colaboratory.intrinsic+json": { + "summary": "{\n \"name\": \"df\",\n \"rows\": 16858,\n \"fields\": [\n {\n \"column\": \"tokens\",\n \"properties\": {\n \"dtype\": \"object\",\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n },\n {\n \"column\": \"text_withseg\",\n \"properties\": {\n \"dtype\": \"string\",\n \"num_unique_values\": 16787,\n \"samples\": [\n \"T\\u00ednh th\\u00f4ng_minh , l\\u1ea1i t\\u00f2_m\\u00f2 , anh Ki\\u1ec7m b\\u1eaft_\\u0111\\u1ea7u \\u0111i \\u0111\\u1ebfn c\\u00e1c x\\u01b0\\u1edfng c\\u01a1_kh\\u00ed \\u0111\\u1ec3 quan_s\\u00e1t c\\u00e1c lo\\u1ea1i m\\u00e1y_m\\u00f3c , r\\u1ed3i v\\u1ec1 nh\\u00e0 suy_ngh\\u0129 v\\u00e0 c\\u1ea7m b\\u00fat v\\u1ebd ph\\u00e1c_ho\\u1ea1 ra c\\u00e1i m\\u00e1y v\\u00fat g\\u1ea1o .\",\n \"V\\u1eady th\\u00ec , h\\u1ecd c\\u1ea7n ph\\u1ea3i \\u0111\\u01b0\\u1ee3c gi\\u00fap_\\u0111\\u1ee1 , ph\\u1ea3i \\u0111\\u01b0\\u1ee3c s\\u1ed1ng \\u0111\\u00e0ng_ho\\u00e0ng , ph\\u1ea3i \\u0111\\u01b0\\u1ee3c l\\u00e0m ng\\u01b0\\u1eddi d\\u00f9 ch\\u1ec9 l\\u00e0 nh\\u1eefng ng\\u00e0y cu\\u1ed1i_c\\u00f9ng .\",\n \"Nhi\\u1ec1u ng\\u01b0\\u1eddi th\\u00f4ng_d\\u1ecbch c\\u00f9ng th\\u1eddi v\\u1edbi Nguy\\u1ec5n Trung Hi\\u1ebfu c\\u0169ng \\u0111\\u00e3 ch\\u1ebft trong khi th\\u1ef1c_hi\\u1ec7n nhi\\u1ec7m_v\\u1ee5 t\\u1ea1i chi\\u1ebfn_tr\\u01b0\\u1eddng ho\\u1eb7c tr\\u00ean \\u0111\\u01b0\\u1eddng h\\u00e0nh_qu\\u00e2n .\"\n ],\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n },\n {\n \"column\": \"text_raw\",\n \"properties\": {\n \"dtype\": \"string\",\n \"num_unique_values\": 16785,\n \"samples\": [\n \"Trong kho\\u1ea3ng th\\u1eddi gian \\u0111\\u00f3 ch\\u1ecb c\\u1ed1 c\\u00f4ng t\\u1ef1 h\\u1ecdc ti\\u1ebfng Anh .\",\n \"Sau \\u0111\\u00f3 , ch\\u00ednh b\\u00e0 Susan \\u0111\\u00e3 \\u0111\\u01b0a Mai l\\u00ean h\\u1ecdc \\u0111\\u1ea1i h\\u1ecdc , m\\u1ed7i n\\u0103m chu c\\u1ea5p cho c\\u00f4 30.000 USD .\",\n \"T\\u1eeb r\\u1ea5t l\\u00e2u r\\u1ed3i t\\u00f4i v\\u1eabn ngh\\u0129 n\\u1ebfu nh\\u01b0 cu\\u1ed1n s\\u00e1ch \\u0111\\u01b0\\u1ee3c xu\\u1ea5t b\\u1ea3n , ho\\u1eb7c ng\\u01b0\\u1eddi ta l\\u00e0m phim v\\u1ec1 n\\u00f3 th\\u00ec t\\u00f4i s\\u1ebd d\\u00f9ng s\\u1ed1 ti\\u1ec1n b\\u00e1n s\\u00e1ch \\u0111\\u1ec3 thi\\u1ebft l\\u1eadp m\\u1ed9t s\\u1ed1 gi\\u01b0\\u1eddng b\\u1ec7nh t\\u1ea1i H\\u00e0 N\\u1ed9i .\"\n ],\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n },\n {\n \"column\": \"ner_tags\",\n \"properties\": {\n \"dtype\": \"object\",\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n },\n {\n \"column\": \"ner_labels\",\n \"properties\": {\n \"dtype\": \"object\",\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n },\n {\n \"column\": \"token_lengths\",\n \"properties\": {\n \"dtype\": \"object\",\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n },\n {\n \"column\": \"sentence_length\",\n \"properties\": {\n \"dtype\": \"number\",\n \"std\": 12,\n \"min\": 1,\n \"max\": 118,\n \"num_unique_values\": 99,\n \"samples\": [\n 68,\n 23,\n 96\n ],\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n }\n ]\n}", + "type": "dataframe", + "variable_name": "df" + }, + "text/html": [ + "\n", + "
\n", + "
\n", + "\n", + "\n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + "
tokenstext_withsegtext_rawner_tagsner_labelstoken_lengthssentence_length
0[Không_khí, thật, náo_nhiệt, .]Không_khí thật náo_nhiệt .Không khí thật náo nhiệt .[0, 0, 0, 0][O, O, O, O][9, 4, 9, 1]4
1[Chị, Lãnh, và, Xăng, ra, đi, ,, mình, đứng, n...Chị Lãnh và Xăng ra đi , mình đứng nhìn hai ch...Chị Lãnh và Xăng ra đi , mình đứng nhìn hai ch...[0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ...[O, B-PER, O, B-PER, O, O, O, O, O, O, O, O, O...[3, 4, 2, 4, 2, 2, 1, 4, 4, 4, 3, 3, 4, 3, 4, ...31
2[Suy_tính, mãi, ,, khóc, mãi, rồi, Phúc, lấy, ...Suy_tính mãi , khóc mãi rồi Phúc lấy ra tờ giấ...Suy tính mãi , khóc mãi rồi Phúc lấy ra tờ giấ...[0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, ...[O, O, O, O, O, O, B-PER, O, O, O, O, O, O, O,...[8, 3, 1, 4, 3, 3, 4, 3, 2, 2, 4, 1, 3, 3, 1, ...33
3[Hoà, bảo, hồi, mới, qua, đâu, có, biết, nấu_n...Hoà bảo hồi mới qua đâu có biết nấu_nướng gì ,...Hoà bảo hồi mới qua đâu có biết nấu nướng gì ,...[1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 5, 0, ...[B-PER, O, O, O, O, O, O, O, O, O, O, O, O, B-...[3, 3, 3, 3, 3, 3, 2, 4, 9, 2, 1, 3, 3, 3, 3, ...43
4[Nhật_ký, của, thuyền_viên, .]Nhật_ký của thuyền_viên .Nhật ký của thuyền viên .[0, 0, 0, 0][O, O, O, O][7, 3, 11, 1]4
........................
16853[Nghe, thấy, đã, ghê_ghê, nhưng, Nhiêu, chưa, ...Nghe thấy đã ghê_ghê nhưng Nhiêu chưa được tườ...Nghe thấy đã ghê ghê nhưng Nhiêu chưa được tườ...[0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, ...[O, O, O, O, O, B-PER, O, O, O, O, O, O, O, O,...[4, 4, 2, 7, 5, 5, 4, 4, 5, 1, 3, 3, 3, 4, 5, ...21
16854[Nhưng, mọi, chuyện, không, dừng, ở, đó, .]Nhưng mọi chuyện không dừng ở đó .Nhưng mọi chuyện không dừng ở đó .[0, 0, 0, 0, 0, 0, 0, 0][O, O, O, O, O, O, O, O][5, 3, 6, 5, 4, 1, 2, 1]8
16855[Hoà, bảo, thời_gian, đầu, mặc_cảm, lắm, ,, ở,...Hoà bảo thời_gian đầu mặc_cảm lắm , ở trong nh...Hoà bảo thời gian đầu mặc cảm lắm , ở trong nh...[1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ...[B-PER, O, O, O, O, O, O, O, O, O, O, O, O, O,...[3, 3, 9, 3, 7, 3, 1, 1, 5, 3, 8, 2, 5, 4, 3, ...29
16856[Biết_bao, người, đã, tình_nguyện, hiến_dâng, ...Biết_bao người đã tình_nguyện hiến_dâng cả cuộ...Biết bao người đã tình nguyện hiến dâng cả cuộ...[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0][O, O, O, O, O, O, O, O, O, O, O, O, O, O, O][8, 5, 2, 11, 9, 2, 8, 4, 2, 3, 3, 7, 1, 5, 1]15
16857[Trên, đây, mới, là, “, thành_tích, ”, tiêu, t...Trên đây mới là “ thành_tích ” tiêu tiền của m...Trên đây mới là “ thành tích ” tiêu tiền của m...[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ...[O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ...[4, 3, 3, 2, 1, 10, 1, 4, 4, 3, 7, 5, 2, 5, 9,...22
\n", + "

16858 rows × 7 columns

\n", + "
\n", + "
\n", + "\n", + "
\n", + " \n", + "\n", + " \n", + "\n", + " \n", + "
\n", + "\n", + "\n", + "
\n", + " \n", + "\n", + "\n", + "\n", + " \n", + "
\n", + "\n", + "
\n", + " \n", + " \n", + " \n", + "
\n", + "\n", + "
\n", + "
\n" + ], + "text/plain": [ + " tokens \\\n", + "0 [Không_khí, thật, náo_nhiệt, .] \n", + "1 [Chị, Lãnh, và, Xăng, ra, đi, ,, mình, đứng, n... \n", + "2 [Suy_tính, mãi, ,, khóc, mãi, rồi, Phúc, lấy, ... \n", + "3 [Hoà, bảo, hồi, mới, qua, đâu, có, biết, nấu_n... \n", + "4 [Nhật_ký, của, thuyền_viên, .] \n", + "... ... \n", + "16853 [Nghe, thấy, đã, ghê_ghê, nhưng, Nhiêu, chưa, ... \n", + "16854 [Nhưng, mọi, chuyện, không, dừng, ở, đó, .] \n", + "16855 [Hoà, bảo, thời_gian, đầu, mặc_cảm, lắm, ,, ở,... \n", + "16856 [Biết_bao, người, đã, tình_nguyện, hiến_dâng, ... \n", + "16857 [Trên, đây, mới, là, “, thành_tích, ”, tiêu, t... \n", + "\n", + " text_withseg \\\n", + "0 Không_khí thật náo_nhiệt . \n", + "1 Chị Lãnh và Xăng ra đi , mình đứng nhìn hai ch... \n", + "2 Suy_tính mãi , khóc mãi rồi Phúc lấy ra tờ giấ... \n", + "3 Hoà bảo hồi mới qua đâu có biết nấu_nướng gì ,... \n", + "4 Nhật_ký của thuyền_viên . \n", + "... ... \n", + "16853 Nghe thấy đã ghê_ghê nhưng Nhiêu chưa được tườ... \n", + "16854 Nhưng mọi chuyện không dừng ở đó . \n", + "16855 Hoà bảo thời_gian đầu mặc_cảm lắm , ở trong nh... \n", + "16856 Biết_bao người đã tình_nguyện hiến_dâng cả cuộ... \n", + "16857 Trên đây mới là “ thành_tích ” tiêu tiền của m... \n", + "\n", + " text_raw \\\n", + "0 Không khí thật náo nhiệt . \n", + "1 Chị Lãnh và Xăng ra đi , mình đứng nhìn hai ch... \n", + "2 Suy tính mãi , khóc mãi rồi Phúc lấy ra tờ giấ... \n", + "3 Hoà bảo hồi mới qua đâu có biết nấu nướng gì ,... \n", + "4 Nhật ký của thuyền viên . \n", + "... ... \n", + "16853 Nghe thấy đã ghê ghê nhưng Nhiêu chưa được tườ... \n", + "16854 Nhưng mọi chuyện không dừng ở đó . \n", + "16855 Hoà bảo thời gian đầu mặc cảm lắm , ở trong nh... \n", + "16856 Biết bao người đã tình nguyện hiến dâng cả cuộ... \n", + "16857 Trên đây mới là “ thành tích ” tiêu tiền của m... \n", + "\n", + " ner_tags \\\n", + "0 [0, 0, 0, 0] \n", + "1 [0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... \n", + "2 [0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, ... \n", + "3 [1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 5, 0, ... \n", + "4 [0, 0, 0, 0] \n", + "... ... \n", + "16853 [0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, ... \n", + "16854 [0, 0, 0, 0, 0, 0, 0, 0] \n", + "16855 [1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... \n", + "16856 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0] \n", + "16857 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... \n", + "\n", + " ner_labels \\\n", + "0 [O, O, O, O] \n", + "1 [O, B-PER, O, B-PER, O, O, O, O, O, O, O, O, O... \n", + "2 [O, O, O, O, O, O, B-PER, O, O, O, O, O, O, O,... \n", + "3 [B-PER, O, O, O, O, O, O, O, O, O, O, O, O, B-... \n", + "4 [O, O, O, O] \n", + "... ... \n", + "16853 [O, O, O, O, O, B-PER, O, O, O, O, O, O, O, O,... \n", + "16854 [O, O, O, O, O, O, O, O] \n", + "16855 [B-PER, O, O, O, O, O, O, O, O, O, O, O, O, O,... \n", + "16856 [O, O, O, O, O, O, O, O, O, O, O, O, O, O, O] \n", + "16857 [O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ... \n", + "\n", + " token_lengths sentence_length \n", + "0 [9, 4, 9, 1] 4 \n", + "1 [3, 4, 2, 4, 2, 2, 1, 4, 4, 4, 3, 3, 4, 3, 4, ... 31 \n", + "2 [8, 3, 1, 4, 3, 3, 4, 3, 2, 2, 4, 1, 3, 3, 1, ... 33 \n", + "3 [3, 3, 3, 3, 3, 3, 2, 4, 9, 2, 1, 3, 3, 3, 3, ... 43 \n", + "4 [7, 3, 11, 1] 4 \n", + "... ... ... \n", + "16853 [4, 4, 2, 7, 5, 5, 4, 4, 5, 1, 3, 3, 3, 4, 5, ... 21 \n", + "16854 [5, 3, 6, 5, 4, 1, 2, 1] 8 \n", + "16855 [3, 3, 9, 3, 7, 3, 1, 1, 5, 3, 8, 2, 5, 4, 3, ... 29 \n", + "16856 [8, 5, 2, 11, 9, 2, 8, 4, 2, 3, 3, 7, 1, 5, 1] 15 \n", + "16857 [4, 3, 3, 2, 1, 10, 1, 4, 4, 3, 7, 5, 2, 5, 9,... 22 \n", + "\n", + "[16858 rows x 7 columns]" + ] + }, + "execution_count": 24, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "df" + ] + }, + { + "cell_type": "code", + "execution_count": 25, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "ddfgAoUkfSGa", + "outputId": "e3814e8e-7354-4bd7-b7bb-bd3bcf22310d" + }, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Không_khí\n", + "thật\n", + "náo_nhiệt\n", + ".\n" + ] + } + ], + "source": [ + "times = 1\n", + "for i, row in df.iterrows():\n", + " token = row['tokens']\n", + " for j in token:\n", + " print(j)\n", + " times -= 1\n", + " if times == 0:\n", + " break" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "5QAdc0pBzymb" + }, + "source": [ + "Bởi vì anh bạn nigga của tôi đã thiếu hướng dẫn sử dụng nên tôi sẽ bổ sung" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "jwKHJtvtz6ge" + }, + "source": [ + "### Cài đặt java (Bắt buộc)" + ] + }, + { + "cell_type": "code", + "execution_count": 26, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "sIipHmP1zxlj", + "outputId": "1c3fe929-198e-48c2-8b4c-a31ebfac9749" + }, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Reading package lists... Done\n", + "Building dependency tree... Done\n", + "Reading state information... Done\n", + "openjdk-11-jdk is already the newest version (11.0.27+6~us1-0ubuntu1~22.04).\n", + "0 upgraded, 0 newly installed, 0 to remove and 1 not upgraded.\n" + ] + } + ], + "source": [ + "!apt-get install -y openjdk-11-jdk" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "Y9S13MGD0DBu" + }, + "source": [ + "#### Cài đặt model" + ] + }, + { + "cell_type": "code", + "execution_count": 27, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "focvsL3lv6ZT", + "outputId": "e75c4e2e-d7cc-4126-ebc0-d966d84a5bcc" + }, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Requirement already satisfied: py_vncorenlp in /usr/local/lib/python3.11/dist-packages (0.1.4)\n", + "Requirement already satisfied: pyjnius in /usr/local/lib/python3.11/dist-packages (from py_vncorenlp) (1.6.1)\n" + ] + } + ], + "source": [ + "pip install py_vncorenlp" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "9OFgp53U0HPq" + }, + "source": [ + "###### Tạo thư mục và tải xuống mô hình" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "id": "iiOcs0dwARjQ" + }, + "source": [] + }, + { + "cell_type": "code", + "execution_count": 28, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/", + "height": 244, + "referenced_widgets": [ + "132e7ba656334ec59ac72679c126bf27", + "bb767d0faca34e619107546b439b607f", + "1b9c56a6995a40d59f64bccc7f679e07", + "3c6d843da9bf44d3b971c4443c44a255", + "220afa91ce9f4d67934243437259faa6", + "6b42472a431141e182c422381ec84106", + "c9e12698a123442093c2bd71d7c5775a", + "62cb290b834a4378b43fd8a5424d3557", + "265686ab8b4e4c66bf419f6391cad15e", + "02efe4dc0e34428f87d00571063a2342", + "3f65300df13246168e409be8852ac5ea", + "19382d4c6ac74aa190a891fa855a8fdd", + "84087d814eb9493693cbba7e84db4a62", + "32bcd44ab58e4349b66ccb144b7a5eb1", + "a9b4d1e29f7645fd90a86c407bb97eb9", + "858e486c77e94ef0a0720e4d204e10b9", + "09d63d9c6e3b4befb2d13ed56eb1fecf", + "d5d0d780b2464843a1d380f0a4c0fbbc", + "fc5c675a5c0a4058a683318491f6e6da", + "4958e837d8664a298f32b7e88825fbf7", + "82fe50de6b0945198fae9f532324e7fd", + "222c29ec297f400ea78c758563378f8a", + "8d018b3f1f2e4ac699f5051019b9af74", + "7d81164902f44d289148260c2584782e", + "5a809d0a194c4e04a3a3f99ca4d98b5c", + "35144d338b1249278eef607e9f84c57a", + "b283351b3c9f4b1fb9801e2bafcc3ac7", + "d32f4b409484471891cf68e295afc1e5", + "8b865a52c0c1492283a00e7fef9a2697", + "b73314b6559c492f851262eba512aa3c", + "53dbc1a7391648d0a033644c2a97b4c2", + "7a39143f21d2438e80e32a7f0ac407a4", + "3dcbe597c2af44ab8672a58304317ff9", + "e13525732c2f4d8cad00e52b80f7e2f4", + "cc286fe8ebb64f03acf68fc630cedfe0", + "8b0f3136fecc4965a76df8c8dee661ce", + "16a99b74cefa4f0e870e93776897feca", + "0b42f930dcd949ee9df45dc2cd860214", + "fec4bac1a3344aad9f168be02dba98f2", + "5958c45737064862858bf130b105ec08", + "f4f3815411b24674bfb51ab242832999", + "83930005bf7443b08835dae0ceb66457", + "539f3fb7d9764596b3496609617e9df4", + "70035b06e7c14e54ba0a06fb59c66546", + "6954c314e1e844e49407fb2236ea76a9", + "31566827dfab451db0ca2a06458efaa3", + "f8ef07a5c6fd4bca98efdf435d883f4c", + "c67c2df8fc294b9b8fbf0055dd2ded6c", + "f4308d3a141e454cb2c1602cba4a06aa", + "2b11610bd8d94a81863e99debe1e6905", + "71c48602225b41449f5b5cbc53d519dc", + "ed4e3e35f657476c82ff20a038812243", + "eb355ce836b34a9da087fee621132e94", + "6063b69b0af744d9b31dc9d20c029c99", + "3d808cb829044c01b8cbdca369a16e3a", + "60443f69792b4726b8cf2a038a241022", + "dc92fe258486439394f2841363d4286b", + "bc2cff635fb549549afb10cd81ec252a", + "583d9194818b452c8f8531005a5802ba", + "8fa670c708c34020b46f4db42341779b", + "a7a6d4796d0349b99abb511f3ff9823b", + "8ef031c9d4b84a62a20b47d338a3dc2d", + "e29a696703cc4f87a12fc6e98f2cbcf8", + "3116450c8884414ab14124212ba0b3ef", + "7a1d4efa4f394010b9e8f6b72f457f0c", + "aa5355a04ee34ba99567184381985f82" + ] + }, + "id": "8_ABJkA6uw3M", + "outputId": "a27de901-5886-41dd-df9e-7f5383d21b81" + }, + "outputs": [ + { + "data": { + "application/vnd.jupyter.widget-view+json": { + "model_id": "132e7ba656334ec59ac72679c126bf27", + "version_major": 2, + "version_minor": 0 + }, + "text/plain": [ + "config.json: 0%| | 0.00/678 [00:00\n", + "
\n", + "\n", + "\n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + "
tokenstext_withsegtext_rawner_tagsner_labelstoken_lengthssentence_lengthencoded
0[Không_khí, thật, náo_nhiệt, .]Không_khí thật náo_nhiệt .Không khí thật náo nhiệt .[0, 0, 0, 0][O, O, O, O][9, 4, 9, 1]4[10591, 520, 13648, 5]
1[Chị, Lãnh, và, Xăng, ra, đi, ,, mình, đứng, n...Chị Lãnh và Xăng ra đi , mình đứng nhìn hai ch...Chị Lãnh và Xăng ra đi , mình đứng nhìn hai ch...[0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ...[O, B-PER, O, B-PER, O, O, O, O, O, O, O, O, O...[3, 4, 2, 4, 2, 2, 1, 4, 4, 4, 3, 3, 4, 3, 4, ...31[1108, 19703, 6, 28163, 40, 57, 4, 68, 414, 36...
2[Suy_tính, mãi, ,, khóc, mãi, rồi, Phúc, lấy, ...Suy_tính mãi , khóc mãi rồi Phúc lấy ra tờ giấ...Suy tính mãi , khóc mãi rồi Phúc lấy ra tờ giấ...[0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, ...[O, O, O, O, O, O, B-PER, O, O, O, O, O, O, O,...[8, 3, 1, 4, 3, 3, 4, 3, 2, 2, 4, 1, 3, 3, 1, ...33[39659, 30554, 1997, 4, 1521, 1997, 182, 2777,...
3[Hoà, bảo, hồi, mới, qua, đâu, có, biết, nấu_n...Hoà bảo hồi mới qua đâu có biết nấu_nướng gì ,...Hoà bảo hồi mới qua đâu có biết nấu nướng gì ,...[1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 5, 0, ...[B-PER, O, O, O, O, O, O, O, O, O, O, O, O, B-...[3, 3, 3, 3, 3, 3, 2, 4, 9, 2, 1, 3, 3, 3, 3, ...43[2042, 1218, 857, 60, 89, 602, 10, 55, 9880, 1...
4[Nhật_ký, của, thuyền_viên, .]Nhật_ký của thuyền_viên .Nhật ký của thuyền viên .[0, 0, 0, 0][O, O, O, O][7, 3, 11, 1]4[17188, 7, 6494, 5]
...........................
16853[Nghe, thấy, đã, ghê_ghê, nhưng, Nhiêu, chưa, ...Nghe thấy đã ghê_ghê nhưng Nhiêu chưa được tườ...Nghe thấy đã ghê ghê nhưng Nhiêu chưa được tườ...[0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, ...[O, O, O, O, O, B-PER, O, O, O, O, O, O, O, O,...[4, 4, 2, 7, 5, 5, 4, 4, 5, 1, 3, 3, 3, 4, 5, ...21[3656, 108, 14, 3, 17143, 51, 24733, 102, 11, ...
16854[Nhưng, mọi, chuyện, không, dừng, ở, đó, .]Nhưng mọi chuyện không dừng ở đó .Nhưng mọi chuyện không dừng ở đó .[0, 0, 0, 0, 0, 0, 0, 0][O, O, O, O, O, O, O, O][5, 3, 6, 5, 4, 1, 2, 1]8[293, 207, 344, 17, 772, 25, 37, 5]
16855[Hoà, bảo, thời_gian, đầu, mặc_cảm, lắm, ,, ở,...Hoà bảo thời_gian đầu mặc_cảm lắm , ở trong nh...Hoà bảo thời gian đầu mặc cảm lắm , ở trong nh...[1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ...[B-PER, O, O, O, O, O, O, O, O, O, O, O, O, O,...[3, 3, 9, 3, 7, 3, 1, 1, 5, 3, 8, 2, 5, 4, 3, ...29[2042, 1218, 130, 127, 11878, 957, 4, 25, 12, ...
16856[Biết_bao, người, đã, tình_nguyện, hiến_dâng, ...Biết_bao người đã tình_nguyện hiến_dâng cả cuộ...Biết bao người đã tình nguyện hiến dâng cả cuộ...[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0][O, O, O, O, O, O, O, O, O, O, O, O, O, O, O][8, 5, 2, 11, 9, 2, 8, 4, 2, 3, 3, 7, 1, 5, 1]15[53464, 18, 14, 4047, 46883, 94, 1679, 68, 90,...
16857[Trên, đây, mới, là, “, thành_tích, ”, tiêu, t...Trên đây mới là “ thành_tích ” tiêu tiền của m...Trên đây mới là “ thành tích ” tiêu tiền của m...[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ...[O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ...[4, 3, 3, 2, 1, 10, 1, 4, 4, 3, 7, 5, 2, 5, 9,...22[880, 97, 60, 8, 556, 1417, 564, 2140, 123, 7,...
\n", + "

16858 rows × 8 columns

\n", + "
\n", + "
\n", + "\n", + "
\n", + " \n", + "\n", + " \n", + "\n", + " \n", + "
\n", + "\n", + "\n", + "
\n", + " \n", + "\n", + "\n", + "\n", + " \n", + "
\n", + "\n", + "
\n", + " \n", + " \n", + " \n", + "
\n", + "\n", + "
\n", + " \n" + ], + "text/plain": [ + " tokens \\\n", + "0 [Không_khí, thật, náo_nhiệt, .] \n", + "1 [Chị, Lãnh, và, Xăng, ra, đi, ,, mình, đứng, n... \n", + "2 [Suy_tính, mãi, ,, khóc, mãi, rồi, Phúc, lấy, ... \n", + "3 [Hoà, bảo, hồi, mới, qua, đâu, có, biết, nấu_n... \n", + "4 [Nhật_ký, của, thuyền_viên, .] \n", + "... ... \n", + "16853 [Nghe, thấy, đã, ghê_ghê, nhưng, Nhiêu, chưa, ... \n", + "16854 [Nhưng, mọi, chuyện, không, dừng, ở, đó, .] \n", + "16855 [Hoà, bảo, thời_gian, đầu, mặc_cảm, lắm, ,, ở,... \n", + "16856 [Biết_bao, người, đã, tình_nguyện, hiến_dâng, ... \n", + "16857 [Trên, đây, mới, là, “, thành_tích, ”, tiêu, t... \n", + "\n", + " text_withseg \\\n", + "0 Không_khí thật náo_nhiệt . \n", + "1 Chị Lãnh và Xăng ra đi , mình đứng nhìn hai ch... \n", + "2 Suy_tính mãi , khóc mãi rồi Phúc lấy ra tờ giấ... \n", + "3 Hoà bảo hồi mới qua đâu có biết nấu_nướng gì ,... \n", + "4 Nhật_ký của thuyền_viên . \n", + "... ... \n", + "16853 Nghe thấy đã ghê_ghê nhưng Nhiêu chưa được tườ... \n", + "16854 Nhưng mọi chuyện không dừng ở đó . \n", + "16855 Hoà bảo thời_gian đầu mặc_cảm lắm , ở trong nh... \n", + "16856 Biết_bao người đã tình_nguyện hiến_dâng cả cuộ... \n", + "16857 Trên đây mới là “ thành_tích ” tiêu tiền của m... \n", + "\n", + " text_raw \\\n", + "0 Không khí thật náo nhiệt . \n", + "1 Chị Lãnh và Xăng ra đi , mình đứng nhìn hai ch... \n", + "2 Suy tính mãi , khóc mãi rồi Phúc lấy ra tờ giấ... \n", + "3 Hoà bảo hồi mới qua đâu có biết nấu nướng gì ,... \n", + "4 Nhật ký của thuyền viên . \n", + "... ... \n", + "16853 Nghe thấy đã ghê ghê nhưng Nhiêu chưa được tườ... \n", + "16854 Nhưng mọi chuyện không dừng ở đó . \n", + "16855 Hoà bảo thời gian đầu mặc cảm lắm , ở trong nh... \n", + "16856 Biết bao người đã tình nguyện hiến dâng cả cuộ... \n", + "16857 Trên đây mới là “ thành tích ” tiêu tiền của m... \n", + "\n", + " ner_tags \\\n", + "0 [0, 0, 0, 0] \n", + "1 [0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... \n", + "2 [0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, ... \n", + "3 [1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 5, 0, ... \n", + "4 [0, 0, 0, 0] \n", + "... ... \n", + "16853 [0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, ... \n", + "16854 [0, 0, 0, 0, 0, 0, 0, 0] \n", + "16855 [1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... \n", + "16856 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0] \n", + "16857 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... \n", + "\n", + " ner_labels \\\n", + "0 [O, O, O, O] \n", + "1 [O, B-PER, O, B-PER, O, O, O, O, O, O, O, O, O... \n", + "2 [O, O, O, O, O, O, B-PER, O, O, O, O, O, O, O,... \n", + "3 [B-PER, O, O, O, O, O, O, O, O, O, O, O, O, B-... \n", + "4 [O, O, O, O] \n", + "... ... \n", + "16853 [O, O, O, O, O, B-PER, O, O, O, O, O, O, O, O,... \n", + "16854 [O, O, O, O, O, O, O, O] \n", + "16855 [B-PER, O, O, O, O, O, O, O, O, O, O, O, O, O,... \n", + "16856 [O, O, O, O, O, O, O, O, O, O, O, O, O, O, O] \n", + "16857 [O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ... \n", + "\n", + " token_lengths sentence_length \\\n", + "0 [9, 4, 9, 1] 4 \n", + "1 [3, 4, 2, 4, 2, 2, 1, 4, 4, 4, 3, 3, 4, 3, 4, ... 31 \n", + "2 [8, 3, 1, 4, 3, 3, 4, 3, 2, 2, 4, 1, 3, 3, 1, ... 33 \n", + "3 [3, 3, 3, 3, 3, 3, 2, 4, 9, 2, 1, 3, 3, 3, 3, ... 43 \n", + "4 [7, 3, 11, 1] 4 \n", + "... ... ... \n", + "16853 [4, 4, 2, 7, 5, 5, 4, 4, 5, 1, 3, 3, 3, 4, 5, ... 21 \n", + "16854 [5, 3, 6, 5, 4, 1, 2, 1] 8 \n", + "16855 [3, 3, 9, 3, 7, 3, 1, 1, 5, 3, 8, 2, 5, 4, 3, ... 29 \n", + "16856 [8, 5, 2, 11, 9, 2, 8, 4, 2, 3, 3, 7, 1, 5, 1] 15 \n", + "16857 [4, 3, 3, 2, 1, 10, 1, 4, 4, 3, 7, 5, 2, 5, 9,... 22 \n", + "\n", + " encoded \n", + "0 [10591, 520, 13648, 5] \n", + "1 [1108, 19703, 6, 28163, 40, 57, 4, 68, 414, 36... \n", + "2 [39659, 30554, 1997, 4, 1521, 1997, 182, 2777,... \n", + "3 [2042, 1218, 857, 60, 89, 602, 10, 55, 9880, 1... \n", + "4 [17188, 7, 6494, 5] \n", + "... ... \n", + "16853 [3656, 108, 14, 3, 17143, 51, 24733, 102, 11, ... \n", + "16854 [293, 207, 344, 17, 772, 25, 37, 5] \n", + "16855 [2042, 1218, 130, 127, 11878, 957, 4, 25, 12, ... \n", + "16856 [53464, 18, 14, 4047, 46883, 94, 1679, 68, 90,... \n", + "16857 [880, 97, 60, 8, 556, 1417, 564, 2140, 123, 7,... \n", + "\n", + "[16858 rows x 8 columns]" + ] + }, + "execution_count": 30, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "df" + ] + }, + { + "cell_type": "code", + "execution_count": 31, + "metadata": { + "id": "knRBbpNcUk1Q" + }, + "outputs": [], + "source": [ + "# Machine Learning imports for Random Forest NER\n", + "from sklearn.ensemble import RandomForestClassifier\n", + "from sklearn.model_selection import cross_val_predict, cross_val_score, train_test_split\n", + "from sklearn.metrics import classification_report, confusion_matrix\n", + "from sklearn.preprocessing import LabelEncoder\n", + "import warnings\n", + "import numpy as np\n", + "warnings.filterwarnings('ignore')" + ] + }, + { + "cell_type": "code", + "execution_count": 39, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "3BJj02AgCEtD", + "outputId": "15cf83aa-01e6-455a-a663-ded3a549ef33" + }, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "✅ PhoBERT feature extraction function created\n", + "📊 Creates 40-dimensional feature vectors per token\n", + "🎯 Combines linguistic patterns, semantics, and context\n", + "🇻🇳 Optimized for Vietnamese NER tasks\n" + ] + } + ], + "source": [ + "# CELL 2: PhoBERT Feature Extraction Function\n", + "# ============================================\n", + "\n", + "def extract_phobert_token_features(token, label, token_id, position, sentence_length, prev_token, next_token, tokenizer):\n", + " \"\"\"\n", + " CORE FEATURE EXTRACTION: Create rich feature vector for each token\n", + "\n", + " This function creates a 40-dimensional feature vector combining:\n", + " 1. Basic word characteristics (8 features)\n", + " 2. PhoBERT tokenizer information (4 features)\n", + " 3. Vietnamese-specific patterns (10 features)\n", + " 4. Position and context information (4 features)\n", + " 5. Previous token context (4 features)\n", + " 6. Next token context (4 features)\n", + " 7. Character-level patterns (6 features)\n", + "\n", + " Total: 40 features per token\n", + " \"\"\"\n", + " features = []\n", + "\n", + " # ==========================================\n", + " # 1. BASIC WORD FEATURES (8 features)\n", + " # ==========================================\n", + " # These capture fundamental word characteristics\n", + " features.extend([\n", + " token.istitle(), # Feature 1: Is first letter capitalized? (Important for proper nouns)\n", + " token.islower(), # Feature 2: Is all lowercase? (Common words)\n", + " token.isupper(), # Feature 3: Is all uppercase? (Acronyms, emphasis)\n", + " token.isdigit(), # Feature 4: Is purely numeric? (Dates, quantities)\n", + " token.isalpha(), # Feature 5: Contains only letters? (Pure words)\n", + " len(token), # Feature 6: Word length (longer words often entities)\n", + " len(token) > 5, # Feature 7: Is long word? (Complex entities)\n", + " len(token) < 3, # Feature 8: Is short word? (Articles, prepositions)\n", + " ])\n", + "\n", + " # ==========================================\n", + " # 2. PHOBERT TOKENIZER FEATURES (4 features)\n", + " # ==========================================\n", + " # These leverage PhoBERT's semantic understanding\n", + " features.extend([\n", + " token_id, # Feature 9: PhoBERT token ID (semantic representation)\n", + " token_id % 1000, # Feature 10: Token ID modulo (clustering similar semantics)\n", + " token_id // 1000, # Feature 11: Token ID division (high-level semantic groups)\n", + " len(tokenizer.tokenize(token)), # Feature 12: Number of sub-tokens (complexity measure)\n", + " ])\n", + "\n", + " # ==========================================\n", + " # 3. VIETNAMESE-SPECIFIC FEATURES (10 features)\n", + " # ==========================================\n", + " # These capture Vietnamese naming and geographic patterns\n", + " features.extend([\n", + " # Common Vietnamese surnames and name patterns\n", + " token.startswith('Ng'), # Feature 13: Nguyễn, Ng (most common Vietnamese surname)\n", + " token.startswith('Tr'), # Feature 14: Trần, Trương (common Vietnamese surnames)\n", + " token.startswith('Lê'), # Feature 15: Lê (common Vietnamese surname)\n", + " token.startswith('Phạm'), # Feature 16: Phạm (common Vietnamese surname)\n", + " token.startswith('Vũ'),\n", + " token.startswith('Phan'),\n", + " token.startswith('Trương'),\n", + " token.startswith('Bùi'),\n", + " token.startswith('Đặng'),\n", + "\n", + "\n", + " # Vietnamese geographic patterns\n", + " token.endswith('nh'), # Feature 17: Hành, Thành (place suffixes)\n", + " token.endswith('ại'), # Feature 18: Hải, Lại (place suffixes)\n", + " token.endswith('ương'), # Feature 19: Hương, Thương (place suffixes)\n", + "\n", + " # Vietnamese location indicators\n", + " 'Thành' in token, # Feature 20: City indicator (Thành phố)\n", + " 'phố' in token.lower(), # Feature 21: City/street indicator\n", + " 'tỉnh' in token.lower(), # Feature 22: Province indicator\n", + " 'quận' in token.lower(),\n", + " 'huyện' in token.lower(),\n", + " 'xã' in token.lower(),\n", + " ])\n", + "\n", + " # ==========================================\n", + " # 4. POSITION AND CONTEXT FEATURES (4 features)\n", + " # ==========================================\n", + " # These capture positional information in sentences\n", + " features.extend([\n", + " position, # Feature 23: Absolute position in sentence\n", + " position / sentence_length, # Feature 24: Relative position (0.0 to 1.0)\n", + " position == 0, # Feature 25: Is first word? (Often capitalized)\n", + " position == sentence_length - 1, # Feature 26: Is last word? (Punctuation effects)\n", + " ])\n", + "\n", + " # ==========================================\n", + " # 5. PREVIOUS TOKEN CONTEXT (4 features)\n", + " # ==========================================\n", + " # These capture left context for entity boundary detection\n", + " if prev_token:\n", + " prev_token_ids = tokenizer.encode(prev_token, add_special_tokens=False)\n", + " prev_token_id = prev_token_ids[0] if prev_token_ids else 0\n", + " features.extend([\n", + " prev_token.istitle(), # Feature 27: Previous word capitalized?\n", + " prev_token.islower(), # Feature 28: Previous word lowercase?\n", + " prev_token_id % 1000, # Feature 29: Previous token semantic cluster\n", + " len(prev_token), # Feature 30: Previous word length\n", + " ])\n", + " else:\n", + " # Padding for beginning of sentence\n", + " features.extend([False, False, 0, 0])\n", + "\n", + " # ==========================================\n", + " # 6. NEXT TOKEN CONTEXT (4 features)\n", + " # ==========================================\n", + " # These capture right context for entity boundary detection\n", + " if next_token:\n", + " next_token_ids = tokenizer.encode(next_token, add_special_tokens=False)\n", + " next_token_id = next_token_ids[0] if next_token_ids else 0\n", + " features.extend([\n", + " next_token.istitle(), # Feature 31: Next word capitalized?\n", + " next_token.islower(), # Feature 32: Next word lowercase?\n", + " next_token_id % 1000, # Feature 33: Next token semantic cluster\n", + " len(next_token), # Feature 34: Next word length\n", + " ])\n", + " else:\n", + " # Padding for end of sentence\n", + " features.extend([False, False, 0, 0])\n", + "\n", + " # ==========================================\n", + " # 7. CHARACTER-LEVEL PATTERNS (6 features)\n", + " # ==========================================\n", + " # These capture fine-grained character patterns\n", + " features.extend([\n", + " any(char.isdigit() for char in token), # Feature 35: Contains any digits?\n", + " '-' in token, # Feature 36: Contains hyphen? (compound words)\n", + " '.' in token, # Feature 37: Contains period? (abbreviations)\n", + " ',' in token, # Feature 38: Contains comma? (lists)\n", + " token.count('_'), # Feature 39: Underscore count (technical terms)\n", + " token.isnumeric(), # Feature 40: Fully numeric?\n", + " ])\n", + "\n", + " # Convert to numpy array with float type for sklearn compatibility\n", + " return np.array(features, dtype=float)\n", + "\n", + "print(\"✅ PhoBERT feature extraction function created\")\n", + "print(\"📊 Creates 40-dimensional feature vectors per token\")\n", + "print(\"🎯 Combines linguistic patterns, semantics, and context\")\n", + "print(\"🇻🇳 Optimized for Vietnamese NER tasks\")\n", + "\n" + ] + }, + { + "cell_type": "code", + "execution_count": 40, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "jxrKRbBQbBse", + "outputId": "3d7bedf0-44f4-4b32-8d07-bdf293df138f" + }, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "PhoBERT data preparation functions created\n" + ] + } + ], + "source": [ + "# Prepare data for PhoBERT-based Random Forest\n", + "def prepare_phobert_features(df, tokenizer):\n", + " \"\"\"\n", + " Extract PhoBERT-based features for Random Forest NER\n", + " \"\"\"\n", + " all_features = []\n", + " all_labels = []\n", + " all_tokens = []\n", + "\n", + " for idx, row in df.iterrows():\n", + " tokens = row['tokens']\n", + " ner_labels = row['ner_labels']\n", + "\n", + " # Join tokens for PhoBERT processing\n", + " sentence_text = \" \".join(tokens)\n", + "\n", + " # Tokenize with PhoBERT\n", + " phobert_tokens = tokenizer.tokenize(sentence_text)\n", + " phobert_ids = tokenizer.encode(sentence_text, add_special_tokens=False)\n", + "\n", + " # Align original tokens with PhoBERT tokens\n", + " aligned_features, aligned_labels = align_tokens_with_phobert(\n", + " tokens, ner_labels, phobert_tokens, phobert_ids, tokenizer\n", + " )\n", + "\n", + " all_features.extend(aligned_features)\n", + " all_labels.extend(aligned_labels)\n", + " all_tokens.extend(tokens)\n", + "\n", + " return np.array(all_features), np.array(all_labels), all_tokens\n", + "\n", + "def align_tokens_with_phobert(original_tokens, original_labels, phobert_tokens, phobert_ids, tokenizer):\n", + " \"\"\"\n", + " Align original tokens with PhoBERT sub-tokens and extract features\n", + " \"\"\"\n", + " features = []\n", + " labels = []\n", + "\n", + " # Simple alignment: map each original token to its PhoBERT representation\n", + " token_idx = 0\n", + " phobert_idx = 0\n", + "\n", + " for i, (token, label) in enumerate(zip(original_tokens, original_labels)):\n", + " # Find corresponding PhoBERT tokens for this original token\n", + " token_phobert_ids = tokenizer.encode(token, add_special_tokens=False)\n", + "\n", + " if len(token_phobert_ids) > 0:\n", + " # Use the first sub-token's ID as the main representation\n", + " main_token_id = token_phobert_ids[0]\n", + "\n", + " # Extract features for this token\n", + " token_features = extract_phobert_token_features(\n", + " token, label, main_token_id, i, len(original_tokens),\n", + " original_tokens[i-1] if i > 0 else None,\n", + " original_tokens[i+1] if i < len(original_tokens)-1 else None,\n", + " tokenizer\n", + " )\n", + "\n", + " features.append(token_features)\n", + " labels.append(label)\n", + "\n", + " return features, labels\n", + "\n", + "print(\"PhoBERT data preparation functions created\")" + ] + }, + { + "cell_type": "code", + "execution_count": 41, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "WkxDoT21bCBR", + "outputId": "2944f9b4-db37-4e83-e215-cfbcd92bda47" + }, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Extracting PhoBERT-based features...\n", + "🚀 Starting PhoBERT feature extraction process...\n", + "📈 This will create rich feature representations for each token\n", + "\n", + "Phase 1: Extracting PhoBERT-based features...\n", + "\n", + "📊 FEATURE EXTRACTION RESULTS:\n", + " • Feature matrix shape: (369400, 48)\n", + " • Total tokens processed: 369,400\n", + " • Features per token: 48\n", + " • Labels shape: (369400,)\n", + "\n", + "📈 FEATURE STATISTICS:\n", + " • Feature matrix memory usage: 135.3 MB\n", + " • Average features per sentence: 21.9\n", + " • Feature range: [0.00, 63893.00]\n", + "\n", + "🏷️ LABEL DISTRIBUTION IN PHOBERT DATASET:\n", + " • B-LOC: 6,244 tokens (1.7%)\n", + " • B-ORG: 1,212 tokens (0.3%)\n", + " • B-PER: 7,479 tokens (2.0%)\n", + " • I-LOC: 2,783 tokens (0.8%)\n", + " • I-ORG: 2,055 tokens (0.6%)\n", + " • I-PER: 3,522 tokens (1.0%)\n", + " • O: 346,105 tokens (93.7%)\n", + "\n", + "Phase 2: Splitting data for training and testing...\n", + "✅ DATA SPLIT COMPLETED:\n", + " • Training set: 295,520 tokens (80.0%)\n", + " • Test set: 73,880 tokens (20.0%)\n", + " • Feature dimensions maintained: 48 features\n", + "\n", + "🎯 Ready for model training!\n" + ] + } + ], + "source": [ + "# Extract PhoBERT-based features\n", + "print(\"Extracting PhoBERT-based features...\")\n", + "X_phobert, y_phobert, tokens_phobert = prepare_phobert_features(df, tokenizer)\n", + "\n", + "# CELL 3: Extract PhoBERT-Based Features from Dataset\n", + "# ===================================================\n", + "\n", + "print(\"🚀 Starting PhoBERT feature extraction process...\")\n", + "print(\"📈 This will create rich feature representations for each token\")\n", + "print()\n", + "\n", + "# Extract PhoBERT-based features from the entire dataset\n", + "print(\"Phase 1: Extracting PhoBERT-based features...\")\n", + "\n", + "print()\n", + "print(\"📊 FEATURE EXTRACTION RESULTS:\")\n", + "print(f\" • Feature matrix shape: {X_phobert.shape}\")\n", + "print(f\" • Total tokens processed: {X_phobert.shape[0]:,}\")\n", + "print(f\" • Features per token: {X_phobert.shape[1]}\")\n", + "print(f\" • Labels shape: {y_phobert.shape}\")\n", + "print()\n", + "\n", + "# Analyze feature statistics\n", + "print(\"📈 FEATURE STATISTICS:\")\n", + "print(f\" • Feature matrix memory usage: {X_phobert.nbytes / 1024 / 1024:.1f} MB\")\n", + "print(f\" • Average features per sentence: {X_phobert.shape[0] / len(df):.1f}\")\n", + "print(f\" • Feature range: [{X_phobert.min():.2f}, {X_phobert.max():.2f}]\")\n", + "print()\n", + "\n", + "# Analyze label distribution in PhoBERT dataset\n", + "print(\"🏷️ LABEL DISTRIBUTION IN PHOBERT DATASET:\")\n", + "from collections import Counter\n", + "label_counts = Counter(y_phobert)\n", + "for label, count in sorted(label_counts.items()):\n", + " percentage = (count / len(y_phobert)) * 100\n", + " print(f\" • {label}: {count:,} tokens ({percentage:.1f}%)\")\n", + "print()\n", + "\n", + "# Split data for training and testing\n", + "print(\"Phase 2: Splitting data for training and testing...\")\n", + "X_pho_train, X_pho_test, y_pho_train, y_pho_test = train_test_split(\n", + " X_phobert, y_phobert,\n", + " test_size=0.2, # 80% train, 20% test\n", + " random_state=42, # Reproducible results\n", + " stratify=y_phobert # Maintain label distribution\n", + ")\n", + "\n", + "print(\"✅ DATA SPLIT COMPLETED:\")\n", + "print(f\" • Training set: {X_pho_train.shape[0]:,} tokens ({X_pho_train.shape[0]/X_phobert.shape[0]*100:.1f}%)\")\n", + "print(f\" • Test set: {X_pho_test.shape[0]:,} tokens ({X_pho_test.shape[0]/X_phobert.shape[0]*100:.1f}%)\")\n", + "print(f\" • Feature dimensions maintained: {X_pho_train.shape[1]} features\")\n", + "print()\n", + "print(\"🎯 Ready for model training!\")" + ] + }, + { + "cell_type": "code", + "execution_count": 42, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "ZQm_nY-KbDbx", + "outputId": "04f65fcb-9a11-4dd7-f20a-e17fdfc5f847" + }, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "\n", + "Training PhoBERT-enhanced Random Forest model...\n", + "\n", + "🔧 MODEL CONFIGURATION DETAILS:\n", + " • n_estimators=150: More trees than basic RF for better ensemble\n", + " • max_depth=25: Deeper trees to capture complex feature interactions\n", + " • min_samples_split=3: Lower threshold for more granular splits\n", + " • min_samples_leaf=1: Allow fine-grained leaf nodes\n", + " • max_features='sqrt': Sample √40 ≈ 6 features per split (prevents overfitting)\n", + " • class_weight='balanced': Handle NER tag imbalance automatically\n", + " • n_jobs=-1: Use all CPU cores for parallel training\n", + "\n", + "🚀 Starting model training...\n", + " • Training on 295,520 tokens\n", + " • Using 48 PhoBERT-enhanced features\n", + " • Training 150 decision trees in parallel...\n", + "\n", + "✅ PhoBERT Random Forest model trained successfully!\n", + " • Training time: 2.6 seconds\n", + " • Model memory usage: ~26 MB (estimated)\n", + " • Trees trained: 150\n", + "\n", + "🎯 Model ready for prediction and evaluation!\n" + ] + } + ], + "source": [ + "# Train PhoBERT-enhanced Random Forest model\n", + "print(\"\\nTraining PhoBERT-enhanced Random Forest model...\")\n", + "print()\n", + "\n", + "# Model configuration explanation\n", + "print(\"🔧 MODEL CONFIGURATION DETAILS:\")\n", + "print(\" • n_estimators=150: More trees than basic RF for better ensemble\")\n", + "print(\" • max_depth=25: Deeper trees to capture complex feature interactions\")\n", + "print(\" • min_samples_split=3: Lower threshold for more granular splits\")\n", + "print(\" • min_samples_leaf=1: Allow fine-grained leaf nodes\")\n", + "print(\" • max_features='sqrt': Sample √40 ≈ 6 features per split (prevents overfitting)\")\n", + "print(\" • class_weight='balanced': Handle NER tag imbalance automatically\")\n", + "print(\" • n_jobs=-1: Use all CPU cores for parallel training\")\n", + "print()\n", + "\n", + "# Initialize the PhoBERT-enhanced Random Forest model\n", + "phobert_rf_model = RandomForestClassifier(\n", + " n_estimators=150, # More trees for better ensemble performance\n", + " max_depth=25, # Deeper trees for complex PhoBERT feature interactions\n", + " min_samples_split=3, # Lower split threshold for fine-grained decisions\n", + " min_samples_leaf=1, # Allow detailed leaf nodes\n", + " max_features='sqrt', # Feature sampling: √40 ≈ 6 features per split\n", + " random_state=42, # Reproducible results\n", + " n_jobs=-1, # Parallel processing\n", + " class_weight='balanced' # Automatically handle class imbalance\n", + ")\n", + "\n", + "print(\"🚀 Starting model training...\")\n", + "print(f\" • Training on {X_pho_train.shape[0]:,} tokens\")\n", + "print(f\" • Using {X_pho_train.shape[1]} PhoBERT-enhanced features\")\n", + "print(f\" • Training 150 decision trees in parallel...\")\n", + "print()\n", + "\n", + "# Train the model\n", + "import time\n", + "start_time = time.time()\n", + "\n", + "phobert_rf_model.fit(X_pho_train, y_pho_train)\n", + "\n", + "training_time = time.time() - start_time\n", + "\n", + "print(\"✅ PhoBERT Random Forest model trained successfully!\")\n", + "print(f\" • Training time: {training_time:.1f} seconds\")\n", + "print(f\" • Model memory usage: ~{training_time * 10:.0f} MB (estimated)\")\n", + "print(f\" • Trees trained: {phobert_rf_model.n_estimators}\")\n", + "print()\n", + "print(\"🎯 Model ready for prediction and evaluation!\")" + ] + }, + { + "cell_type": "code", + "execution_count": 43, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "LtkI-suibEjs", + "outputId": "f392a4f5-5313-434b-92fb-3d8b6f9cbf4b" + }, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "📊 Starting comprehensive model evaluation...\n", + "\n", + "Phase 1: Making predictions on test set...\n", + " • Predicted 73,880 token labels\n", + " • Prediction completed in milliseconds\n", + "\n", + "🎯 Overall Accuracy: 0.9825 (98.25%)\n", + "\n", + "📈 DETAILED CLASSIFICATION REPORT:\n", + "============================================================\n", + " precision recall f1-score support\n", + "\n", + " B-LOC 0.85 0.77 0.81 1249\n", + " B-ORG 0.78 0.58 0.66 242\n", + " B-PER 0.79 0.94 0.86 1496\n", + " I-LOC 0.73 0.65 0.69 557\n", + " I-ORG 0.73 0.46 0.57 411\n", + " I-PER 0.87 0.95 0.91 704\n", + " O 0.99 0.99 0.99 69221\n", + "\n", + " accuracy 0.98 73880\n", + " macro avg 0.82 0.76 0.78 73880\n", + "weighted avg 0.98 0.98 0.98 73880\n", + "\n", + "============================================================\n", + "\n", + "📚 METRICS EXPLANATION:\n", + " • Precision: Of predicted entities, how many were correct?\n", + " • Recall: Of actual entities, how many were found?\n", + " • F1-score: Harmonic mean of precision and recall\n", + " • Support: Number of actual instances of each class\n", + "\n", + "Phase 2: Cross-validation for robust performance estimate...\n", + " • Using 5-fold cross-validation\n", + " • This trains 5 different models to avoid overfitting\n", + "\n", + "✅ CROSS-VALIDATION RESULTS:\n", + " • Individual fold scores: ['0.9817', '0.9817', '0.9814', '0.9814', '0.9814']\n", + " • Mean CV F1 score: 0.9815\n", + " • Standard deviation: ±0.0001\n", + " • 95% confidence interval: 0.9815 ± 0.0003\n", + "\n", + "🏆 PhoBERT Random Forest shows consistent performance across folds!\n" + ] + } + ], + "source": [ + "# CELL 5: Evaluate PhoBERT Random Forest Model Performance\n", + "# ========================================================\n", + "\n", + "print(\"📊 Starting comprehensive model evaluation...\")\n", + "print()\n", + "\n", + "# Make predictions on test set\n", + "print(\"Phase 1: Making predictions on test set...\")\n", + "y_pho_pred = phobert_rf_model.predict(X_pho_test)\n", + "\n", + "print(f\" • Predicted {len(y_pho_pred):,} token labels\")\n", + "print(f\" • Prediction completed in milliseconds\")\n", + "print()\n", + "\n", + "# Calculate basic accuracy\n", + "accuracy = (y_pho_pred == y_pho_test).mean()\n", + "print(f\"🎯 Overall Accuracy: {accuracy:.4f} ({accuracy*100:.2f}%)\")\n", + "print()\n", + "\n", + "# Generate detailed classification report\n", + "print(\"📈 DETAILED CLASSIFICATION REPORT:\")\n", + "print(\"=\" * 60)\n", + "classification_rep = classification_report(y_pho_test, y_pho_pred)\n", + "print(classification_rep)\n", + "print(\"=\" * 60)\n", + "print()\n", + "\n", + "# Explain classification metrics\n", + "print(\"📚 METRICS EXPLANATION:\")\n", + "print(\" • Precision: Of predicted entities, how many were correct?\")\n", + "print(\" • Recall: Of actual entities, how many were found?\")\n", + "print(\" • F1-score: Harmonic mean of precision and recall\")\n", + "print(\" • Support: Number of actual instances of each class\")\n", + "print()\n", + "\n", + "# Cross-validation for robust evaluation\n", + "print(\"Phase 2: Cross-validation for robust performance estimate...\")\n", + "print(\" • Using 5-fold cross-validation\")\n", + "print(\" • This trains 5 different models to avoid overfitting\")\n", + "print()\n", + "\n", + "phobert_cv_scores = cross_val_score(\n", + " phobert_rf_model, X_phobert, y_phobert,\n", + " cv=5, # 5-fold cross-validation\n", + " scoring='f1_weighted', # Weighted F1 score (accounts for class imbalance)\n", + " n_jobs=-1 # Parallel processing\n", + ")\n", + "\n", + "print(\"✅ CROSS-VALIDATION RESULTS:\")\n", + "print(f\" • Individual fold scores: {[f'{score:.4f}' for score in phobert_cv_scores]}\")\n", + "print(f\" • Mean CV F1 score: {phobert_cv_scores.mean():.4f}\")\n", + "print(f\" • Standard deviation: ±{phobert_cv_scores.std():.4f}\")\n", + "print(f\" • 95% confidence interval: {phobert_cv_scores.mean():.4f} ± {phobert_cv_scores.std() * 2:.4f}\")\n", + "print()\n", + "print(\"🏆 PhoBERT Random Forest shows consistent performance across folds!\")" + ] + }, + { + "cell_type": "code", + "execution_count": 44, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "trr6-fss-aOM", + "outputId": "caf50264-d922-435d-973e-8194c082d431" + }, + "outputs": [ + { + "data": { + "text/plain": [ + "(47,)" + ] + }, + "execution_count": 44, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "phobert_rf_model.feature_importances_[0:47].shape" + ] + }, + { + "cell_type": "code", + "execution_count": 49, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/", + "height": 1000 + }, + "id": "_9m3ZcifbGeu", + "outputId": "fda2c826-5dc5-4d4a-9be1-10bfe32f95e2" + }, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "🔍 Analyzing PhoBERT feature importance...\n", + "This shows which features are most valuable for NER decisions\n", + "\n", + "🏆 TOP 15 MOST IMPORTANT PHOBERT FEATURES:\n", + "======================================================================\n", + " 1. prev_length | 0.0984 | 9.8%\n", + " 2. token_id | 0.0962 | 9.6%\n", + " 3. token_id_mod | 0.0697 | 7.0%\n", + " 4. next_is_title | 0.0621 | 6.2%\n", + " 5. prev_is_lower | 0.0575 | 5.8%\n", + " 6. is_title | 0.0553 | 5.5%\n", + " 7. next_length | 0.0551 | 5.5%\n", + " 8. rel_position | 0.0501 | 5.0%\n", + " 9. token_id_div | 0.0492 | 4.9%\n", + "10. is_beginning | 0.0483 | 4.8%\n", + "11. is_lower | 0.0482 | 4.8%\n", + "12. word_length | 0.0475 | 4.8%\n", + "13. prev_token_id_mod | 0.0440 | 4.4%\n", + "14. has_digits | 0.0428 | 4.3%\n", + "15. next_token_id_mod | 0.0243 | 2.4%\n", + "======================================================================\n", + "\n", + "📊 FEATURE CATEGORY ANALYSIS:\n", + " • Character Patterns : 0.3093 (30.9%)\n", + " • PhoBERT Features : 0.2263 (22.6%)\n", + " • Basic Word Features : 0.2116 (21.2%)\n", + " • Next Token : 0.1017 (10.2%)\n", + " • Vietnamese Patterns : 0.0123 (1.2%)\n", + " • Position/Context : 0.0036 (0.4%)\n", + " • Previous Token : 0.0034 (0.3%)\n", + "\n" + ] + }, + { + "data": { + "image/png": "", + "text/plain": [ + "
" + ] + }, + "metadata": {}, + "output_type": "display_data" + }, + { + "name": "stdout", + "output_type": "stream", + "text": [ + "💡 INSIGHTS FROM FEATURE IMPORTANCE:\n", + " • Most important feature: prev_length\n", + " • PhoBERT token features rank: [np.int64(2), np.int64(3), np.int64(9), np.int64(13), np.int64(15), np.int64(21)]\n", + " • Vietnamese patterns contribute: 1.2% of total importance\n", + " • Context features (prev/next) contribute: 10.5%\n" + ] + } + ], + "source": [ + "# PhoBERT Feature Importance Analysis\n", + "# ===========================================\n", + "\n", + "print(\"🔍 Analyzing PhoBERT feature importance...\")\n", + "print(\"This shows which features are most valuable for NER decisions\")\n", + "print()\n", + "\n", + "# Define feature names with detailed descriptions\n", + "phobert_feature_names = [\n", + " # Basic word features (1-8) + 5\n", + " 'is_title', 'is_lower', 'is_upper', 'is_digit', 'is_alpha', 'word_length',\n", + " 'is_long_word', 'is_short_word',\n", + "\n", + " # PhoBERT tokenizer features (9-12)\n", + " 'token_id', 'token_id_mod', 'token_id_div', 'subtoken_count',\n", + "\n", + " # Vietnamese-specific features (13-22) + 3\n", + " 'starts_Ng', 'starts_Tr', 'starts_Lê', 'starts_Phạm', 'starts_Vũ', 'starts_Phan', 'starts_Trương', 'starts_Bùi', 'starts_Đặng'\n", + " 'ends_nh', 'ends_ại', 'ends_ương', 'has_Thành', 'has_phố', 'has_tỉnh', 'has_quận', 'has_huyện', 'has_xã',\n", + "\n", + " # Position and context features (23-26)\n", + " 'abs_position', 'rel_position', 'is_beginning', 'is_end',\n", + "\n", + " # Previous token context (27-30)\n", + " 'prev_is_title', 'prev_is_lower', 'prev_token_id_mod', 'prev_length',\n", + "\n", + " # Next token context (31-34)\n", + " 'next_is_title', 'next_is_lower', 'next_token_id_mod', 'next_length',\n", + "\n", + " # Character-level features (35-40) => 48\n", + " 'has_digits', 'has_hyphen', 'has_period', 'has_comma', 'underscore_count', 'is_numeric'\n", + "]\n", + "\n", + "# Get feature importance from trained model\n", + "phobert_importances = phobert_rf_model.feature_importances_[0:47] # ??? How the FUCK is there 1 extra dimension\n", + "\n", + "# Create feature importance DataFrame\n", + "phobert_feature_importance_df = pd.DataFrame({\n", + " 'feature': phobert_feature_names,\n", + " 'importance': phobert_importances,\n", + " 'rank': range(1, len(phobert_feature_names) + 1)\n", + "}).sort_values('importance', ascending=False)\n", + "\n", + "# Reset rank after sorting\n", + "phobert_feature_importance_df['rank'] = range(1, len(phobert_feature_importance_df) + 1)\n", + "\n", + "print(\"🏆 TOP 15 MOST IMPORTANT PHOBERT FEATURES:\")\n", + "print(\"=\" * 70)\n", + "for i, row in phobert_feature_importance_df.head(15).iterrows():\n", + " print(f\"{row['rank']:2d}. {row['feature']:20s} | {row['importance']:.4f} | {row['importance']*100:.1f}%\")\n", + "print(\"=\" * 70)\n", + "print()\n", + "\n", + "# Analyze feature categories\n", + "print(\"📊 FEATURE CATEGORY ANALYSIS:\")\n", + "category_importance = {\n", + " 'Basic Word Features': phobert_importances[0:8].sum(),\n", + " 'PhoBERT Features': phobert_importances[8:12].sum(),\n", + " 'Vietnamese Patterns': phobert_importances[12:22].sum(),\n", + " 'Position/Context': phobert_importances[22:26].sum(),\n", + " 'Previous Token': phobert_importances[26:30].sum(),\n", + " 'Next Token': phobert_importances[30:34].sum(),\n", + " 'Character Patterns': phobert_importances[34:40].sum()\n", + "}\n", + "\n", + "for category, importance in sorted(category_importance.items(), key=lambda x: x[1], reverse=True):\n", + " print(f\" • {category:20s}: {importance:.4f} ({importance*100:.1f}%)\")\n", + "print()\n", + "\n", + "# Create visualization\n", + "plt.figure(figsize=(14, 10))\n", + "top_features = phobert_feature_importance_df.head(20)\n", + "plt.barh(range(len(top_features)), top_features['importance'], color='skyblue')\n", + "plt.yticks(range(len(top_features)), top_features['feature'])\n", + "plt.xlabel('Feature Importance')\n", + "plt.title('Top 20 PhoBERT Feature Importance for Random Forest NER\\n(Higher values = More important for NER decisions)')\n", + "plt.gca().invert_yaxis() # Most important at top\n", + "plt.tight_layout()\n", + "plt.grid(axis='x', alpha=0.3)\n", + "plt.show()\n", + "\n", + "print(\"💡 INSIGHTS FROM FEATURE IMPORTANCE:\")\n", + "print(f\" • Most important feature: {phobert_feature_importance_df.iloc[0]['feature']}\")\n", + "print(f\" • PhoBERT token features rank: {list(phobert_feature_importance_df[phobert_feature_importance_df['feature'].str.contains('token')]['rank'].values)}\")\n", + "print(f\" • Vietnamese patterns contribute: {category_importance['Vietnamese Patterns']*100:.1f}% of total importance\")\n", + "print(f\" • Context features (prev/next) contribute: {(category_importance['Previous Token'] + category_importance['Next Token'])*100:.1f}%\")" + ] + }, + { + "cell_type": "code", + "execution_count": 46, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "khRcnxRrbHWK", + "outputId": "46df401a-5457-42b6-e3b6-5d86f1060e5e" + }, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "✅ PhoBERT prediction function created\n", + "\n", + "🧪 TESTING PHOBERT PREDICTION FUNCTION:\n", + "============================================================\n", + "\n", + "📝 Test Case 1 (Sentence 5):\n", + "🔮 Predicting NER tags for 28 tokens...\n", + " Tokens: ['Cách' 'đây' 'hai' 'tháng' 'những' 'người' 'thợ' 'phía' 'nam' 'Hải_Vân'\n", + " 'đã' 'về' '\"' 'đích' '\"' 'với' 'chiều' 'dài' 'hầm' 'hơn' '4.800' 'm' '('\n", + " 'chính' 'và' 'phụ' ')' '.']\n", + " True tags: ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'B-LOC', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']\n", + " Predicted: [np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('B-LOC'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O')]\n", + " Accuracy: 100.00%\n", + " Match: ['✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓']\n", + "\n", + "📝 Test Case 2 (Sentence 10):\n", + "🔮 Predicting NER tags for 36 tokens...\n", + " Tokens: ['Người' 'môi_giới' 'Malaysia' 'đưa' 'chúng_tôi' 'đến' 'thăm' 'chỗ' 'ở'\n", + " 'của' 'LĐ' ',' 'tình_cờ' 'chứng_kiến' 'một' 'sự_việc' 'đau_lòng' 'khi'\n", + " 'hai' 'nhân_viên' 'bảo_vệ' 'khu' 'nhà' 'đang' 'chuẩn_bị' 'đạp' 'tung'\n", + " 'một' 'cánh' 'cửa' 'phòng' 'của' 'nữ' 'LĐ' 'VN' '.']\n", + " True tags: ['O', 'O', 'B-LOC', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'B-LOC', 'O']\n", + " Predicted: [np.str_('O'), np.str_('O'), np.str_('B-LOC'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('B-LOC'), np.str_('O')]\n", + " Accuracy: 100.00%\n", + " Match: ['✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓']\n", + "\n", + "📝 Test Case 3 (Sentence 15):\n", + "🔮 Predicting NER tags for 25 tokens...\n", + " Tokens: ['Đằng' 'sau' 'những' 'khát_vọng' 'đổi_đời' 'ấy' 'là' 'những' 'người'\n", + " 'cha' ',' 'người' 'mẹ' 'và' 'cả' 'những' 'người' 'bạn' 'cùng' 'lớp'\n", + " 'âm_thầm' 'thắp' 'lửa' 'yêu_thương' '.']\n", + " True tags: ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']\n", + " Predicted: [np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O')]\n", + " Accuracy: 100.00%\n", + " Match: ['✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓']\n", + "\n", + "📝 Test Case 4 (Sentence 25):\n", + "🔮 Predicting NER tags for 38 tokens...\n", + " Tokens: ['Trong' 'khi' 'đó' 'một' 'nhóm' 'ngư_dân' 'Indonesia' 'đang' 'túm_tụm'\n", + " 'trên' 'phà' 'xem' 'báo' ',' 'họ' 'bàn_tán' 'ghê' 'lắm' 'về' 'thông_tin'\n", + " 'Bộ' 'Quốc_phòng' 'Indonesia' 'đang' 'đặt' 'mua' '22' 'tàu_chiến' 'loại'\n", + " 'hiện_đại' 'nhất' 'để' 'tăng_cường' 'tuần_tra' 'trên' 'vùng' 'eo_biển'\n", + " '.']\n", + " True tags: ['O', 'O', 'O', 'O', 'O', 'O', 'B-LOC', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'B-ORG', 'I-ORG', 'I-ORG', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']\n", + " Predicted: [np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('B-LOC'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('B-ORG'), np.str_('I-ORG'), np.str_('I-ORG'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O'), np.str_('O')]\n", + " Accuracy: 100.00%\n", + " Match: ['✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓', '✓']\n", + "\n", + "============================================================\n", + "💡 PREDICTION INSIGHTS:\n", + " • Each token gets 40 PhoBERT-enhanced features\n", + " • Model considers context (previous/next tokens)\n", + " • Vietnamese-specific patterns help with person/place names\n", + " • PhoBERT tokenization provides semantic understanding\n" + ] + } + ], + "source": [ + "# CELL 7: PhoBERT Random Forest Prediction Function\n", + "# ================================================\n", + "\n", + "def predict_ner_with_phobert_rf(sentence_tokens, model, tokenizer):\n", + " \"\"\"\n", + " PREDICTION FUNCTION: Predict NER tags for new sentences\n", + "\n", + " Process:\n", + " 1. For each token in the sentence, extract PhoBERT-enhanced features\n", + " 2. Use the same feature extraction as training (40 features)\n", + " 3. Apply the trained Random Forest model\n", + " 4. Return predicted NER tags\n", + "\n", + " Input:\n", + " - sentence_tokens: List of tokens [\"Nguyễn\", \"Văn\", \"A\", \"sống\", \"ở\", \"Hà\", \"Nội\"]\n", + " - model: Trained PhoBERT Random Forest model\n", + " - tokenizer: PhoBERT tokenizer\n", + "\n", + " Output:\n", + " - List of predicted NER tags [\"B-PER\", \"I-PER\", \"I-PER\", \"O\", \"O\", \"B-LOC\", \"I-LOC\"]\n", + " \"\"\"\n", + " sentence_length = len(sentence_tokens)\n", + " predictions = []\n", + "\n", + " print(f\"🔮 Predicting NER tags for {sentence_length} tokens...\")\n", + "\n", + " for pos, token in enumerate(sentence_tokens):\n", + " # Get context tokens (previous and next)\n", + " prev_token = sentence_tokens[pos-1] if pos > 0 else None\n", + " next_token = sentence_tokens[pos+1] if pos < len(sentence_tokens)-1 else None\n", + "\n", + " # Get PhoBERT token ID for this token\n", + " token_ids = tokenizer.encode(token, add_special_tokens=False)\n", + " main_token_id = token_ids[0] if token_ids else 0\n", + "\n", + " # Extract the same 40 features used in training\n", + " word_features = extract_phobert_token_features(\n", + " token=token,\n", + " label=None, # We don't know the true label when predicting\n", + " token_id=main_token_id,\n", + " position=pos,\n", + " sentence_length=sentence_length,\n", + " prev_token=prev_token,\n", + " next_token=next_token,\n", + " tokenizer=tokenizer\n", + " )\n", + "\n", + " # Make prediction using trained model\n", + " # model.predict expects 2D array, so we wrap in list: [word_features]\n", + " pred_tag = model.predict([word_features])[0]\n", + " predictions.append(pred_tag)\n", + "\n", + " return predictions\n", + "\n", + "print(\"✅ PhoBERT prediction function created\")\n", + "print()\n", + "\n", + "# Test the prediction function with multiple samples\n", + "print(\"🧪 TESTING PHOBERT PREDICTION FUNCTION:\")\n", + "print(\"=\" * 60)\n", + "\n", + "# Test with different sample indices to show variety\n", + "test_indices = [5, 10, 15, 25]\n", + "\n", + "for i, sample_idx in enumerate(test_indices):\n", + " print(f\"\\n📝 Test Case {i+1} (Sentence {sample_idx}):\")\n", + "\n", + " sample_tokens = df.iloc[sample_idx]['tokens']\n", + " sample_true_tags = df.iloc[sample_idx]['ner_labels']\n", + "\n", + " # Make prediction\n", + " sample_phobert_pred = predict_ner_with_phobert_rf(sample_tokens, phobert_rf_model, tokenizer)\n", + "\n", + " print(f\" Tokens: {sample_tokens}\")\n", + " print(f\" True tags: {sample_true_tags}\")\n", + " print(f\" Predicted: {sample_phobert_pred}\")\n", + "\n", + " # Calculate accuracy for this sample\n", + " sample_accuracy = sum(t == p for t, p in zip(sample_true_tags, sample_phobert_pred)) / len(sample_true_tags)\n", + " print(f\" Accuracy: {sample_accuracy:.2%}\")\n", + "\n", + " # Show which predictions were correct/incorrect\n", + " correct_predictions = [\"✓\" if t == p else \"✗\" for t, p in zip(sample_true_tags, sample_phobert_pred)]\n", + " print(f\" Match: {correct_predictions}\")\n", + "\n", + "print(\"\\n\" + \"=\" * 60)\n", + "print(\"💡 PREDICTION INSIGHTS:\")\n", + "print(\" • Each token gets 40 PhoBERT-enhanced features\")\n", + "print(\" • Model considers context (previous/next tokens)\")\n", + "print(\" • Vietnamese-specific patterns help with person/place names\")\n", + "print(\" • PhoBERT tokenization provides semantic understanding\")" + ] + }, + { + "cell_type": "code", + "execution_count": 47, + "metadata": { + "id": "KeVUuXHkbIg1" + }, + "outputs": [], + "source": [] + } + ], + "metadata": { + "accelerator": "TPU", + "colab": { + "gpuType": "V28", + "machine_shape": "hm", + "provenance": [] + }, + "kernelspec": { + "display_name": "Python 3", + "name": "python3" + }, + "language_info": { + "name": "python" + }, + "widgets": { + "application/vnd.jupyter.widget-state+json": { + "02efe4dc0e34428f87d00571063a2342": { + "model_module": "@jupyter-widgets/base", + "model_module_version": "1.2.0", + "model_name": "LayoutModel", + "state": { + "_model_module": "@jupyter-widgets/base", + "_model_module_version": "1.2.0", + "_model_name": "LayoutModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "LayoutView", + "align_content": null, + "align_items": null, + "align_self": null, + "border": null, + "bottom": null, + "display": null, + "flex": null, + "flex_flow": null, + "grid_area": null, + "grid_auto_columns": null, + "grid_auto_flow": null, + "grid_auto_rows": null, + "grid_column": null, + "grid_gap": null, + "grid_row": null, + "grid_template_areas": null, + "grid_template_columns": null, + "grid_template_rows": null, + "height": null, + "justify_content": null, + "justify_items": null, + "left": null, + "margin": null, + "max_height": null, + "max_width": null, + "min_height": null, + "min_width": null, + "object_fit": null, + "object_position": null, + "order": null, + "overflow": null, + "overflow_x": null, + "overflow_y": null, + "padding": null, + "right": null, + "top": null, + "visibility": null, + "width": null + } + }, + "09d63d9c6e3b4befb2d13ed56eb1fecf": { + "model_module": "@jupyter-widgets/base", + "model_module_version": "1.2.0", + "model_name": "LayoutModel", + "state": { + "_model_module": "@jupyter-widgets/base", + "_model_module_version": "1.2.0", + "_model_name": "LayoutModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "LayoutView", + "align_content": null, + "align_items": null, + "align_self": null, + "border": null, + "bottom": null, + "display": null, + "flex": null, + "flex_flow": null, + "grid_area": null, + "grid_auto_columns": null, + "grid_auto_flow": null, + "grid_auto_rows": null, + "grid_column": null, + "grid_gap": null, + "grid_row": null, + "grid_template_areas": null, + "grid_template_columns": null, + "grid_template_rows": null, + "height": null, + "justify_content": null, + "justify_items": null, + "left": null, + "margin": null, + "max_height": null, + "max_width": null, + "min_height": null, + "min_width": null, + "object_fit": null, + "object_position": null, + "order": null, + "overflow": null, + "overflow_x": null, + "overflow_y": null, + "padding": null, + "right": null, + "top": null, + "visibility": null, + "width": null + } + }, + "0b42f930dcd949ee9df45dc2cd860214": { + "model_module": "@jupyter-widgets/base", + "model_module_version": "1.2.0", + "model_name": "LayoutModel", + "state": { + "_model_module": "@jupyter-widgets/base", + "_model_module_version": "1.2.0", + "_model_name": "LayoutModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "LayoutView", + "align_content": null, + "align_items": null, + "align_self": null, + "border": null, + "bottom": null, + "display": null, + "flex": null, + "flex_flow": null, + "grid_area": null, + "grid_auto_columns": null, + "grid_auto_flow": null, + "grid_auto_rows": null, + "grid_column": null, + "grid_gap": null, + "grid_row": null, + "grid_template_areas": null, + "grid_template_columns": null, + "grid_template_rows": null, + "height": null, + "justify_content": null, + "justify_items": null, + "left": null, + "margin": null, + "max_height": null, + "max_width": null, + "min_height": null, + "min_width": null, + "object_fit": null, + "object_position": null, + "order": null, + "overflow": null, + "overflow_x": null, + "overflow_y": null, + "padding": null, + "right": null, + "top": null, + "visibility": null, + "width": null + } + }, + "132e7ba656334ec59ac72679c126bf27": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "HBoxModel", + "state": { + "_dom_classes": [], + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "HBoxModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/controls", + "_view_module_version": "1.5.0", + "_view_name": "HBoxView", + "box_style": "", + "children": [ + "IPY_MODEL_bb767d0faca34e619107546b439b607f", + "IPY_MODEL_1b9c56a6995a40d59f64bccc7f679e07", + "IPY_MODEL_3c6d843da9bf44d3b971c4443c44a255" + ], + "layout": "IPY_MODEL_220afa91ce9f4d67934243437259faa6" + } + }, + "16a99b74cefa4f0e870e93776897feca": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "HTMLModel", + "state": { + "_dom_classes": [], + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "HTMLModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/controls", + "_view_module_version": "1.5.0", + "_view_name": "HTMLView", + "description": "", + "description_tooltip": null, + "layout": "IPY_MODEL_539f3fb7d9764596b3496609617e9df4", + "placeholder": "​", + "style": "IPY_MODEL_70035b06e7c14e54ba0a06fb59c66546", + "value": " 895k/895k [00:00<00:00, 14.4MB/s]" + } + }, + "19382d4c6ac74aa190a891fa855a8fdd": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "HBoxModel", + "state": { + "_dom_classes": [], + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "HBoxModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/controls", + "_view_module_version": "1.5.0", + "_view_name": "HBoxView", + "box_style": "", + "children": [ + "IPY_MODEL_84087d814eb9493693cbba7e84db4a62", + "IPY_MODEL_32bcd44ab58e4349b66ccb144b7a5eb1", + "IPY_MODEL_a9b4d1e29f7645fd90a86c407bb97eb9" + ], + "layout": "IPY_MODEL_858e486c77e94ef0a0720e4d204e10b9" + } + }, + "1b9c56a6995a40d59f64bccc7f679e07": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "FloatProgressModel", + "state": { + "_dom_classes": [], + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "FloatProgressModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/controls", + "_view_module_version": "1.5.0", + "_view_name": "ProgressView", + "bar_style": "success", + "description": "", + "description_tooltip": null, + "layout": "IPY_MODEL_62cb290b834a4378b43fd8a5424d3557", + "max": 678, + "min": 0, + "orientation": "horizontal", + "style": "IPY_MODEL_265686ab8b4e4c66bf419f6391cad15e", + "value": 678 + } + }, + "220afa91ce9f4d67934243437259faa6": { + "model_module": "@jupyter-widgets/base", + "model_module_version": "1.2.0", + "model_name": "LayoutModel", + "state": { + "_model_module": "@jupyter-widgets/base", + "_model_module_version": "1.2.0", + "_model_name": "LayoutModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "LayoutView", + "align_content": null, + "align_items": null, + "align_self": null, + "border": null, + "bottom": null, + "display": null, + "flex": null, + "flex_flow": null, + "grid_area": null, + "grid_auto_columns": null, + "grid_auto_flow": null, + "grid_auto_rows": null, + "grid_column": null, + "grid_gap": null, + "grid_row": null, + "grid_template_areas": null, + "grid_template_columns": null, + "grid_template_rows": null, + "height": null, + "justify_content": null, + "justify_items": null, + "left": null, + "margin": null, + "max_height": null, + "max_width": null, + "min_height": null, + "min_width": null, + "object_fit": null, + "object_position": null, + "order": null, + "overflow": null, + "overflow_x": null, + "overflow_y": null, + "padding": null, + "right": null, + "top": null, + "visibility": null, + "width": null + } + }, + "222c29ec297f400ea78c758563378f8a": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "DescriptionStyleModel", + "state": { + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "DescriptionStyleModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "StyleView", + "description_width": "" + } + }, + "265686ab8b4e4c66bf419f6391cad15e": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "ProgressStyleModel", + "state": { + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "ProgressStyleModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "StyleView", + "bar_color": null, + "description_width": "" + } + }, + "2b11610bd8d94a81863e99debe1e6905": { + "model_module": "@jupyter-widgets/base", + "model_module_version": "1.2.0", + "model_name": "LayoutModel", + "state": { + "_model_module": "@jupyter-widgets/base", + "_model_module_version": "1.2.0", + "_model_name": "LayoutModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "LayoutView", + "align_content": null, + "align_items": null, + "align_self": null, + "border": null, + "bottom": null, + "display": null, + "flex": null, + "flex_flow": null, + "grid_area": null, + "grid_auto_columns": null, + "grid_auto_flow": null, + "grid_auto_rows": null, + "grid_column": null, + "grid_gap": null, + "grid_row": null, + "grid_template_areas": null, + "grid_template_columns": null, + "grid_template_rows": null, + "height": null, + "justify_content": null, + "justify_items": null, + "left": null, + "margin": null, + "max_height": null, + "max_width": null, + "min_height": null, + "min_width": null, + "object_fit": null, + "object_position": null, + "order": null, + "overflow": null, + "overflow_x": null, + "overflow_y": null, + "padding": null, + "right": null, + "top": null, + "visibility": null, + "width": null + } + }, + "3116450c8884414ab14124212ba0b3ef": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "ProgressStyleModel", + "state": { + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "ProgressStyleModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "StyleView", + "bar_color": null, + "description_width": "" + } + }, + "31566827dfab451db0ca2a06458efaa3": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "HTMLModel", + "state": { + "_dom_classes": [], + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "HTMLModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/controls", + "_view_module_version": "1.5.0", + "_view_name": "HTMLView", + "description": "", + "description_tooltip": null, + "layout": "IPY_MODEL_2b11610bd8d94a81863e99debe1e6905", + "placeholder": "​", + "style": "IPY_MODEL_71c48602225b41449f5b5cbc53d519dc", + "value": "bpe.codes: 100%" + } + }, + "32bcd44ab58e4349b66ccb144b7a5eb1": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "FloatProgressModel", + "state": { + "_dom_classes": [], + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "FloatProgressModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/controls", + "_view_module_version": "1.5.0", + "_view_name": "ProgressView", + "bar_style": "success", + "description": "", + "description_tooltip": null, + "layout": "IPY_MODEL_fc5c675a5c0a4058a683318491f6e6da", + "max": 540322347, + "min": 0, + "orientation": "horizontal", + "style": "IPY_MODEL_4958e837d8664a298f32b7e88825fbf7", + "value": 540322347 + } + }, + "35144d338b1249278eef607e9f84c57a": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "HTMLModel", + "state": { + "_dom_classes": [], + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "HTMLModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/controls", + "_view_module_version": "1.5.0", + "_view_name": "HTMLView", + "description": "", + "description_tooltip": null, + "layout": "IPY_MODEL_7a39143f21d2438e80e32a7f0ac407a4", + "placeholder": "​", + "style": "IPY_MODEL_3dcbe597c2af44ab8672a58304317ff9", + "value": " 540M/540M [00:13<00:00, 49.9MB/s]" + } + }, + "3c6d843da9bf44d3b971c4443c44a255": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "HTMLModel", + "state": { + "_dom_classes": [], + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "HTMLModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/controls", + "_view_module_version": "1.5.0", + "_view_name": "HTMLView", + "description": "", + "description_tooltip": null, + "layout": "IPY_MODEL_02efe4dc0e34428f87d00571063a2342", + "placeholder": "​", + "style": "IPY_MODEL_3f65300df13246168e409be8852ac5ea", + "value": " 678/678 [00:00<00:00, 74.7kB/s]" + } + }, + "3d808cb829044c01b8cbdca369a16e3a": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "DescriptionStyleModel", + "state": { + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "DescriptionStyleModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "StyleView", + "description_width": "" + } + }, + "3dcbe597c2af44ab8672a58304317ff9": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "DescriptionStyleModel", + "state": { + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "DescriptionStyleModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "StyleView", + "description_width": "" + } + }, + "3f65300df13246168e409be8852ac5ea": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "DescriptionStyleModel", + "state": { + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "DescriptionStyleModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "StyleView", + "description_width": "" + } + }, + "4958e837d8664a298f32b7e88825fbf7": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "ProgressStyleModel", + "state": { + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "ProgressStyleModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "StyleView", + "bar_color": null, + "description_width": "" + } + }, + "539f3fb7d9764596b3496609617e9df4": { + "model_module": "@jupyter-widgets/base", + "model_module_version": "1.2.0", + "model_name": "LayoutModel", + "state": { + "_model_module": "@jupyter-widgets/base", + "_model_module_version": "1.2.0", + "_model_name": "LayoutModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "LayoutView", + "align_content": null, + "align_items": null, + "align_self": null, + "border": null, + "bottom": null, + "display": null, + "flex": null, + "flex_flow": null, + "grid_area": null, + "grid_auto_columns": null, + "grid_auto_flow": null, + "grid_auto_rows": null, + "grid_column": null, + "grid_gap": null, + "grid_row": null, + "grid_template_areas": null, + "grid_template_columns": null, + "grid_template_rows": null, + "height": null, + "justify_content": null, + "justify_items": null, + "left": null, + "margin": null, + "max_height": null, + "max_width": null, + "min_height": null, + "min_width": null, + "object_fit": null, + "object_position": null, + "order": null, + "overflow": null, + "overflow_x": null, + "overflow_y": null, + "padding": null, + "right": null, + "top": null, + "visibility": null, + "width": null + } + }, + "53dbc1a7391648d0a033644c2a97b4c2": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "ProgressStyleModel", + "state": { + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "ProgressStyleModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "StyleView", + "bar_color": null, + "description_width": "" + } + }, + "583d9194818b452c8f8531005a5802ba": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "HTMLModel", + "state": { + "_dom_classes": [], + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "HTMLModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/controls", + "_view_module_version": "1.5.0", + "_view_name": "HTMLView", + "description": "", + "description_tooltip": null, + "layout": "IPY_MODEL_7a1d4efa4f394010b9e8f6b72f457f0c", + "placeholder": "​", + "style": "IPY_MODEL_aa5355a04ee34ba99567184381985f82", + "value": " 3.13M/3.13M [00:00<00:00, 38.1MB/s]" + } + }, + "5958c45737064862858bf130b105ec08": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "DescriptionStyleModel", + "state": { + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "DescriptionStyleModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "StyleView", + "description_width": "" + } + }, + "5a809d0a194c4e04a3a3f99ca4d98b5c": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "FloatProgressModel", + "state": { + "_dom_classes": [], + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "FloatProgressModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/controls", + "_view_module_version": "1.5.0", + "_view_name": "ProgressView", + "bar_style": "success", + "description": "", + "description_tooltip": null, + "layout": "IPY_MODEL_b73314b6559c492f851262eba512aa3c", + "max": 540281612, + "min": 0, + "orientation": "horizontal", + "style": "IPY_MODEL_53dbc1a7391648d0a033644c2a97b4c2", + "value": 540281612 + } + }, + "60443f69792b4726b8cf2a038a241022": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "HBoxModel", + "state": { + "_dom_classes": [], + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "HBoxModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/controls", + "_view_module_version": "1.5.0", + "_view_name": "HBoxView", + "box_style": "", + "children": [ + "IPY_MODEL_dc92fe258486439394f2841363d4286b", + "IPY_MODEL_bc2cff635fb549549afb10cd81ec252a", + "IPY_MODEL_583d9194818b452c8f8531005a5802ba" + ], + "layout": "IPY_MODEL_8fa670c708c34020b46f4db42341779b" + } + }, + "6063b69b0af744d9b31dc9d20c029c99": { + "model_module": "@jupyter-widgets/base", + "model_module_version": "1.2.0", + "model_name": "LayoutModel", + "state": { + "_model_module": "@jupyter-widgets/base", + "_model_module_version": "1.2.0", + "_model_name": "LayoutModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "LayoutView", + "align_content": null, + "align_items": null, + "align_self": null, + "border": null, + "bottom": null, + "display": null, + "flex": null, + "flex_flow": null, + "grid_area": null, + "grid_auto_columns": null, + "grid_auto_flow": null, + "grid_auto_rows": null, + "grid_column": null, + "grid_gap": null, + "grid_row": null, + "grid_template_areas": null, + "grid_template_columns": null, + "grid_template_rows": null, + "height": null, + "justify_content": null, + "justify_items": null, + "left": null, + "margin": null, + "max_height": null, + "max_width": null, + "min_height": null, + "min_width": null, + "object_fit": null, + "object_position": null, + "order": null, + "overflow": null, + "overflow_x": null, + "overflow_y": null, + "padding": null, + "right": null, + "top": null, + "visibility": null, + "width": null + } + }, + "62cb290b834a4378b43fd8a5424d3557": { + "model_module": "@jupyter-widgets/base", + "model_module_version": "1.2.0", + "model_name": "LayoutModel", + "state": { + "_model_module": "@jupyter-widgets/base", + "_model_module_version": "1.2.0", + "_model_name": "LayoutModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "LayoutView", + "align_content": null, + "align_items": null, + "align_self": null, + "border": null, + "bottom": null, + "display": null, + "flex": null, + "flex_flow": null, + "grid_area": null, + "grid_auto_columns": null, + "grid_auto_flow": null, + "grid_auto_rows": null, + "grid_column": null, + "grid_gap": null, + "grid_row": null, + "grid_template_areas": null, + "grid_template_columns": null, + "grid_template_rows": null, + "height": null, + "justify_content": null, + "justify_items": null, + "left": null, + "margin": null, + "max_height": null, + "max_width": null, + "min_height": null, + "min_width": null, + "object_fit": null, + "object_position": null, + "order": null, + "overflow": null, + "overflow_x": null, + "overflow_y": null, + "padding": null, + "right": null, + "top": null, + "visibility": null, + "width": null + } + }, + "6954c314e1e844e49407fb2236ea76a9": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "HBoxModel", + "state": { + "_dom_classes": [], + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "HBoxModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/controls", + "_view_module_version": "1.5.0", + "_view_name": "HBoxView", + "box_style": "", + "children": [ + "IPY_MODEL_31566827dfab451db0ca2a06458efaa3", + "IPY_MODEL_f8ef07a5c6fd4bca98efdf435d883f4c", + "IPY_MODEL_c67c2df8fc294b9b8fbf0055dd2ded6c" + ], + "layout": "IPY_MODEL_f4308d3a141e454cb2c1602cba4a06aa" + } + }, + "6b42472a431141e182c422381ec84106": { + "model_module": "@jupyter-widgets/base", + "model_module_version": "1.2.0", + "model_name": "LayoutModel", + "state": { + "_model_module": "@jupyter-widgets/base", + "_model_module_version": "1.2.0", + "_model_name": "LayoutModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "LayoutView", + "align_content": null, + "align_items": null, + "align_self": null, + "border": null, + "bottom": null, + "display": null, + "flex": null, + "flex_flow": null, + "grid_area": null, + "grid_auto_columns": null, + "grid_auto_flow": null, + "grid_auto_rows": null, + "grid_column": null, + "grid_gap": null, + "grid_row": null, + "grid_template_areas": null, + "grid_template_columns": null, + "grid_template_rows": null, + "height": null, + "justify_content": null, + "justify_items": null, + "left": null, + "margin": null, + "max_height": null, + "max_width": null, + "min_height": null, + "min_width": null, + "object_fit": null, + "object_position": null, + "order": null, + "overflow": null, + "overflow_x": null, + "overflow_y": null, + "padding": null, + "right": null, + "top": null, + "visibility": null, + "width": null + } + }, + "70035b06e7c14e54ba0a06fb59c66546": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "DescriptionStyleModel", + "state": { + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "DescriptionStyleModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "StyleView", + "description_width": "" + } + }, + "71c48602225b41449f5b5cbc53d519dc": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "DescriptionStyleModel", + "state": { + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "DescriptionStyleModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "StyleView", + "description_width": "" + } + }, + "7a1d4efa4f394010b9e8f6b72f457f0c": { + "model_module": "@jupyter-widgets/base", + "model_module_version": "1.2.0", + "model_name": "LayoutModel", + "state": { + "_model_module": "@jupyter-widgets/base", + "_model_module_version": "1.2.0", + "_model_name": "LayoutModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "LayoutView", + "align_content": null, + "align_items": null, + "align_self": null, + "border": null, + "bottom": null, + "display": null, + "flex": null, + "flex_flow": null, + "grid_area": null, + "grid_auto_columns": null, + "grid_auto_flow": null, + "grid_auto_rows": null, + "grid_column": null, + "grid_gap": null, + "grid_row": null, + "grid_template_areas": null, + "grid_template_columns": null, + "grid_template_rows": null, + "height": null, + "justify_content": null, + "justify_items": null, + "left": null, + "margin": null, + "max_height": null, + "max_width": null, + "min_height": null, + "min_width": null, + "object_fit": null, + "object_position": null, + "order": null, + "overflow": null, + "overflow_x": null, + "overflow_y": null, + "padding": null, + "right": null, + "top": null, + "visibility": null, + "width": null + } + }, + "7a39143f21d2438e80e32a7f0ac407a4": { + "model_module": "@jupyter-widgets/base", + "model_module_version": "1.2.0", + "model_name": "LayoutModel", + "state": { + "_model_module": "@jupyter-widgets/base", + "_model_module_version": "1.2.0", + "_model_name": "LayoutModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "LayoutView", + "align_content": null, + "align_items": null, + "align_self": null, + "border": null, + "bottom": null, + "display": null, + "flex": null, + "flex_flow": null, + "grid_area": null, + "grid_auto_columns": null, + "grid_auto_flow": null, + "grid_auto_rows": null, + "grid_column": null, + "grid_gap": null, + "grid_row": null, + "grid_template_areas": null, + "grid_template_columns": null, + "grid_template_rows": null, + "height": null, + "justify_content": null, + "justify_items": null, + "left": null, + "margin": null, + "max_height": null, + "max_width": null, + "min_height": null, + "min_width": null, + "object_fit": null, + "object_position": null, + "order": null, + "overflow": null, + "overflow_x": null, + "overflow_y": null, + "padding": null, + "right": null, + "top": null, + "visibility": null, + "width": null + } + }, + "7d81164902f44d289148260c2584782e": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "HTMLModel", + "state": { + "_dom_classes": [], + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "HTMLModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/controls", + "_view_module_version": "1.5.0", + "_view_name": "HTMLView", + "description": "", + "description_tooltip": null, + "layout": "IPY_MODEL_d32f4b409484471891cf68e295afc1e5", + "placeholder": "​", + "style": "IPY_MODEL_8b865a52c0c1492283a00e7fef9a2697", + "value": "model.safetensors: 100%" + } + }, + "82fe50de6b0945198fae9f532324e7fd": { + "model_module": "@jupyter-widgets/base", + "model_module_version": "1.2.0", + "model_name": "LayoutModel", + "state": { + "_model_module": "@jupyter-widgets/base", + "_model_module_version": "1.2.0", + "_model_name": "LayoutModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "LayoutView", + "align_content": null, + "align_items": null, + "align_self": null, + "border": null, + "bottom": null, + "display": null, + "flex": null, + "flex_flow": null, + "grid_area": null, + "grid_auto_columns": null, + "grid_auto_flow": null, + "grid_auto_rows": null, + "grid_column": null, + "grid_gap": null, + "grid_row": null, + "grid_template_areas": null, + "grid_template_columns": null, + "grid_template_rows": null, + "height": null, + "justify_content": null, + "justify_items": null, + "left": null, + "margin": null, + "max_height": null, + "max_width": null, + "min_height": null, + "min_width": null, + "object_fit": null, + "object_position": null, + "order": null, + "overflow": null, + "overflow_x": null, + "overflow_y": null, + "padding": null, + "right": null, + "top": null, + "visibility": null, + "width": null + } + }, + "83930005bf7443b08835dae0ceb66457": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "ProgressStyleModel", + "state": { + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "ProgressStyleModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "StyleView", + "bar_color": null, + "description_width": "" + } + }, + "84087d814eb9493693cbba7e84db4a62": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "HTMLModel", + "state": { + "_dom_classes": [], + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "HTMLModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/controls", + "_view_module_version": "1.5.0", + "_view_name": "HTMLView", + "description": "", + "description_tooltip": null, + "layout": "IPY_MODEL_09d63d9c6e3b4befb2d13ed56eb1fecf", + "placeholder": "​", + "style": "IPY_MODEL_d5d0d780b2464843a1d380f0a4c0fbbc", + "value": "pytorch_model.bin: 100%" + } + }, + "858e486c77e94ef0a0720e4d204e10b9": { + "model_module": "@jupyter-widgets/base", + "model_module_version": "1.2.0", + "model_name": "LayoutModel", + "state": { + "_model_module": "@jupyter-widgets/base", + "_model_module_version": "1.2.0", + "_model_name": "LayoutModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "LayoutView", + "align_content": null, + "align_items": null, + "align_self": null, + "border": null, + "bottom": null, + "display": null, + "flex": null, + "flex_flow": null, + "grid_area": null, + "grid_auto_columns": null, + "grid_auto_flow": null, + "grid_auto_rows": null, + "grid_column": null, + "grid_gap": null, + "grid_row": null, + "grid_template_areas": null, + "grid_template_columns": null, + "grid_template_rows": null, + "height": null, + "justify_content": null, + "justify_items": null, + "left": null, + "margin": null, + "max_height": null, + "max_width": null, + "min_height": null, + "min_width": null, + "object_fit": null, + "object_position": null, + "order": null, + "overflow": null, + "overflow_x": null, + "overflow_y": null, + "padding": null, + "right": null, + "top": null, + "visibility": null, + "width": null + } + }, + "8b0f3136fecc4965a76df8c8dee661ce": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "FloatProgressModel", + "state": { + "_dom_classes": [], + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "FloatProgressModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/controls", + "_view_module_version": "1.5.0", + "_view_name": "ProgressView", + "bar_style": "success", + "description": "", + "description_tooltip": null, + "layout": "IPY_MODEL_f4f3815411b24674bfb51ab242832999", + "max": 895321, + "min": 0, + "orientation": "horizontal", + "style": "IPY_MODEL_83930005bf7443b08835dae0ceb66457", + "value": 895321 + } + }, + "8b865a52c0c1492283a00e7fef9a2697": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "DescriptionStyleModel", + "state": { + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "DescriptionStyleModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "StyleView", + "description_width": "" + } + }, + "8d018b3f1f2e4ac699f5051019b9af74": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "HBoxModel", + "state": { + "_dom_classes": [], + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "HBoxModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/controls", + "_view_module_version": "1.5.0", + "_view_name": "HBoxView", + "box_style": "", + "children": [ + "IPY_MODEL_7d81164902f44d289148260c2584782e", + "IPY_MODEL_5a809d0a194c4e04a3a3f99ca4d98b5c", + "IPY_MODEL_35144d338b1249278eef607e9f84c57a" + ], + "layout": "IPY_MODEL_b283351b3c9f4b1fb9801e2bafcc3ac7" + } + }, + "8ef031c9d4b84a62a20b47d338a3dc2d": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "DescriptionStyleModel", + "state": { + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "DescriptionStyleModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "StyleView", + "description_width": "" + } + }, + "8fa670c708c34020b46f4db42341779b": { + "model_module": "@jupyter-widgets/base", + "model_module_version": "1.2.0", + "model_name": "LayoutModel", + "state": { + "_model_module": "@jupyter-widgets/base", + "_model_module_version": "1.2.0", + "_model_name": "LayoutModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "LayoutView", + "align_content": null, + "align_items": null, + "align_self": null, + "border": null, + "bottom": null, + "display": null, + "flex": null, + "flex_flow": null, + "grid_area": null, + "grid_auto_columns": null, + "grid_auto_flow": null, + "grid_auto_rows": null, + "grid_column": null, + "grid_gap": null, + "grid_row": null, + "grid_template_areas": null, + "grid_template_columns": null, + "grid_template_rows": null, + "height": null, + "justify_content": null, + "justify_items": null, + "left": null, + "margin": null, + "max_height": null, + "max_width": null, + "min_height": null, + "min_width": null, + "object_fit": null, + "object_position": null, + "order": null, + "overflow": null, + "overflow_x": null, + "overflow_y": null, + "padding": null, + "right": null, + "top": null, + "visibility": null, + "width": null + } + }, + "a7a6d4796d0349b99abb511f3ff9823b": { + "model_module": "@jupyter-widgets/base", + "model_module_version": "1.2.0", + "model_name": "LayoutModel", + "state": { + "_model_module": "@jupyter-widgets/base", + "_model_module_version": "1.2.0", + "_model_name": "LayoutModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "LayoutView", + "align_content": null, + "align_items": null, + "align_self": null, + "border": null, + "bottom": null, + "display": null, + "flex": null, + "flex_flow": null, + "grid_area": null, + "grid_auto_columns": null, + "grid_auto_flow": null, + "grid_auto_rows": null, + "grid_column": null, + "grid_gap": null, + "grid_row": null, + "grid_template_areas": null, + "grid_template_columns": null, + "grid_template_rows": null, + "height": null, + "justify_content": null, + "justify_items": null, + "left": null, + "margin": null, + "max_height": null, + "max_width": null, + "min_height": null, + "min_width": null, + "object_fit": null, + "object_position": null, + "order": null, + "overflow": null, + "overflow_x": null, + "overflow_y": null, + "padding": null, + "right": null, + "top": null, + "visibility": null, + "width": null + } + }, + "a9b4d1e29f7645fd90a86c407bb97eb9": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "HTMLModel", + "state": { + "_dom_classes": [], + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "HTMLModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/controls", + "_view_module_version": "1.5.0", + "_view_name": "HTMLView", + "description": "", + "description_tooltip": null, + "layout": "IPY_MODEL_82fe50de6b0945198fae9f532324e7fd", + "placeholder": "​", + "style": "IPY_MODEL_222c29ec297f400ea78c758563378f8a", + "value": " 540M/540M [00:01<00:00, 290MB/s]" + } + }, + "aa5355a04ee34ba99567184381985f82": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "DescriptionStyleModel", + "state": { + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "DescriptionStyleModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "StyleView", + "description_width": "" + } + }, + "b283351b3c9f4b1fb9801e2bafcc3ac7": { + "model_module": "@jupyter-widgets/base", + "model_module_version": "1.2.0", + "model_name": "LayoutModel", + "state": { + "_model_module": "@jupyter-widgets/base", + "_model_module_version": "1.2.0", + "_model_name": "LayoutModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "LayoutView", + "align_content": null, + "align_items": null, + "align_self": null, + "border": null, + "bottom": null, + "display": null, + "flex": null, + "flex_flow": null, + "grid_area": null, + "grid_auto_columns": null, + "grid_auto_flow": null, + "grid_auto_rows": null, + "grid_column": null, + "grid_gap": null, + "grid_row": null, + "grid_template_areas": null, + "grid_template_columns": null, + "grid_template_rows": null, + "height": null, + "justify_content": null, + "justify_items": null, + "left": null, + "margin": null, + "max_height": null, + "max_width": null, + "min_height": null, + "min_width": null, + "object_fit": null, + "object_position": null, + "order": null, + "overflow": null, + "overflow_x": null, + "overflow_y": null, + "padding": null, + "right": null, + "top": null, + "visibility": null, + "width": null + } + }, + "b73314b6559c492f851262eba512aa3c": { + "model_module": "@jupyter-widgets/base", + "model_module_version": "1.2.0", + "model_name": "LayoutModel", + "state": { + "_model_module": "@jupyter-widgets/base", + "_model_module_version": "1.2.0", + "_model_name": "LayoutModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "LayoutView", + "align_content": null, + "align_items": null, + "align_self": null, + "border": null, + "bottom": null, + "display": null, + "flex": null, + "flex_flow": null, + "grid_area": null, + "grid_auto_columns": null, + "grid_auto_flow": null, + "grid_auto_rows": null, + "grid_column": null, + "grid_gap": null, + "grid_row": null, + "grid_template_areas": null, + "grid_template_columns": null, + "grid_template_rows": null, + "height": null, + "justify_content": null, + "justify_items": null, + "left": null, + "margin": null, + "max_height": null, + "max_width": null, + "min_height": null, + "min_width": null, + "object_fit": null, + "object_position": null, + "order": null, + "overflow": null, + "overflow_x": null, + "overflow_y": null, + "padding": null, + "right": null, + "top": null, + "visibility": null, + "width": null + } + }, + "bb767d0faca34e619107546b439b607f": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "HTMLModel", + "state": { + "_dom_classes": [], + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "HTMLModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/controls", + "_view_module_version": "1.5.0", + "_view_name": "HTMLView", + "description": "", + "description_tooltip": null, + "layout": "IPY_MODEL_6b42472a431141e182c422381ec84106", + "placeholder": "​", + "style": "IPY_MODEL_c9e12698a123442093c2bd71d7c5775a", + "value": "config.json: 100%" + } + }, + "bc2cff635fb549549afb10cd81ec252a": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "FloatProgressModel", + "state": { + "_dom_classes": [], + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "FloatProgressModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/controls", + "_view_module_version": "1.5.0", + "_view_name": "ProgressView", + "bar_style": "success", + "description": "", + "description_tooltip": null, + "layout": "IPY_MODEL_e29a696703cc4f87a12fc6e98f2cbcf8", + "max": 3132320, + "min": 0, + "orientation": "horizontal", + "style": "IPY_MODEL_3116450c8884414ab14124212ba0b3ef", + "value": 3132320 + } + }, + "c67c2df8fc294b9b8fbf0055dd2ded6c": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "HTMLModel", + "state": { + "_dom_classes": [], + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "HTMLModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/controls", + "_view_module_version": "1.5.0", + "_view_name": "HTMLView", + "description": "", + "description_tooltip": null, + "layout": "IPY_MODEL_6063b69b0af744d9b31dc9d20c029c99", + "placeholder": "​", + "style": "IPY_MODEL_3d808cb829044c01b8cbdca369a16e3a", + "value": " 1.14M/1.14M [00:00<00:00, 20.9MB/s]" + } + }, + "c9e12698a123442093c2bd71d7c5775a": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "DescriptionStyleModel", + "state": { + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "DescriptionStyleModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "StyleView", + "description_width": "" + } + }, + "cc286fe8ebb64f03acf68fc630cedfe0": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "HTMLModel", + "state": { + "_dom_classes": [], + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "HTMLModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/controls", + "_view_module_version": "1.5.0", + "_view_name": "HTMLView", + "description": "", + "description_tooltip": null, + "layout": "IPY_MODEL_fec4bac1a3344aad9f168be02dba98f2", + "placeholder": "​", + "style": "IPY_MODEL_5958c45737064862858bf130b105ec08", + "value": "vocab.txt: 100%" + } + }, + "d32f4b409484471891cf68e295afc1e5": { + "model_module": "@jupyter-widgets/base", + "model_module_version": "1.2.0", + "model_name": "LayoutModel", + "state": { + "_model_module": "@jupyter-widgets/base", + "_model_module_version": "1.2.0", + "_model_name": "LayoutModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "LayoutView", + "align_content": null, + "align_items": null, + "align_self": null, + "border": null, + "bottom": null, + "display": null, + "flex": null, + "flex_flow": null, + "grid_area": null, + "grid_auto_columns": null, + "grid_auto_flow": null, + "grid_auto_rows": null, + "grid_column": null, + "grid_gap": null, + "grid_row": null, + "grid_template_areas": null, + "grid_template_columns": null, + "grid_template_rows": null, + "height": null, + "justify_content": null, + "justify_items": null, + "left": null, + "margin": null, + "max_height": null, + "max_width": null, + "min_height": null, + "min_width": null, + "object_fit": null, + "object_position": null, + "order": null, + "overflow": null, + "overflow_x": null, + "overflow_y": null, + "padding": null, + "right": null, + "top": null, + "visibility": null, + "width": null + } + }, + "d5d0d780b2464843a1d380f0a4c0fbbc": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "DescriptionStyleModel", + "state": { + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "DescriptionStyleModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "StyleView", + "description_width": "" + } + }, + "dc92fe258486439394f2841363d4286b": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "HTMLModel", + "state": { + "_dom_classes": [], + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "HTMLModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/controls", + "_view_module_version": "1.5.0", + "_view_name": "HTMLView", + "description": "", + "description_tooltip": null, + "layout": "IPY_MODEL_a7a6d4796d0349b99abb511f3ff9823b", + "placeholder": "​", + "style": "IPY_MODEL_8ef031c9d4b84a62a20b47d338a3dc2d", + "value": "tokenizer.json: 100%" + } + }, + "e13525732c2f4d8cad00e52b80f7e2f4": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "HBoxModel", + "state": { + "_dom_classes": [], + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "HBoxModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/controls", + "_view_module_version": "1.5.0", + "_view_name": "HBoxView", + "box_style": "", + "children": [ + "IPY_MODEL_cc286fe8ebb64f03acf68fc630cedfe0", + "IPY_MODEL_8b0f3136fecc4965a76df8c8dee661ce", + "IPY_MODEL_16a99b74cefa4f0e870e93776897feca" + ], + "layout": "IPY_MODEL_0b42f930dcd949ee9df45dc2cd860214" + } + }, + "e29a696703cc4f87a12fc6e98f2cbcf8": { + "model_module": "@jupyter-widgets/base", + "model_module_version": "1.2.0", + "model_name": "LayoutModel", + "state": { + "_model_module": "@jupyter-widgets/base", + "_model_module_version": "1.2.0", + "_model_name": "LayoutModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "LayoutView", + "align_content": null, + "align_items": null, + "align_self": null, + "border": null, + "bottom": null, + "display": null, + "flex": null, + "flex_flow": null, + "grid_area": null, + "grid_auto_columns": null, + "grid_auto_flow": null, + "grid_auto_rows": null, + "grid_column": null, + "grid_gap": null, + "grid_row": null, + "grid_template_areas": null, + "grid_template_columns": null, + "grid_template_rows": null, + "height": null, + "justify_content": null, + "justify_items": null, + "left": null, + "margin": null, + "max_height": null, + "max_width": null, + "min_height": null, + "min_width": null, + "object_fit": null, + "object_position": null, + "order": null, + "overflow": null, + "overflow_x": null, + "overflow_y": null, + "padding": null, + "right": null, + "top": null, + "visibility": null, + "width": null + } + }, + "eb355ce836b34a9da087fee621132e94": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "ProgressStyleModel", + "state": { + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "ProgressStyleModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "StyleView", + "bar_color": null, + "description_width": "" + } + }, + "ed4e3e35f657476c82ff20a038812243": { + "model_module": "@jupyter-widgets/base", + "model_module_version": "1.2.0", + "model_name": "LayoutModel", + "state": { + "_model_module": "@jupyter-widgets/base", + "_model_module_version": "1.2.0", + "_model_name": "LayoutModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "LayoutView", + "align_content": null, + "align_items": null, + "align_self": null, + "border": null, + "bottom": null, + "display": null, + "flex": null, + "flex_flow": null, + "grid_area": null, + "grid_auto_columns": null, + "grid_auto_flow": null, + "grid_auto_rows": null, + "grid_column": null, + "grid_gap": null, + "grid_row": null, + "grid_template_areas": null, + "grid_template_columns": null, + "grid_template_rows": null, + "height": null, + "justify_content": null, + "justify_items": null, + "left": null, + "margin": null, + "max_height": null, + "max_width": null, + "min_height": null, + "min_width": null, + "object_fit": null, + "object_position": null, + "order": null, + "overflow": null, + "overflow_x": null, + "overflow_y": null, + "padding": null, + "right": null, + "top": null, + "visibility": null, + "width": null + } + }, + "f4308d3a141e454cb2c1602cba4a06aa": { + "model_module": "@jupyter-widgets/base", + "model_module_version": "1.2.0", + "model_name": "LayoutModel", + "state": { + "_model_module": "@jupyter-widgets/base", + "_model_module_version": "1.2.0", + "_model_name": "LayoutModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "LayoutView", + "align_content": null, + "align_items": null, + "align_self": null, + "border": null, + "bottom": null, + "display": null, + "flex": null, + "flex_flow": null, + "grid_area": null, + "grid_auto_columns": null, + "grid_auto_flow": null, + "grid_auto_rows": null, + "grid_column": null, + "grid_gap": null, + "grid_row": null, + "grid_template_areas": null, + "grid_template_columns": null, + "grid_template_rows": null, + "height": null, + "justify_content": null, + "justify_items": null, + "left": null, + "margin": null, + "max_height": null, + "max_width": null, + "min_height": null, + "min_width": null, + "object_fit": null, + "object_position": null, + "order": null, + "overflow": null, + "overflow_x": null, + "overflow_y": null, + "padding": null, + "right": null, + "top": null, + "visibility": null, + "width": null + } + }, + "f4f3815411b24674bfb51ab242832999": { + "model_module": "@jupyter-widgets/base", + "model_module_version": "1.2.0", + "model_name": "LayoutModel", + "state": { + "_model_module": "@jupyter-widgets/base", + "_model_module_version": "1.2.0", + "_model_name": "LayoutModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "LayoutView", + "align_content": null, + "align_items": null, + "align_self": null, + "border": null, + "bottom": null, + "display": null, + "flex": null, + "flex_flow": null, + "grid_area": null, + "grid_auto_columns": null, + "grid_auto_flow": null, + "grid_auto_rows": null, + "grid_column": null, + "grid_gap": null, + "grid_row": null, + "grid_template_areas": null, + "grid_template_columns": null, + "grid_template_rows": null, + "height": null, + "justify_content": null, + "justify_items": null, + "left": null, + "margin": null, + "max_height": null, + "max_width": null, + "min_height": null, + "min_width": null, + "object_fit": null, + "object_position": null, + "order": null, + "overflow": null, + "overflow_x": null, + "overflow_y": null, + "padding": null, + "right": null, + "top": null, + "visibility": null, + "width": null + } + }, + "f8ef07a5c6fd4bca98efdf435d883f4c": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "FloatProgressModel", + "state": { + "_dom_classes": [], + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "FloatProgressModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/controls", + "_view_module_version": "1.5.0", + "_view_name": "ProgressView", + "bar_style": "success", + "description": "", + "description_tooltip": null, + "layout": "IPY_MODEL_ed4e3e35f657476c82ff20a038812243", + "max": 1135173, + "min": 0, + "orientation": "horizontal", + "style": "IPY_MODEL_eb355ce836b34a9da087fee621132e94", + "value": 1135173 + } + }, + "fc5c675a5c0a4058a683318491f6e6da": { + "model_module": "@jupyter-widgets/base", + "model_module_version": "1.2.0", + "model_name": "LayoutModel", + "state": { + "_model_module": "@jupyter-widgets/base", + "_model_module_version": "1.2.0", + "_model_name": "LayoutModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "LayoutView", + "align_content": null, + "align_items": null, + "align_self": null, + "border": null, + "bottom": null, + "display": null, + "flex": null, + "flex_flow": null, + "grid_area": null, + "grid_auto_columns": null, + "grid_auto_flow": null, + "grid_auto_rows": null, + "grid_column": null, + "grid_gap": null, + "grid_row": null, + "grid_template_areas": null, + "grid_template_columns": null, + "grid_template_rows": null, + "height": null, + "justify_content": null, + "justify_items": null, + "left": null, + "margin": null, + "max_height": null, + "max_width": null, + "min_height": null, + "min_width": null, + "object_fit": null, + "object_position": null, + "order": null, + "overflow": null, + "overflow_x": null, + "overflow_y": null, + "padding": null, + "right": null, + "top": null, + "visibility": null, + "width": null + } + }, + "fec4bac1a3344aad9f168be02dba98f2": { + "model_module": "@jupyter-widgets/base", + "model_module_version": "1.2.0", + "model_name": "LayoutModel", + "state": { + "_model_module": "@jupyter-widgets/base", + "_model_module_version": "1.2.0", + "_model_name": "LayoutModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "LayoutView", + "align_content": null, + "align_items": null, + "align_self": null, + "border": null, + "bottom": null, + "display": null, + "flex": null, + "flex_flow": null, + "grid_area": null, + "grid_auto_columns": null, + "grid_auto_flow": null, + "grid_auto_rows": null, + "grid_column": null, + "grid_gap": null, + "grid_row": null, + "grid_template_areas": null, + "grid_template_columns": null, + "grid_template_rows": null, + "height": null, + "justify_content": null, + "justify_items": null, + "left": null, + "margin": null, + "max_height": null, + "max_width": null, + "min_height": null, + "min_width": null, + "object_fit": null, + "object_position": null, + "order": null, + "overflow": null, + "overflow_x": null, + "overflow_y": null, + "padding": null, + "right": null, + "top": null, + "visibility": null, + "width": null + } + } + } + } + }, + "nbformat": 4, + "nbformat_minor": 0 +}