diff --git "a/space/space/space/notebooks/Kien_Rule_base.ipynb" "b/space/space/space/notebooks/Kien_Rule_base.ipynb" new file mode 100644--- /dev/null +++ "b/space/space/space/notebooks/Kien_Rule_base.ipynb" @@ -0,0 +1,8495 @@ +{ + "cells": [ + { + "cell_type": "code", + "execution_count": 1, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "7bPdA3aUaZqD", + "outputId": "e0cca7aa-2bee-4d86-ceb1-663e3733e103" + }, + "outputs": [ + { + "name": "stderr", + "output_type": "stream", + "text": [ + "/usr/local/lib/python3.11/dist-packages/huggingface_hub/utils/_auth.py:94: UserWarning: \n", + "The secret `HF_TOKEN` does not exist in your Colab secrets.\n", + "To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.\n", + "You will be able to reuse this secret in all of your notebooks.\n", + "Please note that authentication is recommended but still optional to access public models or datasets.\n", + " warnings.warn(\n" + ] + } + ], + "source": [ + "import pandas as pd\n", + "\n", + "splits = {'train': 'data/train-00000-of-00001-b0417886a268b83a.parquet', 'valid': 'data/valid-00000-of-00001-846411c236133ba3.parquet'}\n", + "df_train = pd.read_parquet(\"hf://datasets/datnth1709/VLSP2016-NER-data/\" + splits[\"train\"])\n", + "df_valid = pd.read_parquet(\"hf://datasets/datnth1709/VLSP2016-NER-data/\" + splits[\"valid\"])\n", + "df = pd.concat([df_train, df_valid]).reset_index(drop=True)" + ] + }, + { + "cell_type": "code", + "execution_count": 2, + "metadata": { + "id": "UGHTgnkil_4R" + }, + "outputs": [], + "source": [ + "tag_id = {'O': 0, 'B-PER': 1, 'I-PER': 2, 'B-ORG': 3, 'I-ORG': 4, 'B-LOC': 5, 'I-LOC': 6, 'B-NAT': 7, 'I-NAT': 8}\n", + "id_tag = {0: 'O', 1: 'B-PER', 2: 'I-PER', 3: 'B-ORG', 4: 'I-ORG', 5: 'B-LOC', 6: 'I-LOC', 7: 'B-NAT', 8: 'I-NAT'}" + ] + }, + { + "cell_type": "code", + "execution_count": 3, + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/", + "height": 423 + }, + "id": "gg8a9_1AibFj", + "outputId": "ff63e8d2-2782-4b64-c135-f4d15b43c818" + }, + "outputs": [ + { + "data": { + "application/vnd.google.colaboratory.intrinsic+json": { + "summary": "{\n \"name\": \"df\",\n \"rows\": 16858,\n \"fields\": [\n {\n \"column\": \"tokens\",\n \"properties\": {\n \"dtype\": \"object\",\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n },\n {\n \"column\": \"ner_tags\",\n \"properties\": {\n \"dtype\": \"object\",\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n },\n {\n \"column\": \"ner_labels\",\n \"properties\": {\n \"dtype\": \"object\",\n \"semantic_type\": \"\",\n \"description\": \"\"\n }\n }\n ]\n}", + "type": "dataframe", + "variable_name": "df" + }, + "text/html": [ + "\n", + "
| \n", + " | tokens | \n", + "ner_tags | \n", + "ner_labels | \n", + "
|---|---|---|---|
| 0 | \n", + "[Không_khí, thật, náo_nhiệt, .] | \n", + "[0, 0, 0, 0] | \n", + "[O, O, O, O] | \n", + "
| 1 | \n", + "[Chị, Lãnh, và, Xăng, ra, đi, ,, mình, đứng, n... | \n", + "[0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... | \n", + "[O, B-PER, O, B-PER, O, O, O, O, O, O, O, O, O... | \n", + "
| 2 | \n", + "[Suy_tính, mãi, ,, khóc, mãi, rồi, Phúc, lấy, ... | \n", + "[0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, ... | \n", + "[O, O, O, O, O, O, B-PER, O, O, O, O, O, O, O,... | \n", + "
| 3 | \n", + "[Hoà, bảo, hồi, mới, qua, đâu, có, biết, nấu_n... | \n", + "[1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 5, 0, ... | \n", + "[B-PER, O, O, O, O, O, O, O, O, O, O, O, O, B-... | \n", + "
| 4 | \n", + "[Nhật_ký, của, thuyền_viên, .] | \n", + "[0, 0, 0, 0] | \n", + "[O, O, O, O] | \n", + "
| ... | \n", + "... | \n", + "... | \n", + "... | \n", + "
| 16853 | \n", + "[Nghe, thấy, đã, ghê_ghê, nhưng, Nhiêu, chưa, ... | \n", + "[0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, ... | \n", + "[O, O, O, O, O, B-PER, O, O, O, O, O, O, O, O,... | \n", + "
| 16854 | \n", + "[Nhưng, mọi, chuyện, không, dừng, ở, đó, .] | \n", + "[0, 0, 0, 0, 0, 0, 0, 0] | \n", + "[O, O, O, O, O, O, O, O] | \n", + "
| 16855 | \n", + "[Hoà, bảo, thời_gian, đầu, mặc_cảm, lắm, ,, ở,... | \n", + "[1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... | \n", + "[B-PER, O, O, O, O, O, O, O, O, O, O, O, O, O,... | \n", + "
| 16856 | \n", + "[Biết_bao, người, đã, tình_nguyện, hiến_dâng, ... | \n", + "[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0] | \n", + "[O, O, O, O, O, O, O, O, O, O, O, O, O, O, O] | \n", + "
| 16857 | \n", + "[Trên, đây, mới, là, “, thành_tích, ”, tiêu, t... | \n", + "[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... | \n", + "[O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ... | \n", + "
16858 rows × 3 columns
\n", + "| \n", + " | tokens | \n", + "ner_tags | \n", + "ner_labels | \n", + "
|---|---|---|---|
| 0 | \n", + "[Không_khí, thật, náo_nhiệt, .] | \n", + "[0, 0, 0, 0] | \n", + "[O, O, O, O] | \n", + "
| 1 | \n", + "[Chị, Lãnh, và, Xăng, ra, đi, ,, mình, đứng, n... | \n", + "[0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... | \n", + "[O, B-PER, O, B-PER, O, O, O, O, O, O, O, O, O... | \n", + "
| 2 | \n", + "[Suy_tính, mãi, ,, khóc, mãi, rồi, Phúc, lấy, ... | \n", + "[0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, ... | \n", + "[O, O, O, O, O, O, B-PER, O, O, O, O, O, O, O,... | \n", + "
| 3 | \n", + "[Hoà, bảo, hồi, mới, qua, đâu, có, biết, nấu_n... | \n", + "[1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 5, 0, ... | \n", + "[B-PER, O, O, O, O, O, O, O, O, O, O, O, O, B-... | \n", + "
| 4 | \n", + "[Nhật_ký, của, thuyền_viên, .] | \n", + "[0, 0, 0, 0] | \n", + "[O, O, O, O] | \n", + "
| \n", + " | tokens | \n", + "ner_tags | \n", + "ner_labels | \n", + "text_withseg | \n", + "text_raw | \n", + "
|---|---|---|---|---|---|
| 0 | \n", + "[Không_khí, thật, náo_nhiệt, .] | \n", + "[0, 0, 0, 0] | \n", + "[O, O, O, O] | \n", + "Không_khí thật náo_nhiệt . | \n", + "Không khí thật náo nhiệt . | \n", + "
| 1 | \n", + "[Chị, Lãnh, và, Xăng, ra, đi, ,, mình, đứng, n... | \n", + "[0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... | \n", + "[O, B-PER, O, B-PER, O, O, O, O, O, O, O, O, O... | \n", + "Chị Lãnh và Xăng ra đi , mình đứng nhìn hai ch... | \n", + "Chị Lãnh và Xăng ra đi , mình đứng nhìn hai ch... | \n", + "
| 2 | \n", + "[Suy_tính, mãi, ,, khóc, mãi, rồi, Phúc, lấy, ... | \n", + "[0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, ... | \n", + "[O, O, O, O, O, O, B-PER, O, O, O, O, O, O, O,... | \n", + "Suy_tính mãi , khóc mãi rồi Phúc lấy ra tờ giấ... | \n", + "Suy tính mãi , khóc mãi rồi Phúc lấy ra tờ giấ... | \n", + "
| 3 | \n", + "[Hoà, bảo, hồi, mới, qua, đâu, có, biết, nấu_n... | \n", + "[1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 5, 0, ... | \n", + "[B-PER, O, O, O, O, O, O, O, O, O, O, O, O, B-... | \n", + "Hoà bảo hồi mới qua đâu có biết nấu_nướng gì ,... | \n", + "Hoà bảo hồi mới qua đâu có biết nấu nướng gì ,... | \n", + "
| 4 | \n", + "[Nhật_ký, của, thuyền_viên, .] | \n", + "[0, 0, 0, 0] | \n", + "[O, O, O, O] | \n", + "Nhật_ký của thuyền_viên . | \n", + "Nhật ký của thuyền viên . | \n", + "
| ... | \n", + "... | \n", + "... | \n", + "... | \n", + "... | \n", + "... | \n", + "
| 16853 | \n", + "[Nghe, thấy, đã, ghê_ghê, nhưng, Nhiêu, chưa, ... | \n", + "[0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, ... | \n", + "[O, O, O, O, O, B-PER, O, O, O, O, O, O, O, O,... | \n", + "Nghe thấy đã ghê_ghê nhưng Nhiêu chưa được tườ... | \n", + "Nghe thấy đã ghê ghê nhưng Nhiêu chưa được tườ... | \n", + "
| 16854 | \n", + "[Nhưng, mọi, chuyện, không, dừng, ở, đó, .] | \n", + "[0, 0, 0, 0, 0, 0, 0, 0] | \n", + "[O, O, O, O, O, O, O, O] | \n", + "Nhưng mọi chuyện không dừng ở đó . | \n", + "Nhưng mọi chuyện không dừng ở đó . | \n", + "
| 16855 | \n", + "[Hoà, bảo, thời_gian, đầu, mặc_cảm, lắm, ,, ở,... | \n", + "[1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... | \n", + "[B-PER, O, O, O, O, O, O, O, O, O, O, O, O, O,... | \n", + "Hoà bảo thời_gian đầu mặc_cảm lắm , ở trong nh... | \n", + "Hoà bảo thời gian đầu mặc cảm lắm , ở trong nh... | \n", + "
| 16856 | \n", + "[Biết_bao, người, đã, tình_nguyện, hiến_dâng, ... | \n", + "[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0] | \n", + "[O, O, O, O, O, O, O, O, O, O, O, O, O, O, O] | \n", + "Biết_bao người đã tình_nguyện hiến_dâng cả cuộ... | \n", + "Biết bao người đã tình nguyện hiến dâng cả cuộ... | \n", + "
| 16857 | \n", + "[Trên, đây, mới, là, “, thành_tích, ”, tiêu, t... | \n", + "[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... | \n", + "[O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ... | \n", + "Trên đây mới là “ thành_tích ” tiêu tiền của m... | \n", + "Trên đây mới là “ thành tích ” tiêu tiền của m... | \n", + "
16858 rows × 5 columns
\n", + "| \n", + " | count | \n", + "
|---|---|
| tag | \n", + "\n", + " |
| B-PER | \n", + "7479 | \n", + "
| B-LOC | \n", + "6244 | \n", + "
| I-PER | \n", + "3522 | \n", + "
| I-LOC | \n", + "2783 | \n", + "
| I-ORG | \n", + "2055 | \n", + "
| B-ORG | \n", + "1212 | \n", + "
| B-NAT | \n", + "282 | \n", + "
| I-NAT | \n", + "279 | \n", + "
| \n", + " | org_idx | \n", + "token | \n", + "tag | \n", + "
|---|---|---|---|
| 11323 | \n", + "8102 | \n", + "[Rơ] | \n", + "B-PER | \n", + "
| 19936 | \n", + "14208 | \n", + "[Thạc] | \n", + "B-PER | \n", + "
| 5074 | \n", + "3612 | \n", + "[Khánh] | \n", + "B-PER | \n", + "
| 8870 | \n", + "6383 | \n", + "[Bibi] | \n", + "B-PER | \n", + "
| 5927 | \n", + "4246 | \n", + "[Thuỳ] | \n", + "B-PER | \n", + "
| 17122 | \n", + "12272 | \n", + "[Chương] | \n", + "B-PER | \n", + "
| 3236 | \n", + "2290 | \n", + "[Claudia] | \n", + "B-PER | \n", + "
| 16903 | \n", + "12150 | \n", + "[Chương] | \n", + "B-PER | \n", + "
| 1953 | \n", + "1364 | \n", + "[Thạc] | \n", + "B-PER | \n", + "
| 21888 | \n", + "15557 | \n", + "[Đợi] | \n", + "B-PER | \n", + "
| \n", + " | org_idx | \n", + "token | \n", + "tag | \n", + "
|---|---|---|---|
| 3154 | \n", + "2236 | \n", + "[tiếng] | \n", + "B-NAT | \n", + "
| 4887 | \n", + "3419 | \n", + "[VN] | \n", + "B-NAT | \n", + "
| 419 | \n", + "269 | \n", + "[Người] | \n", + "B-NAT | \n", + "
| 2548 | \n", + "1821 | \n", + "[người] | \n", + "B-NAT | \n", + "
| 993 | \n", + "678 | \n", + "[người] | \n", + "B-NAT | \n", + "
| 13032 | \n", + "9305 | \n", + "[Mỹ] | \n", + "B-NAT | \n", + "
| 13183 | \n", + "9436 | \n", + "[tiếng] | \n", + "B-NAT | \n", + "
| 14119 | \n", + "10184 | \n", + "[tiếng] | \n", + "B-NAT | \n", + "
| 942 | \n", + "640 | \n", + "[người] | \n", + "B-NAT | \n", + "
| 14846 | \n", + "10741 | \n", + "[người] | \n", + "B-NAT | \n", + "
| \n", + " | tokens | \n", + "ner_tags | \n", + "ner_labels | \n", + "text_withseg | \n", + "text_raw | \n", + "ner_tags_replaced_nat | \n", + "ner_labels_replaced_nat | \n", + "
|---|---|---|---|---|---|---|---|
| 40 | \n", + "[Nguyên, phân_công, anh, bạn, đồng_nghiệp, ở, ... | \n", + "[1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... | \n", + "[B-PER, O, O, O, O, O, O, O, O, O, O, O, O, O,... | \n", + "Nguyên phân_công anh bạn đồng_nghiệp ở vòng ng... | \n", + "Nguyên phân công anh bạn đồng nghiệp ở vòng ng... | \n", + "[1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... | \n", + "[B-PER, O, O, O, O, O, O, O, O, O, O, O, O, O,... | \n", + "
| 41 | \n", + "[Theo, kế_hoạch, ,, những, ngày, đầu, cả, hai,... | \n", + "[0, 0, 0, 0, 0, 0, 0, 0, 0, 7, 8, 0, 0, 0, 0, ... | \n", + "[O, O, O, O, O, O, O, O, O, B-NAT, I-NAT, O, O... | \n", + "Theo kế_hoạch , những ngày đầu cả hai luyện ti... | \n", + "Theo kế hoạch , những ngày đầu cả hai luyện ti... | \n", + "[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... | \n", + "[O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ... | \n", + "
| 42 | \n", + "[Thật, đáng, tiếc, biết_bao, ,, những, ngày, n... | \n", + "[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... | \n", + "[O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ... | \n", + "Thật đáng tiếc biết_bao , những ngày này trăng... | \n", + "Thật đáng tiếc biết bao , những ngày này trăng... | \n", + "[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... | \n", + "[O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ... | \n", + "
| 43 | \n", + "[Hải, và, bố_mẹ, ngày, trước, ở, chung, với, ô... | \n", + "[1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 5, 6, 0, 0, 0, ... | \n", + "[B-PER, O, O, O, O, O, O, O, O, O, B-LOC, I-LO... | \n", + "Hải và bố_mẹ ngày trước ở chung với ông_bà trê... | \n", + "Hải và bố mẹ ngày trước ở chung với ông bà trê... | \n", + "[1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 5, 6, 0, 0, 0, ... | \n", + "[B-PER, O, O, O, O, O, O, O, O, O, B-LOC, I-LO... | \n", + "
| 44 | \n", + "[Cho_nên, phương_án, của, ông, Phong, là, “, b... | \n", + "[0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... | \n", + "[O, O, O, O, B-PER, O, O, O, O, O, O, O, O, O,... | \n", + "Cho_nên phương_án của ông Phong là “ bán cả co... | \n", + "Cho nên phương án của ông Phong là “ bán cả co... | \n", + "[0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... | \n", + "[O, O, O, O, B-PER, O, O, O, O, O, O, O, O, O,... | \n", + "
| 45 | \n", + "[Một, thời_gian, ngắn, sau, trận, tỉ_thí, lịch... | \n", + "[0, 0, 0, 0, 0, 0, 0, 0, 1, 2, 0, 0, 0, 0, 0, ... | \n", + "[O, O, O, O, O, O, O, O, B-PER, I-PER, O, O, O... | \n", + "Một thời_gian ngắn sau trận tỉ_thí lịch_sử , M... | \n", + "Một thời gian ngắn sau trận tỉ thí lịch sử , M... | \n", + "[0, 0, 0, 0, 0, 0, 0, 0, 1, 2, 0, 0, 0, 0, 0, ... | \n", + "[O, O, O, O, O, O, O, O, B-PER, I-PER, O, O, O... | \n", + "
| 46 | \n", + "[Kao, chỉ, mới, được, gửi, lên, đây, hơn, một,... | \n", + "[1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... | \n", + "[B-PER, O, O, O, O, O, O, O, O, O, O, O, O, O,... | \n", + "Kao chỉ mới được gửi lên đây hơn một tuần , nh... | \n", + "Kao chỉ mới được gửi lên đây hơn một tuần , nh... | \n", + "[1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... | \n", + "[B-PER, O, O, O, O, O, O, O, O, O, O, O, O, O,... | \n", + "
| 47 | \n", + "[An_Lư, cũng, tích_cực, đào_tạo, các, thuyền_v... | \n", + "[5, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... | \n", + "[B-LOC, O, O, O, O, O, O, O, O, O, O, O, O, O,... | \n", + "An_Lư cũng tích_cực đào_tạo các thuyền_viên ng... | \n", + "An Lư cũng tích cực đào tạo các thuyền viên ng... | \n", + "[5, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... | \n", + "[B-LOC, O, O, O, O, O, O, O, O, O, O, O, O, O,... | \n", + "
| 48 | \n", + "[Anh, cười, tươi, :, \", Nếu, không, thắng, thì... | \n", + "[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0] | \n", + "[O, O, O, O, O, O, O, O, O, O, O, O, O, O, O] | \n", + "Anh cười tươi : \" Nếu không thắng thì đâu còn ... | \n", + "Anh cười tươi : \" Nếu không thắng thì đâu còn ... | \n", + "[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0] | \n", + "[O, O, O, O, O, O, O, O, O, O, O, O, O, O, O] | \n", + "
| 49 | \n", + "[Hắn, không, có, một, dữ_liệu, nào, nằm, trong... | \n", + "[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... | \n", + "[O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ... | \n", + "Hắn không có một dữ_liệu nào nằm trong tay thá... | \n", + "Hắn không có một dữ liệu nào nằm trong tay thá... | \n", + "[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... | \n", + "[O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ... | \n", + "
| 50 | \n", + "[Và, cho_dù, xảy, ra, tình_huống, nào, thì, ôn... | \n", + "[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0] | \n", + "[O, O, O, O, O, O, O, O, O, O, O, O] | \n", + "Và cho_dù xảy ra tình_huống nào thì ông giám_đ... | \n", + "Và cho dù xảy ra tình huống nào thì ông giám đ... | \n", + "[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0] | \n", + "[O, O, O, O, O, O, O, O, O, O, O, O] | \n", + "
| 51 | \n", + "[Để, em, tính, lại, .] | \n", + "[0, 0, 0, 0, 0] | \n", + "[O, O, O, O, O] | \n", + "Để em tính lại . | \n", + "Để em tính lại . | \n", + "[0, 0, 0, 0, 0] | \n", + "[O, O, O, O, O] | \n", + "
| 52 | \n", + "[Ông, đến, có, khi, mặc, sắc_phục, ,, có, khi,... | \n", + "[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... | \n", + "[O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ... | \n", + "Ông đến có khi mặc sắc_phục , có khi mặc thườn... | \n", + "Ông đến có khi mặc sắc phục , có khi mặc thườn... | \n", + "[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... | \n", + "[O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ... | \n", + "
| 53 | \n", + "[Có, đứa, trả_lời, :, chưa, có, lúc, nào, thấy... | \n", + "[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0] | \n", + "[O, O, O, O, O, O, O, O, O, O, O, O, O] | \n", + "Có đứa trả_lời : chưa có lúc nào thấy hạnh_phú... | \n", + "Có đứa trả lời : chưa có lúc nào thấy hạnh phú... | \n", + "[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0] | \n", + "[O, O, O, O, O, O, O, O, O, O, O, O, O] | \n", + "
| 54 | \n", + "[Vậy, đó, ,, lửa, thử, vàng, gian_nan, thử, sứ... | \n", + "[0, 0, 0, 0, 0, 0, 0, 0, 0, 0] | \n", + "[O, O, O, O, O, O, O, O, O, O] | \n", + "Vậy đó , lửa thử vàng gian_nan thử sức . | \n", + "Vậy đó , lửa thử vàng gian nan thử sức . | \n", + "[0, 0, 0, 0, 0, 0, 0, 0, 0, 0] | \n", + "[O, O, O, O, O, O, O, O, O, O] | \n", + "
| 55 | \n", + "[Chung, một, chữ, \", Lương, \", ...] | \n", + "[0, 0, 0, 0, 0, 0, 0] | \n", + "[O, O, O, O, O, O, O] | \n", + "Chung một chữ \" Lương \" ... | \n", + "Chung một chữ \" Lương \" ... | \n", + "[0, 0, 0, 0, 0, 0, 0] | \n", + "[O, O, O, O, O, O, O] | \n", + "
| 56 | \n", + "[Bước, vào, đầu, ngõ, ,, nhà, cô, Cúc, phơi, đ... | \n", + "[0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0] | \n", + "[O, O, O, O, O, O, O, B-PER, O, O, O, O, O, O] | \n", + "Bước vào đầu ngõ , nhà cô Cúc phơi đầy bánh_tr... | \n", + "Bước vào đầu ngõ , nhà cô Cúc phơi đầy bánh tr... | \n", + "[0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0] | \n", + "[O, O, O, O, O, O, O, B-PER, O, O, O, O, O, O] | \n", + "
| 57 | \n", + "[Nếu, có, trở_ngại, một_chút, thì, đúng, là, l... | \n", + "[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 5, 6, 0, 5, ... | \n", + "[O, O, O, O, O, O, O, O, O, O, O, B-LOC, I-LOC... | \n", + "Nếu có trở_ngại một_chút thì đúng là lượng khá... | \n", + "Nếu có trở ngại một chút thì đúng là lượng khá... | \n", + "[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 5, 6, 0, 5, ... | \n", + "[O, O, O, O, O, O, O, O, O, O, O, B-LOC, I-LOC... | \n", + "
| 58 | \n", + "[Anh, Dĩa, kéo, chúng_tôi, lên, bờ, ,, khui, b... | \n", + "[0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... | \n", + "[O, B-PER, O, O, O, O, O, O, O, O, O, O, O, O,... | \n", + "Anh Dĩa kéo chúng_tôi lên bờ , khui bia , rượu... | \n", + "Anh Dĩa kéo chúng tôi lên bờ , khui bia , rượu... | \n", + "[0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... | \n", + "[O, B-PER, O, O, O, O, O, O, O, O, O, O, O, O,... | \n", + "
| 59 | \n", + "[Có, đúng, chị, nằm, trên, một, dãy, núi, cao,... | \n", + "[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 5, 0] | \n", + "[O, O, O, O, O, O, O, O, O, O, O, O, B-LOC, O] | \n", + "Có đúng chị nằm trên một dãy núi cao ở miền tâ... | \n", + "Có đúng chị nằm trên một dãy núi cao ở miền tâ... | \n", + "[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 5, 0] | \n", + "[O, O, O, O, O, O, O, O, O, O, O, O, B-LOC, O] | \n", + "
| 60 | \n", + "[Bắt_đầu, từ, năm, 1961, ,, xã, Nhuận_Đức, phá... | \n", + "[0, 0, 0, 0, 0, 5, 6, 0, 0, 0, 0, 0] | \n", + "[O, O, O, O, O, B-LOC, I-LOC, O, O, O, O, O] | \n", + "Bắt_đầu từ năm 1961 , xã Nhuận_Đức phát_động p... | \n", + "Bắt đầu từ năm 1961 , xã Nhuận Đức phát động p... | \n", + "[0, 0, 0, 0, 0, 5, 6, 0, 0, 0, 0, 0] | \n", + "[O, O, O, O, O, B-LOC, I-LOC, O, O, O, O, O] | \n", + "
| 61 | \n", + "[Năm, nay, đầu, trên, xóm, dưới, lắc_đầu, ngao... | \n", + "[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0] | \n", + "[O, O, O, O, O, O, O, O, O, O, O, O, O] | \n", + "Năm nay đầu trên xóm dưới lắc_đầu ngao_ngán bỏ... | \n", + "Năm nay đầu trên xóm dưới lắc đầu ngao ngán bỏ... | \n", + "[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0] | \n", + "[O, O, O, O, O, O, O, O, O, O, O, O, O] | \n", + "
| 62 | \n", + "[Và, đến, nay, những, mét, hầm, cuối_cùng, cũn... | \n", + "[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0] | \n", + "[O, O, O, O, O, O, O, O, O, O, O, O] | \n", + "Và đến nay những mét hầm cuối_cùng cũng đã về ... | \n", + "Và đến nay những mét hầm cuối cùng cũng đã về ... | \n", + "[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0] | \n", + "[O, O, O, O, O, O, O, O, O, O, O, O] | \n", + "
| 63 | \n", + "[Đèn, đường, loang_loáng, ,, hoà, chung, dòng,... | \n", + "[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 5, 6, ... | \n", + "[O, O, O, O, O, O, O, O, O, O, O, O, O, B-LOC,... | \n", + "Đèn đường loang_loáng , hoà chung dòng xe tấp_... | \n", + "Đèn đường loang loáng , hoà chung dòng xe tấp ... | \n", + "[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 5, 6, ... | \n", + "[O, O, O, O, O, O, O, O, O, O, O, O, O, B-LOC,... | \n", + "
| 64 | \n", + "[Cả, đám, bắt_đầu, lên_cơn, lắc, quậy, điên_cu... | \n", + "[0, 0, 0, 0, 0, 0, 0, 0] | \n", + "[O, O, O, O, O, O, O, O] | \n", + "Cả đám bắt_đầu lên_cơn lắc quậy điên_cuồng ... | \n", + "Cả đám bắt đầu lên cơn lắc quậy điên cuồng ... | \n", + "[0, 0, 0, 0, 0, 0, 0, 0] | \n", + "[O, O, O, O, O, O, O, O] | \n", + "
| 65 | \n", + "[Ở, trạm_xá, xã, Hưng_Long, đối_diện, với, căn... | \n", + "[0, 0, 5, 6, 0, 0, 0, 0, 0, 1, 2, 2, 2, 0, 0, ... | \n", + "[O, O, B-LOC, I-LOC, O, O, O, O, O, B-PER, I-P... | \n", + "Ở trạm_xá xã Hưng_Long đối_diện với căn nhà tử... | \n", + "Ở trạm xá xã Hưng Long đối diện với căn nhà tử... | \n", + "[0, 0, 5, 6, 0, 0, 0, 0, 0, 1, 2, 2, 2, 0, 0, ... | \n", + "[O, O, B-LOC, I-LOC, O, O, O, O, O, B-PER, I-P... | \n", + "
| 66 | \n", + "[Mới_đó, mà, ta, xa, nhau, ,, thật, là, kinh_k... | \n", + "[0, 0, 0, 0, 0, 0, 0, 0, 0, 0] | \n", + "[O, O, O, O, O, O, O, O, O, O] | \n", + "Mới_đó mà ta xa nhau , thật là kinh_khủng . | \n", + "Mới đó mà ta xa nhau , thật là kinh khủng . | \n", + "[0, 0, 0, 0, 0, 0, 0, 0, 0, 0] | \n", + "[O, O, O, O, O, O, O, O, O, O] | \n", + "
| 67 | \n", + "[Trong, cuộc, chiến_đấu, vì, nghĩa_vụ, quốc_tế... | \n", + "[0, 0, 0, 0, 0, 0, 0, 0, 0, 5, 0, 0, 0, 5, 0, ... | \n", + "[O, O, O, O, O, O, O, O, O, B-LOC, O, O, O, B-... | \n", + "Trong cuộc chiến_đấu vì nghĩa_vụ quốc_tế với n... | \n", + "Trong cuộc chiến đấu vì nghĩa vụ quốc tế với n... | \n", + "[0, 0, 0, 0, 0, 0, 0, 0, 0, 5, 0, 0, 0, 5, 0, ... | \n", + "[O, O, O, O, O, O, O, O, O, B-LOC, O, O, O, B-... | \n", + "
| 68 | \n", + "[Mỗi, khi, sóng, dập, vào, và, đẩy, người, lên... | \n", + "[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... | \n", + "[O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ... | \n", + "Mỗi khi sóng dập vào và đẩy người lên theo thậ... | \n", + "Mỗi khi sóng dập vào và đẩy người lên theo thậ... | \n", + "[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... | \n", + "[O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ... | \n", + "
| 69 | \n", + "[Đây, là, một, giai_đoạn, khó_khăn, ,, đau_đớn... | \n", + "[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0] | \n", + "[O, O, O, O, O, O, O, O, O, O, O, O] | \n", + "Đây là một giai_đoạn khó_khăn , đau_đớn nhất c... | \n", + "Đây là một giai đoạn khó khăn , đau đớn nhất c... | \n", + "[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0] | \n", + "[O, O, O, O, O, O, O, O, O, O, O, O] | \n", + "
| 70 | \n", + "[Và, hôm_nay, ,, chúng_ta, cũng, cần, hỏi, câu... | \n", + "[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0] | \n", + "[O, O, O, O, O, O, O, O, O, O, O, O, O, O] | \n", + "Và hôm_nay , chúng_ta cũng cần hỏi câu hỏi này... | \n", + "Và hôm nay , chúng ta cũng cần hỏi câu hỏi này... | \n", + "[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0] | \n", + "[O, O, O, O, O, O, O, O, O, O, O, O, O, O] | \n", + "
| 71 | \n", + "[Thạc_sĩ, thú_y, với, bầy, muông_thú, .] | \n", + "[0, 0, 0, 0, 0, 0] | \n", + "[O, O, O, O, O, O] | \n", + "Thạc_sĩ thú_y với bầy muông_thú . | \n", + "Thạc sĩ thú y với bầy muông thú . | \n", + "[0, 0, 0, 0, 0, 0] | \n", + "[O, O, O, O, O, O] | \n", + "
| 72 | \n", + "[Tôi, lại, điện, hỏi_thăm, ông, khi, về, tới, ... | \n", + "[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... | \n", + "[O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ... | \n", + "Tôi lại điện hỏi_thăm ông khi về tới nhà , ông... | \n", + "Tôi lại điện hỏi thăm ông khi về tới nhà , ông... | \n", + "[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... | \n", + "[O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ... | \n", + "
| 73 | \n", + "[Hương_Rừng, xuất_hiện, ở, nhiều, nơi, từ, nội... | \n", + "[5, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 5, ... | \n", + "[B-LOC, O, O, O, O, O, O, O, O, O, O, O, O, O,... | \n", + "Hương_Rừng xuất_hiện ở nhiều nơi từ nội_thành ... | \n", + "Hương Rừng xuất hiện ở nhiều nơi từ nội thành ... | \n", + "[5, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 5, ... | \n", + "[B-LOC, O, O, O, O, O, O, O, O, O, O, O, O, O,... | \n", + "
| 74 | \n", + "[Nhìn, những, cảnh, đó, mình, cười, mà, nước_m... | \n", + "[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0] | \n", + "[O, O, O, O, O, O, O, O, O, O, O, O, O, O] | \n", + "Nhìn những cảnh đó mình cười mà nước_mắt chực ... | \n", + "Nhìn những cảnh đó mình cười mà nước mắt chực ... | \n", + "[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0] | \n", + "[O, O, O, O, O, O, O, O, O, O, O, O, O, O] | \n", + "
| 75 | \n", + "[Ông, nhớ, mãi, năm, cô, con, gái, út, học, cấ... | \n", + "[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... | \n", + "[O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ... | \n", + "Ông nhớ mãi năm cô con gái út học cấp II , thư... | \n", + "Ông nhớ mãi năm cô con gái út học cấp II , thư... | \n", + "[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... | \n", + "[O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ... | \n", + "
| 76 | \n", + "[Đường, về, xã, Ia_Yeng, cắt, ngang, cánh, đồn... | \n", + "[0, 0, 5, 6, 0, 0, 0, 0, 5, 0] | \n", + "[O, O, B-LOC, I-LOC, O, O, O, O, B-LOC, O] | \n", + "Đường về xã Ia_Yeng cắt ngang cánh đồng Ayun_Hạ . | \n", + "Đường về xã Ia Yeng cắt ngang cánh đồng Ayun Hạ . | \n", + "[0, 0, 5, 6, 0, 0, 0, 0, 5, 0] | \n", + "[O, O, B-LOC, I-LOC, O, O, O, O, B-LOC, O] | \n", + "
| 77 | \n", + "[Sang, đây, ,, đầu_tiên, tôi, làm, nghề, rửa, ... | \n", + "[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... | \n", + "[O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ... | \n", + "Sang đây , đầu_tiên tôi làm nghề rửa chén ở nh... | \n", + "Sang đây , đầu tiên tôi làm nghề rửa chén ở nh... | \n", + "[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... | \n", + "[O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ... | \n", + "
| 78 | \n", + "[Cộng_tác_viên, của, Thanh, ở, Berlin, tìm, đế... | \n", + "[0, 0, 1, 0, 5, 0, 0, 0, 0, 1, 0, 0] | \n", + "[O, O, B-PER, O, B-LOC, O, O, O, O, B-PER, O, O] | \n", + "Cộng_tác_viên của Thanh ở Berlin tìm đến khu_v... | \n", + "Cộng tác viên của Thanh ở Berlin tìm đến khu v... | \n", + "[0, 0, 1, 0, 5, 0, 0, 0, 0, 1, 0, 0] | \n", + "[O, O, B-PER, O, B-LOC, O, O, O, O, B-PER, O, O] | \n", + "
| 79 | \n", + "[Trời, đang, mưa, lớn, ,, con, tàu, bị, chao, ... | \n", + "[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... | \n", + "[O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ... | \n", + "Trời đang mưa lớn , con tàu bị chao lắc rất mạ... | \n", + "Trời đang mưa lớn , con tàu bị chao lắc rất mạ... | \n", + "[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... | \n", + "[O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ... | \n", + "
| \n", + " | tokens | \n", + "text_withseg | \n", + "text_raw | \n", + "ner_tags | \n", + "ner_labels | \n", + "
|---|---|---|---|---|---|
| 41 | \n", + "[Theo, kế_hoạch, ,, những, ngày, đầu, cả, hai,... | \n", + "Theo kế_hoạch , những ngày đầu cả hai luyện ti... | \n", + "Theo kế hoạch , những ngày đầu cả hai luyện ti... | \n", + "[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... | \n", + "[O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ... | \n", + "
| 42 | \n", + "[Thật, đáng, tiếc, biết_bao, ,, những, ngày, n... | \n", + "Thật đáng tiếc biết_bao , những ngày này trăng... | \n", + "Thật đáng tiếc biết bao , những ngày này trăng... | \n", + "[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... | \n", + "[O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ... | \n", + "
| 43 | \n", + "[Hải, và, bố_mẹ, ngày, trước, ở, chung, với, ô... | \n", + "Hải và bố_mẹ ngày trước ở chung với ông_bà trê... | \n", + "Hải và bố mẹ ngày trước ở chung với ông bà trê... | \n", + "[1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 5, 6, 0, 0, 0, ... | \n", + "[B-PER, O, O, O, O, O, O, O, O, O, B-LOC, I-LO... | \n", + "
| 44 | \n", + "[Cho_nên, phương_án, của, ông, Phong, là, “, b... | \n", + "Cho_nên phương_án của ông Phong là “ bán cả co... | \n", + "Cho nên phương án của ông Phong là “ bán cả co... | \n", + "[0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... | \n", + "[O, O, O, O, B-PER, O, O, O, O, O, O, O, O, O,... | \n", + "
| 45 | \n", + "[Một, thời_gian, ngắn, sau, trận, tỉ_thí, lịch... | \n", + "Một thời_gian ngắn sau trận tỉ_thí lịch_sử , M... | \n", + "Một thời gian ngắn sau trận tỉ thí lịch sử , M... | \n", + "[0, 0, 0, 0, 0, 0, 0, 0, 1, 2, 0, 0, 0, 0, 0, ... | \n", + "[O, O, O, O, O, O, O, O, B-PER, I-PER, O, O, O... | \n", + "
| 46 | \n", + "[Kao, chỉ, mới, được, gửi, lên, đây, hơn, một,... | \n", + "Kao chỉ mới được gửi lên đây hơn một tuần , nh... | \n", + "Kao chỉ mới được gửi lên đây hơn một tuần , nh... | \n", + "[1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... | \n", + "[B-PER, O, O, O, O, O, O, O, O, O, O, O, O, O,... | \n", + "
| 47 | \n", + "[An_Lư, cũng, tích_cực, đào_tạo, các, thuyền_v... | \n", + "An_Lư cũng tích_cực đào_tạo các thuyền_viên ng... | \n", + "An Lư cũng tích cực đào tạo các thuyền viên ng... | \n", + "[5, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... | \n", + "[B-LOC, O, O, O, O, O, O, O, O, O, O, O, O, O,... | \n", + "
| 48 | \n", + "[Anh, cười, tươi, :, \", Nếu, không, thắng, thì... | \n", + "Anh cười tươi : \" Nếu không thắng thì đâu còn ... | \n", + "Anh cười tươi : \" Nếu không thắng thì đâu còn ... | \n", + "[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0] | \n", + "[O, O, O, O, O, O, O, O, O, O, O, O, O, O, O] | \n", + "
| 49 | \n", + "[Hắn, không, có, một, dữ_liệu, nào, nằm, trong... | \n", + "Hắn không có một dữ_liệu nào nằm trong tay thá... | \n", + "Hắn không có một dữ liệu nào nằm trong tay thá... | \n", + "[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... | \n", + "[O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ... | \n", + "
| \n", + " | count | \n", + "
|---|---|
| tag | \n", + "\n", + " |
| B-PER | \n", + "7479 | \n", + "
| B-LOC | \n", + "6244 | \n", + "
| I-PER | \n", + "3522 | \n", + "
| I-LOC | \n", + "2783 | \n", + "
| I-ORG | \n", + "2055 | \n", + "
| B-ORG | \n", + "1212 | \n", + "
| \n", + " | tokens | \n", + "text_withseg | \n", + "text_raw | \n", + "ner_tags | \n", + "ner_labels | \n", + "token_lengths | \n", + "sentence_length | \n", + "
|---|---|---|---|---|---|---|---|
| 0 | \n", + "[Không_khí, thật, náo_nhiệt, .] | \n", + "Không_khí thật náo_nhiệt . | \n", + "Không khí thật náo nhiệt . | \n", + "[0, 0, 0, 0] | \n", + "[O, O, O, O] | \n", + "[9, 4, 9, 1] | \n", + "4 | \n", + "
| 1 | \n", + "[Chị, Lãnh, và, Xăng, ra, đi, ,, mình, đứng, n... | \n", + "Chị Lãnh và Xăng ra đi , mình đứng nhìn hai ch... | \n", + "Chị Lãnh và Xăng ra đi , mình đứng nhìn hai ch... | \n", + "[0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... | \n", + "[O, B-PER, O, B-PER, O, O, O, O, O, O, O, O, O... | \n", + "[3, 4, 2, 4, 2, 2, 1, 4, 4, 4, 3, 3, 4, 3, 4, ... | \n", + "31 | \n", + "
| 2 | \n", + "[Suy_tính, mãi, ,, khóc, mãi, rồi, Phúc, lấy, ... | \n", + "Suy_tính mãi , khóc mãi rồi Phúc lấy ra tờ giấ... | \n", + "Suy tính mãi , khóc mãi rồi Phúc lấy ra tờ giấ... | \n", + "[0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, ... | \n", + "[O, O, O, O, O, O, B-PER, O, O, O, O, O, O, O,... | \n", + "[8, 3, 1, 4, 3, 3, 4, 3, 2, 2, 4, 1, 3, 3, 1, ... | \n", + "33 | \n", + "
| 3 | \n", + "[Hoà, bảo, hồi, mới, qua, đâu, có, biết, nấu_n... | \n", + "Hoà bảo hồi mới qua đâu có biết nấu_nướng gì ,... | \n", + "Hoà bảo hồi mới qua đâu có biết nấu nướng gì ,... | \n", + "[1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 5, 0, ... | \n", + "[B-PER, O, O, O, O, O, O, O, O, O, O, O, O, B-... | \n", + "[3, 3, 3, 3, 3, 3, 2, 4, 9, 2, 1, 3, 3, 3, 3, ... | \n", + "43 | \n", + "
| 4 | \n", + "[Nhật_ký, của, thuyền_viên, .] | \n", + "Nhật_ký của thuyền_viên . | \n", + "Nhật ký của thuyền viên . | \n", + "[0, 0, 0, 0] | \n", + "[O, O, O, O] | \n", + "[7, 3, 11, 1] | \n", + "4 | \n", + "
| ... | \n", + "... | \n", + "... | \n", + "... | \n", + "... | \n", + "... | \n", + "... | \n", + "... | \n", + "
| 16853 | \n", + "[Nghe, thấy, đã, ghê_ghê, nhưng, Nhiêu, chưa, ... | \n", + "Nghe thấy đã ghê_ghê nhưng Nhiêu chưa được tườ... | \n", + "Nghe thấy đã ghê ghê nhưng Nhiêu chưa được tườ... | \n", + "[0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, ... | \n", + "[O, O, O, O, O, B-PER, O, O, O, O, O, O, O, O,... | \n", + "[4, 4, 2, 7, 5, 5, 4, 4, 5, 1, 3, 3, 3, 4, 5, ... | \n", + "21 | \n", + "
| 16854 | \n", + "[Nhưng, mọi, chuyện, không, dừng, ở, đó, .] | \n", + "Nhưng mọi chuyện không dừng ở đó . | \n", + "Nhưng mọi chuyện không dừng ở đó . | \n", + "[0, 0, 0, 0, 0, 0, 0, 0] | \n", + "[O, O, O, O, O, O, O, O] | \n", + "[5, 3, 6, 5, 4, 1, 2, 1] | \n", + "8 | \n", + "
| 16855 | \n", + "[Hoà, bảo, thời_gian, đầu, mặc_cảm, lắm, ,, ở,... | \n", + "Hoà bảo thời_gian đầu mặc_cảm lắm , ở trong nh... | \n", + "Hoà bảo thời gian đầu mặc cảm lắm , ở trong nh... | \n", + "[1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... | \n", + "[B-PER, O, O, O, O, O, O, O, O, O, O, O, O, O,... | \n", + "[3, 3, 9, 3, 7, 3, 1, 1, 5, 3, 8, 2, 5, 4, 3, ... | \n", + "29 | \n", + "
| 16856 | \n", + "[Biết_bao, người, đã, tình_nguyện, hiến_dâng, ... | \n", + "Biết_bao người đã tình_nguyện hiến_dâng cả cuộ... | \n", + "Biết bao người đã tình nguyện hiến dâng cả cuộ... | \n", + "[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0] | \n", + "[O, O, O, O, O, O, O, O, O, O, O, O, O, O, O] | \n", + "[8, 5, 2, 11, 9, 2, 8, 4, 2, 3, 3, 7, 1, 5, 1] | \n", + "15 | \n", + "
| 16857 | \n", + "[Trên, đây, mới, là, “, thành_tích, ”, tiêu, t... | \n", + "Trên đây mới là “ thành_tích ” tiêu tiền của m... | \n", + "Trên đây mới là “ thành tích ” tiêu tiền của m... | \n", + "[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... | \n", + "[O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ... | \n", + "[4, 3, 3, 2, 1, 10, 1, 4, 4, 3, 7, 5, 2, 5, 9,... | \n", + "22 | \n", + "
16858 rows × 7 columns
\n", + "| \n", + " | tokens | \n", + "text_withseg | \n", + "text_raw | \n", + "ner_tags | \n", + "ner_labels | \n", + "token_lengths | \n", + "sentence_length | \n", + "encoded | \n", + "
|---|---|---|---|---|---|---|---|---|
| 0 | \n", + "[Không_khí, thật, náo_nhiệt, .] | \n", + "Không_khí thật náo_nhiệt . | \n", + "Không khí thật náo nhiệt . | \n", + "[0, 0, 0, 0] | \n", + "[O, O, O, O] | \n", + "[9, 4, 9, 1] | \n", + "4 | \n", + "[10591, 520, 13648, 5] | \n", + "
| 1 | \n", + "[Chị, Lãnh, và, Xăng, ra, đi, ,, mình, đứng, n... | \n", + "Chị Lãnh và Xăng ra đi , mình đứng nhìn hai ch... | \n", + "Chị Lãnh và Xăng ra đi , mình đứng nhìn hai ch... | \n", + "[0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... | \n", + "[O, B-PER, O, B-PER, O, O, O, O, O, O, O, O, O... | \n", + "[3, 4, 2, 4, 2, 2, 1, 4, 4, 4, 3, 3, 4, 3, 4, ... | \n", + "31 | \n", + "[1108, 19703, 6, 28163, 40, 57, 4, 68, 414, 36... | \n", + "
| 2 | \n", + "[Suy_tính, mãi, ,, khóc, mãi, rồi, Phúc, lấy, ... | \n", + "Suy_tính mãi , khóc mãi rồi Phúc lấy ra tờ giấ... | \n", + "Suy tính mãi , khóc mãi rồi Phúc lấy ra tờ giấ... | \n", + "[0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, ... | \n", + "[O, O, O, O, O, O, B-PER, O, O, O, O, O, O, O,... | \n", + "[8, 3, 1, 4, 3, 3, 4, 3, 2, 2, 4, 1, 3, 3, 1, ... | \n", + "33 | \n", + "[39659, 30554, 1997, 4, 1521, 1997, 182, 2777,... | \n", + "
| 3 | \n", + "[Hoà, bảo, hồi, mới, qua, đâu, có, biết, nấu_n... | \n", + "Hoà bảo hồi mới qua đâu có biết nấu_nướng gì ,... | \n", + "Hoà bảo hồi mới qua đâu có biết nấu nướng gì ,... | \n", + "[1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 5, 0, ... | \n", + "[B-PER, O, O, O, O, O, O, O, O, O, O, O, O, B-... | \n", + "[3, 3, 3, 3, 3, 3, 2, 4, 9, 2, 1, 3, 3, 3, 3, ... | \n", + "43 | \n", + "[2042, 1218, 857, 60, 89, 602, 10, 55, 9880, 1... | \n", + "
| 4 | \n", + "[Nhật_ký, của, thuyền_viên, .] | \n", + "Nhật_ký của thuyền_viên . | \n", + "Nhật ký của thuyền viên . | \n", + "[0, 0, 0, 0] | \n", + "[O, O, O, O] | \n", + "[7, 3, 11, 1] | \n", + "4 | \n", + "[17188, 7, 6494, 5] | \n", + "
| ... | \n", + "... | \n", + "... | \n", + "... | \n", + "... | \n", + "... | \n", + "... | \n", + "... | \n", + "... | \n", + "
| 16853 | \n", + "[Nghe, thấy, đã, ghê_ghê, nhưng, Nhiêu, chưa, ... | \n", + "Nghe thấy đã ghê_ghê nhưng Nhiêu chưa được tườ... | \n", + "Nghe thấy đã ghê ghê nhưng Nhiêu chưa được tườ... | \n", + "[0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, ... | \n", + "[O, O, O, O, O, B-PER, O, O, O, O, O, O, O, O,... | \n", + "[4, 4, 2, 7, 5, 5, 4, 4, 5, 1, 3, 3, 3, 4, 5, ... | \n", + "21 | \n", + "[3656, 108, 14, 3, 17143, 51, 24733, 102, 11, ... | \n", + "
| 16854 | \n", + "[Nhưng, mọi, chuyện, không, dừng, ở, đó, .] | \n", + "Nhưng mọi chuyện không dừng ở đó . | \n", + "Nhưng mọi chuyện không dừng ở đó . | \n", + "[0, 0, 0, 0, 0, 0, 0, 0] | \n", + "[O, O, O, O, O, O, O, O] | \n", + "[5, 3, 6, 5, 4, 1, 2, 1] | \n", + "8 | \n", + "[293, 207, 344, 17, 772, 25, 37, 5] | \n", + "
| 16855 | \n", + "[Hoà, bảo, thời_gian, đầu, mặc_cảm, lắm, ,, ở,... | \n", + "Hoà bảo thời_gian đầu mặc_cảm lắm , ở trong nh... | \n", + "Hoà bảo thời gian đầu mặc cảm lắm , ở trong nh... | \n", + "[1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... | \n", + "[B-PER, O, O, O, O, O, O, O, O, O, O, O, O, O,... | \n", + "[3, 3, 9, 3, 7, 3, 1, 1, 5, 3, 8, 2, 5, 4, 3, ... | \n", + "29 | \n", + "[2042, 1218, 130, 127, 11878, 957, 4, 25, 12, ... | \n", + "
| 16856 | \n", + "[Biết_bao, người, đã, tình_nguyện, hiến_dâng, ... | \n", + "Biết_bao người đã tình_nguyện hiến_dâng cả cuộ... | \n", + "Biết bao người đã tình nguyện hiến dâng cả cuộ... | \n", + "[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0] | \n", + "[O, O, O, O, O, O, O, O, O, O, O, O, O, O, O] | \n", + "[8, 5, 2, 11, 9, 2, 8, 4, 2, 3, 3, 7, 1, 5, 1] | \n", + "15 | \n", + "[53464, 18, 14, 4047, 46883, 94, 1679, 68, 90,... | \n", + "
| 16857 | \n", + "[Trên, đây, mới, là, “, thành_tích, ”, tiêu, t... | \n", + "Trên đây mới là “ thành_tích ” tiêu tiền của m... | \n", + "Trên đây mới là “ thành tích ” tiêu tiền của m... | \n", + "[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... | \n", + "[O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ... | \n", + "[4, 3, 3, 2, 1, 10, 1, 4, 4, 3, 7, 5, 2, 5, 9,... | \n", + "22 | \n", + "[880, 97, 60, 8, 556, 1417, 564, 2140, 123, 7,... | \n", + "
16858 rows × 8 columns
\n", + "