diff --git "a/wav2vec2/wav2vec_data.ipynb" "b/wav2vec2/wav2vec_data.ipynb" --- "a/wav2vec2/wav2vec_data.ipynb" +++ "b/wav2vec2/wav2vec_data.ipynb" @@ -26,7 +26,7 @@ "name": "stdout", "output_type": "stream", "text": [ - "Mon Dec 26 17:51:09 2022 \n", + "Wed Dec 28 20:57:11 2022 \n", "+-----------------------------------------------------------------------------+\n", "| NVIDIA-SMI 515.86.01 Driver Version: 515.86.01 CUDA Version: 11.7 |\n", "|-------------------------------+----------------------+----------------------+\n", @@ -35,7 +35,7 @@ "| | | MIG M. |\n", "|===============================+======================+======================|\n", "| 0 NVIDIA GeForce ... Off | 00000000:0A:00.0 On | N/A |\n", - "| 0% 34C P5 49W / 390W | 1437MiB / 24576MiB | 2% Default |\n", + "| 0% 31C P8 36W / 390W | 1401MiB / 24576MiB | 3% Default |\n", "| | | N/A |\n", "+-------------------------------+----------------------+----------------------+\n", " \n", @@ -44,23 +44,25 @@ "| GPU GI CI PID Type Process name GPU Memory |\n", "| ID ID Usage |\n", "|=============================================================================|\n", - "| 0 N/A N/A 1223 G /usr/lib/xorg/Xorg 498MiB |\n", - "| 0 N/A N/A 2007 G /usr/bin/kwalletd5 4MiB |\n", - "| 0 N/A N/A 2174 G ...ec/xdg-desktop-portal-kde 4MiB |\n", - "| 0 N/A N/A 2211 G /usr/bin/ksmserver 4MiB |\n", - "| 0 N/A N/A 2213 G /usr/bin/kded5 4MiB |\n", - "| 0 N/A N/A 2214 G /usr/bin/kwin_x11 96MiB |\n", - "| 0 N/A N/A 2263 G /usr/bin/plasmashell 96MiB |\n", - "| 0 N/A N/A 2283 G ...de-authentication-agent-1 4MiB |\n", - "| 0 N/A N/A 2354 G ...x-gnu/libexec/kdeconnectd 4MiB |\n", - "| 0 N/A N/A 2356 G .../usr/bin/telegram-desktop 7MiB |\n", - "| 0 N/A N/A 2370 G /usr/bin/kaccess 4MiB |\n", - "| 0 N/A N/A 2377 G .../libexec/DiscoverNotifier 4MiB |\n", - "| 0 N/A N/A 2443 G ...1/usr/lib/firefox/firefox 96MiB |\n", - "| 0 N/A N/A 2704 G /usr/bin/dolphin 4MiB |\n", - "| 0 N/A N/A 2806 G /usr/bin/dolphin 4MiB |\n", - "| 0 N/A N/A 2911 G /usr/bin/dolphin 4MiB |\n", - "| 0 N/A N/A 6634 G ...RendererForSitePerProcess 585MiB |\n", + "| 0 N/A N/A 1267 G /usr/lib/xorg/Xorg 574MiB |\n", + "| 0 N/A N/A 2054 G /usr/bin/kwalletd5 4MiB |\n", + "| 0 N/A N/A 2222 G ...ec/xdg-desktop-portal-kde 4MiB |\n", + "| 0 N/A N/A 2259 G /usr/bin/ksmserver 4MiB |\n", + "| 0 N/A N/A 2261 G /usr/bin/kded5 4MiB |\n", + "| 0 N/A N/A 2262 G /usr/bin/kwin_x11 97MiB |\n", + "| 0 N/A N/A 2309 G /usr/bin/plasmashell 130MiB |\n", + "| 0 N/A N/A 2332 G ...de-authentication-agent-1 4MiB |\n", + "| 0 N/A N/A 2399 G ...x-gnu/libexec/kdeconnectd 4MiB |\n", + "| 0 N/A N/A 2401 G .../usr/bin/telegram-desktop 7MiB |\n", + "| 0 N/A N/A 2415 G /usr/bin/kaccess 4MiB |\n", + "| 0 N/A N/A 2421 G .../libexec/DiscoverNotifier 4MiB |\n", + "| 0 N/A N/A 2438 G ...1/usr/lib/firefox/firefox 216MiB |\n", + "| 0 N/A N/A 2626 G /usr/bin/dolphin 4MiB |\n", + "| 0 N/A N/A 2774 G /usr/bin/dolphin 4MiB |\n", + "| 0 N/A N/A 2824 G /usr/bin/dolphin 4MiB |\n", + "| 0 N/A N/A 3559 G /usr/bin/dolphin 4MiB |\n", + "| 0 N/A N/A 3665 G /usr/bin/dolphin 4MiB |\n", + "| 0 N/A N/A 4830 G ...RendererForSitePerProcess 308MiB |\n", "+-----------------------------------------------------------------------------+\n" ] } @@ -92,7 +94,7 @@ }, { "cell_type": "code", - "execution_count": 5, + "execution_count": 3, "metadata": { "colab": { "base_uri": "https://localhost:8080/" @@ -130,7 +132,7 @@ }, { "cell_type": "code", - "execution_count": 6, + "execution_count": 4, "metadata": {}, "outputs": [ { @@ -142,7 +144,7 @@ "})" ] }, - "execution_count": 6, + "execution_count": 4, "metadata": {}, "output_type": "execute_result" } @@ -153,7 +155,7 @@ }, { "cell_type": "code", - "execution_count": 7, + "execution_count": 5, "metadata": {}, "outputs": [ { @@ -162,7 +164,7 @@ "0" ] }, - "execution_count": 7, + "execution_count": 5, "metadata": {}, "output_type": "execute_result" } @@ -174,7 +176,7 @@ }, { "cell_type": "code", - "execution_count": 8, + "execution_count": 6, "metadata": { "id": "kbyq6lDgQc2a" }, @@ -186,7 +188,7 @@ }, { "cell_type": "code", - "execution_count": 9, + "execution_count": 7, "metadata": { "id": "72737oog2F6U" }, @@ -212,7 +214,7 @@ }, { "cell_type": "code", - "execution_count": 10, + "execution_count": 8, "metadata": { "colab": { "base_uri": "https://localhost:8080/", @@ -246,43 +248,43 @@ " \n", " \n", " 0\n", - " Щоночі одна півсотня ночувала у лісі, друга — в селі.\n", + " У червоних — невдачі на фронті.\n", " \n", " \n", " 1\n", - " І зараз за тим днем твоя доля зміниться на краще.\n", + " Він нагадував недавні ночі в кам'янському парку.\n", " \n", " \n", " 2\n", - " Оп'ять Ірисю посила:\n", + " Творення займенників\n", " \n", " \n", " 3\n", - " Рушниця впала по той бік плоту.\n", + " Коли бідний жениться, ніч мала.\n", " \n", " \n", " 4\n", - " Загуде вона, як гром.\n", + " Чорнота і Бугай злізли з дерев і пішли назирцем.\n", " \n", " \n", " 5\n", - " Дружина не витримує і сміється.\n", + " крик.\n", " \n", " \n", " 6\n", - " Люблю, тільки боюся говорити.\n", + " Крім того, мало не завжди погода примушує його десь заночувати.\n", " \n", " \n", " 7\n", - " Звір заревів востаннє, сіпнувся головою назад і зник під водою.\n", + " Така вже мода тепер.\n", " \n", " \n", " 8\n", - " Про їзду риссю не могло бути й мови.\n", + " Летить що має сили до вікна і — грим грудьми до шибки.\n", " \n", " \n", " 9\n", - " Ми заночували в Бондуровій, — червоні — в Баландиному.\n", + " Ворожа лава проминула вже балку, а Василенко не стріляв.\n", " \n", " \n", "" @@ -301,7 +303,7 @@ }, { "cell_type": "code", - "execution_count": 11, + "execution_count": 9, "metadata": { "colab": { "base_uri": "https://localhost:8080/" @@ -323,25 +325,8 @@ "outputs": [ { "data": { - "application/json": { - "ascii": false, - "bar_format": null, - "colour": null, - "elapsed": 0.018886804580688477, - "initial": 0, - "n": 0, - "ncols": null, - "nrows": null, - "postfix": null, - "prefix": "", - "rate": null, - "total": 12, - "unit": "ba", - "unit_divisor": 1000, - "unit_scale": false - }, "application/vnd.jupyter.widget-view+json": { - "model_id": "609c1f72241d438999ec5fffaf0f23f5", + "model_id": "cac2ebe21a844f7c8d3699f811555e9c", "version_major": 2, "version_minor": 0 }, @@ -354,25 +339,8 @@ }, { "data": { - "application/json": { - "ascii": false, - "bar_format": null, - "colour": null, - "elapsed": 0.011157989501953125, - "initial": 0, - "n": 0, - "ncols": null, - "nrows": null, - "postfix": null, - "prefix": "", - "rate": null, - "total": 7, - "unit": "ba", - "unit_divisor": 1000, - "unit_scale": false - }, "application/vnd.jupyter.widget-view+json": { - "model_id": "29df50a982df4687ae195c2edd1145d3", + "model_id": "7068bb21616a4fd3b4eb1976653787d1", "version_major": 2, "version_minor": 0 }, @@ -392,7 +360,7 @@ }, { "cell_type": "code", - "execution_count": 12, + "execution_count": 10, "metadata": { "id": "ZcVsD0ETElrR" }, @@ -403,7 +371,7 @@ "{'sentence': \"привіт як у тебе справи загалом м'якотілий друже\"}" ] }, - "execution_count": 12, + "execution_count": 10, "metadata": {}, "output_type": "execute_result" } @@ -425,7 +393,7 @@ " \"..\": \" \",\n", " \" '\": \" \",\n", " \"О'\": \"о\",\n", - " \"-\": \"\" #further check needed\n", + " \"-\": \" \" #further check needed\n", " }\n", " # check abbreviations later\n", " abbreviations = {\n", @@ -475,7 +443,7 @@ }, { "cell_type": "code", - "execution_count": 13, + "execution_count": 11, "metadata": { "colab": { "base_uri": "https://localhost:8080/", @@ -498,25 +466,8 @@ "outputs": [ { "data": { - "application/json": { - "ascii": false, - "bar_format": null, - "colour": null, - "elapsed": 0.014832735061645508, - "initial": 0, - "n": 0, - "ncols": null, - "nrows": null, - "postfix": null, - "prefix": "", - "rate": null, - "total": 11463, - "unit": "ex", - "unit_divisor": 1000, - "unit_scale": false - }, "application/vnd.jupyter.widget-view+json": { - "model_id": "0fc7a813101e45a9866279d6d06f4d4f", + "model_id": "21f88692aec04acea6056893c8b6b1bc", "version_major": 2, "version_minor": 0 }, @@ -540,43 +491,43 @@ " \n", " \n", " 0\n", - " простіть\n", + " отаманенко почав пояснювати з наукової точки але дід перебив його\n", " \n", " \n", " 1\n", - " полковник дасть вам проїзні документи до табору\n", + " енею глуздівно сказав\n", " \n", " \n", " 2\n", - " зараз тільки про це йде мова\n", + " ні розвідки вперед ні стежі до лісу\n", " \n", " \n", " 3\n", - " у мене лопата вартий на килимі до кам'янки вернутися\n", + " ну ну та я нічого не кажу\n", " \n", " \n", " 4\n", - " хотілося взнати про холодний яр про долю товаришів\n", + " якось прийшов зв'язковий із мельників\n", " \n", " \n", " 5\n", - " а той слухає уважно перепитує\n", + " я хоч не з мельників так мені оповідав батько був козаком у холодному яру\n", " \n", " \n", " 6\n", - " чи то образ перемінився в чоловіка чи чоловік був у тім образі\n", + " ну бо\n", " \n", " \n", " 7\n", - " кінь\n", + " макітру одділив од плеч\n", " \n", " \n", " 8\n", - " у самців вусики трохи довші а у самок дещо коротші за тіло\n", + " видно стріляла розвідка ударників що йшла із собакою попереду групи\n", " \n", " \n", " 9\n", - " чорний туман що сповивав усе довкола поволі сірів\n", + " левко слабий лежить просить щоб зайшов\n", " \n", " \n", "" @@ -595,37 +546,20 @@ }, { "cell_type": "code", - "execution_count": 14, + "execution_count": 12, "metadata": {}, "outputs": [ { "name": "stderr", "output_type": "stream", "text": [ - "Loading cached processed dataset at /home/robinhad/.cache/huggingface/datasets/mozilla-foundation___common_voice_10_0/uk/10.0.0/27df768ab1b5cac48a7616f145b79b62599167b0ffa2e054bf4c3e74e9619e5e/cache-890587fbc5f83609.arrow\n" + "Loading cached processed dataset at /home/robinhad/.cache/huggingface/datasets/mozilla-foundation___common_voice_10_0/uk/10.0.0/27df768ab1b5cac48a7616f145b79b62599167b0ffa2e054bf4c3e74e9619e5e/cache-96af4ec6cf30f0d6.arrow\n" ] }, { "data": { - "application/json": { - "ascii": false, - "bar_format": null, - "colour": null, - "elapsed": 0.012672662734985352, - "initial": 0, - "n": 0, - "ncols": null, - "nrows": null, - "postfix": null, - "prefix": "", - "rate": null, - "total": 6783, - "unit": "ex", - "unit_divisor": 1000, - "unit_scale": false - }, "application/vnd.jupyter.widget-view+json": { - "model_id": "c10e3f80cadb49a7951a2a6863af53bf", + "model_id": "217b24de248145d3af8d71497dc39b6e", "version_major": 2, "version_minor": 0 }, @@ -644,7 +578,7 @@ }, { "cell_type": "code", - "execution_count": 15, + "execution_count": 13, "metadata": { "colab": { "base_uri": "https://localhost:8080/", @@ -678,43 +612,43 @@ " \n", " \n", " 0\n", - " спостерігаючи за їхніми спокійними рухами пригадую роботу чекістів у льоху для розстрілів\n", + " чому алгоритм зупиниться\n", " \n", " \n", " 1\n", - " сірого били дрючками селяни що упіймали його з парою крадених коней\n", + " конем\n", " \n", " \n", " 2\n", - " мав лише револьвер далековид і планшет із мапою\n", + " наступного дня нас прийняли на службу до міліції\n", " \n", " \n", " 3\n", - " коли еней мене бажа\n", + " я знав що це неправда\n", " \n", " \n", " 4\n", - " ось і волость\n", + " і взявши з запічка кресало\n", " \n", " \n", " 5\n", - " і посмоктали кісточки\n", + " скоріше б на гору бо тачанки ар'єргарду вже відкрили вогонь\n", " \n", " \n", " 6\n", - " скакати високо\n", + " удень відтягалася вглиб села залишаючи наглядати за виходом із міста неозброєних\n", " \n", " \n", " 7\n", - " я стрепенувся і відкрив повіки\n", + " чи співвідноситься це твердження з поняттям карми\n", " \n", " \n", " 8\n", - " нападом на кінноту ми себе виявили\n", + " селяни мусили шукати бодай якоїсь їжі\n", " \n", " \n", " 9\n", - " червоні розгубилися і в безладі закрутилися на місці\n", + " більшість убитих і полонених були одягнені в селянські кожухи\n", " \n", " \n", "" @@ -733,7 +667,7 @@ }, { "cell_type": "code", - "execution_count": 16, + "execution_count": 14, "metadata": { "id": "LwCshNbbeRZR" }, @@ -747,7 +681,7 @@ }, { "cell_type": "code", - "execution_count": 17, + "execution_count": 15, "metadata": { "colab": { "base_uri": "https://localhost:8080/", @@ -794,25 +728,8 @@ "outputs": [ { "data": { - "application/json": { - "ascii": false, - "bar_format": null, - "colour": null, - "elapsed": 0.01583385467529297, - "initial": 0, - "n": 0, - "ncols": null, - "nrows": null, - "postfix": null, - "prefix": "", - "rate": null, - "total": 1, - "unit": "ba", - "unit_divisor": 1000, - "unit_scale": false - }, "application/vnd.jupyter.widget-view+json": { - "model_id": "3ba1ea8f16284564b96209d4ac0fe9b2", + "model_id": "3324cb796c2e4ac582a6ba5386336e8f", "version_major": 2, "version_minor": 0 }, @@ -825,25 +742,8 @@ }, { "data": { - "application/json": { - "ascii": false, - "bar_format": null, - "colour": null, - "elapsed": 0.006883859634399414, - "initial": 0, - "n": 0, - "ncols": null, - "nrows": null, - "postfix": null, - "prefix": "", - "rate": null, - "total": 1, - "unit": "ba", - "unit_divisor": 1000, - "unit_scale": false - }, "application/vnd.jupyter.widget-view+json": { - "model_id": "24cf52aaa5534c3d94b2c749af19dd86", + "model_id": "b27a77fd9fe54cceba55cc3de23fac60", "version_major": 2, "version_minor": 0 }, @@ -862,7 +762,7 @@ }, { "cell_type": "code", - "execution_count": 18, + "execution_count": 16, "metadata": { "id": "aQfneNsmlJI0" }, @@ -873,7 +773,7 @@ }, { "cell_type": "code", - "execution_count": 19, + "execution_count": 17, "metadata": { "colab": { "base_uri": "https://localhost:8080/" @@ -933,7 +833,7 @@ " 'ґ': 34}" ] }, - "execution_count": 19, + "execution_count": 17, "metadata": {}, "output_type": "execute_result" } @@ -945,7 +845,7 @@ }, { "cell_type": "code", - "execution_count": 20, + "execution_count": 18, "metadata": { "id": "npbIbBoLgaFX" }, @@ -957,7 +857,7 @@ }, { "cell_type": "code", - "execution_count": 21, + "execution_count": 19, "metadata": { "colab": { "base_uri": "https://localhost:8080/" @@ -983,7 +883,7 @@ "37" ] }, - "execution_count": 21, + "execution_count": 19, "metadata": {}, "output_type": "execute_result" } @@ -996,7 +896,7 @@ }, { "cell_type": "code", - "execution_count": 22, + "execution_count": 20, "metadata": { "id": "ehyUoh9vk191" }, @@ -1009,7 +909,7 @@ }, { "cell_type": "code", - "execution_count": 23, + "execution_count": 21, "metadata": { "colab": { "base_uri": "https://localhost:8080/" @@ -1045,7 +945,7 @@ }, { "cell_type": "code", - "execution_count": 24, + "execution_count": 22, "metadata": { "id": "A1XApZBAF2zr" }, @@ -1056,7 +956,7 @@ }, { "cell_type": "code", - "execution_count": 26, + "execution_count": 23, "metadata": { "id": "kAR0-2KLkopp" }, @@ -1069,7 +969,7 @@ }, { "cell_type": "code", - "execution_count": 27, + "execution_count": 24, "metadata": { "id": "KYZtoW-tlZgl" }, @@ -1082,7 +982,7 @@ }, { "cell_type": "code", - "execution_count": 28, + "execution_count": 25, "metadata": {}, "outputs": [], "source": [ @@ -1092,7 +992,7 @@ }, { "cell_type": "code", - "execution_count": 29, + "execution_count": 26, "metadata": { "colab": { "base_uri": "https://localhost:8080/", @@ -1119,7 +1019,7 @@ "'/home/robinhad/.cache/huggingface/datasets/downloads/extracted/ee7155196e5d51620d53e48cf58eb693b7839b8ff183604c8bb948d3e0aad92d/cv-corpus-10.0-2022-07-04/uk/clips/common_voice_uk_20907128.mp3'" ] }, - "execution_count": 29, + "execution_count": 26, "metadata": {}, "output_type": "execute_result" } @@ -1130,7 +1030,7 @@ }, { "cell_type": "code", - "execution_count": 30, + "execution_count": 27, "metadata": { "colab": { "base_uri": "https://localhost:8080/" @@ -1159,7 +1059,7 @@ " 'sampling_rate': 48000}" ] }, - "execution_count": 30, + "execution_count": 27, "metadata": {}, "output_type": "execute_result" } @@ -1170,7 +1070,7 @@ }, { "cell_type": "code", - "execution_count": 31, + "execution_count": 28, "metadata": { "id": "rrv65aj7G95i" }, @@ -1182,7 +1082,7 @@ }, { "cell_type": "code", - "execution_count": 32, + "execution_count": 29, "metadata": { "colab": { "base_uri": "https://localhost:8080/" @@ -1211,7 +1111,7 @@ " 'sampling_rate': 16000}" ] }, - "execution_count": 32, + "execution_count": 29, "metadata": {}, "output_type": "execute_result" } @@ -1222,7 +1122,7 @@ }, { "cell_type": "code", - "execution_count": 33, + "execution_count": 30, "metadata": { "colab": { "base_uri": "https://localhost:8080/", @@ -1247,7 +1147,7 @@ "name": "stdout", "output_type": "stream", "text": [ - "що ж хоч утекти можна вкупі з нею\n" + "здогадалась дівочити по семій дитині\n" ] }, { @@ -1255,7 +1155,7 @@ "text/html": [ "\n", " \n", " " @@ -1264,7 +1164,7 @@ "" ] }, - "execution_count": 33, + "execution_count": 30, "metadata": {}, "output_type": "execute_result" } @@ -1282,7 +1182,7 @@ }, { "cell_type": "code", - "execution_count": 34, + "execution_count": 31, "metadata": { "colab": { "base_uri": "https://localhost:8080/" @@ -1306,8 +1206,8 @@ "name": "stdout", "output_type": "stream", "text": [ - "Target text: троє\n", - "Input array shape: (26496,)\n", + "Target text: там і стали на ночівлю\n", + "Input array shape: (36288,)\n", "Sampling rate: 16000\n" ] } @@ -1322,7 +1222,7 @@ }, { "cell_type": "code", - "execution_count": 35, + "execution_count": 32, "metadata": { "id": "eJY7I0XAwe9p" }, @@ -1342,7 +1242,7 @@ }, { "cell_type": "code", - "execution_count": 36, + "execution_count": 33, "metadata": { "colab": { "base_uri": "https://localhost:8080/", @@ -1378,25 +1278,8 @@ "outputs": [ { "data": { - "application/json": { - "ascii": false, - "bar_format": null, - "colour": null, - "elapsed": 0.0130767822265625, - "initial": 0, - "n": 0, - "ncols": null, - "nrows": null, - "postfix": null, - "prefix": "", - "rate": null, - "total": 11463, - "unit": "ex", - "unit_divisor": 1000, - "unit_scale": false - }, "application/vnd.jupyter.widget-view+json": { - "model_id": "9b61f7e540b64679b38d986c03621299", + "model_id": "a4013929a3b945ef9dcd3041f0cc3e91", "version_major": 2, "version_minor": 0 }, @@ -1409,25 +1292,8 @@ }, { "data": { - "application/json": { - "ascii": false, - "bar_format": null, - "colour": null, - "elapsed": 0.007035732269287109, - "initial": 0, - "n": 0, - "ncols": null, - "nrows": null, - "postfix": null, - "prefix": "", - "rate": null, - "total": 6783, - "unit": "ex", - "unit_divisor": 1000, - "unit_scale": false - }, "application/vnd.jupyter.widget-view+json": { - "model_id": "6710267a647b45c89a24800f79d88d15", + "model_id": "785794e2e56b4260bea488093f20798e", "version_major": 2, "version_minor": 0 }, @@ -1458,16 +1324,24 @@ }, { "cell_type": "code", - "execution_count": 37, + "execution_count": 35, "metadata": {}, - "outputs": [], + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "mkdir: cannot create directory ‘cached_dataset’: File exists\n" + ] + } + ], "source": [ "!mkdir cached_dataset" ] }, { "cell_type": "code", - "execution_count": 38, + "execution_count": 36, "metadata": {}, "outputs": [], "source": [ @@ -1476,7 +1350,7 @@ }, { "cell_type": "code", - "execution_count": 39, + "execution_count": 37, "metadata": {}, "outputs": [], "source": [ @@ -1498,7 +1372,7 @@ ] }, "kernelspec": { - "display_name": "Python 3.9.13 (conda)", + "display_name": "Python 3 (ipykernel)", "language": "python", "name": "python3" }, @@ -1512,7 +1386,7 @@ "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", - "version": "3.9.13" + "version": "3.10.6" }, "vscode": { "interpreter": {