marinone94 commited on
Commit
d4f5dc4
1 Parent(s): 74350cc

update eval results

Browse files
README.md CHANGED
@@ -24,10 +24,10 @@ model-index:
24
  metrics:
25
  - name: Test WER
26
  type: wer
27
- value: 9.44
28
  - name: Test CER
29
  type: cer
30
- value: 3.29
31
  - task:
32
  name: Automatic Speech Recognition
33
  type: automatic-speech-recognition
@@ -38,10 +38,10 @@ model-index:
38
  metrics:
39
  - name: Test WER
40
  type: wer
41
- value: 19.63
42
  - name: Test CER
43
  type: cer
44
- value: 9.06
45
  ---
46
 
47
  #
24
  metrics:
25
  - name: Test WER
26
  type: wer
27
+ value: 8.72
28
  - name: Test CER
29
  type: cer
30
+ value: 3.05
31
  - task:
32
  name: Automatic Speech Recognition
33
  type: automatic-speech-recognition
38
  metrics:
39
  - name: Test WER
40
  type: wer
41
+ value: 19.67
42
  - name: Test CER
43
  type: cer
44
+ value: 8.94
45
  ---
46
 
47
  #
eda.ipynb CHANGED
@@ -2,7 +2,7 @@
2
  "cells": [
3
  {
4
  "cell_type": "code",
5
- "execution_count": 5,
6
  "id": "c9526c52",
7
  "metadata": {},
8
  "outputs": [],
@@ -13,7 +13,7 @@
13
  },
14
  {
15
  "cell_type": "code",
16
- "execution_count": 44,
17
  "id": "663ff92e",
18
  "metadata": {},
19
  "outputs": [],
@@ -23,20 +23,20 @@
23
  },
24
  {
25
  "cell_type": "code",
26
- "execution_count": 6,
27
  "id": "cc9f1c45",
28
  "metadata": {},
29
  "outputs": [],
30
  "source": [
31
- "dataset_name = \"mozilla-foundation/common_voice_7_0\"\n",
32
- "dataset_config_name = \"sv-SE\"\n",
33
- "train_split_name = \"train+validation\"\n",
34
  "use_auth_token = True"
35
  ]
36
  },
37
  {
38
  "cell_type": "code",
39
- "execution_count": 7,
40
  "id": "21fd7030",
41
  "metadata": {},
42
  "outputs": [],
@@ -46,110 +46,20 @@
46
  },
47
  {
48
  "cell_type": "code",
49
- "execution_count": 4,
50
  "id": "81a27912",
51
  "metadata": {},
52
  "outputs": [
53
  {
54
- "data": {
55
- "application/vnd.jupyter.widget-view+json": {
56
- "model_id": "92387075d7064947bfe8117d393afa30",
57
- "version_major": 2,
58
- "version_minor": 0
59
- },
60
- "text/plain": [
61
- "Downloading: 0%| | 0.00/9.88k [00:00<?, ?B/s]"
62
- ]
63
- },
64
- "metadata": {},
65
- "output_type": "display_data"
66
- },
67
- {
68
- "data": {
69
- "application/vnd.jupyter.widget-view+json": {
70
- "model_id": "7610803e99ac4fba9529711bf7668d66",
71
- "version_major": 2,
72
- "version_minor": 0
73
- },
74
- "text/plain": [
75
- "Downloading: 0%| | 0.00/2.98k [00:00<?, ?B/s]"
76
- ]
77
- },
78
- "metadata": {},
79
- "output_type": "display_data"
80
- },
81
- {
82
- "data": {
83
- "application/vnd.jupyter.widget-view+json": {
84
- "model_id": "6f5c59109df240e79714106f54cc1d8a",
85
- "version_major": 2,
86
- "version_minor": 0
87
- },
88
- "text/plain": [
89
- "Downloading: 0%| | 0.00/53.1k [00:00<?, ?B/s]"
90
- ]
91
- },
92
- "metadata": {},
93
- "output_type": "display_data"
94
- },
95
- {
96
- "name": "stdout",
97
  "output_type": "stream",
98
  "text": [
99
- "Downloading and preparing dataset common_voice/sv-SE to /Users/emiliomarinone/.cache/huggingface/datasets/mozilla-foundation___common_voice/sv-SE/8.0.0/7c985b71d3a4f98ad5985f8eff1035a7084ddbbb84f01591cd095991e7c2499e...\n"
100
- ]
101
- },
102
- {
103
- "data": {
104
- "application/vnd.jupyter.widget-view+json": {
105
- "model_id": "b8cfd99809dd41f2a25248f384b0c73a",
106
- "version_major": 2,
107
- "version_minor": 0
108
- },
109
- "text/plain": [
110
- "Downloading: 0%| | 0.00/1.11G [00:00<?, ?B/s]"
111
- ]
112
- },
113
- "metadata": {},
114
- "output_type": "display_data"
115
- },
116
- {
117
- "data": {
118
- "application/vnd.jupyter.widget-view+json": {
119
- "model_id": "",
120
- "version_major": 2,
121
- "version_minor": 0
122
- },
123
- "text/plain": [
124
- "0 examples [00:00, ? examples/s]"
125
- ]
126
- },
127
- "metadata": {},
128
- "output_type": "display_data"
129
- },
130
- {
131
- "ename": "KeyError",
132
- "evalue": "'accents'",
133
- "output_type": "error",
134
- "traceback": [
135
- "\u001b[0;31m---------------------------------------------------------------------------\u001b[0m",
136
- "\u001b[0;31mKeyError\u001b[0m Traceback (most recent call last)",
137
- "Input \u001b[0;32mIn [4]\u001b[0m, in \u001b[0;36m<module>\u001b[0;34m\u001b[0m\n\u001b[0;32m----> 1\u001b[0m raw_datasets[\u001b[38;5;124m\"\u001b[39m\u001b[38;5;124mtrain\u001b[39m\u001b[38;5;124m\"\u001b[39m] \u001b[38;5;241m=\u001b[39m \u001b[43mload_dataset\u001b[49m\u001b[43m(\u001b[49m\n\u001b[1;32m 2\u001b[0m \u001b[43m \u001b[49m\u001b[43mdataset_name\u001b[49m\u001b[43m,\u001b[49m\n\u001b[1;32m 3\u001b[0m \u001b[43m \u001b[49m\u001b[43mdataset_config_name\u001b[49m\u001b[43m,\u001b[49m\n\u001b[1;32m 4\u001b[0m \u001b[43m \u001b[49m\u001b[43msplit\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[43mtrain_split_name\u001b[49m\u001b[43m,\u001b[49m\n\u001b[1;32m 5\u001b[0m \u001b[43m \u001b[49m\u001b[43muse_auth_token\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[43muse_auth_token\u001b[49m\u001b[43m,\u001b[49m\n\u001b[1;32m 6\u001b[0m \u001b[43m)\u001b[49m\n",
138
- "File \u001b[0;32m~/Repos/datasets/src/datasets/load.py:1694\u001b[0m, in \u001b[0;36mload_dataset\u001b[0;34m(path, name, data_dir, data_files, split, cache_dir, features, download_config, download_mode, ignore_verifications, keep_in_memory, save_infos, revision, use_auth_token, task, streaming, script_version, **config_kwargs)\u001b[0m\n\u001b[1;32m 1691\u001b[0m try_from_hf_gcs \u001b[38;5;241m=\u001b[39m path \u001b[38;5;129;01mnot\u001b[39;00m \u001b[38;5;129;01min\u001b[39;00m _PACKAGED_DATASETS_MODULES\n\u001b[1;32m 1693\u001b[0m \u001b[38;5;66;03m# Download and prepare data\u001b[39;00m\n\u001b[0;32m-> 1694\u001b[0m \u001b[43mbuilder_instance\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mdownload_and_prepare\u001b[49m\u001b[43m(\u001b[49m\n\u001b[1;32m 1695\u001b[0m \u001b[43m \u001b[49m\u001b[43mdownload_config\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[43mdownload_config\u001b[49m\u001b[43m,\u001b[49m\n\u001b[1;32m 1696\u001b[0m \u001b[43m \u001b[49m\u001b[43mdownload_mode\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[43mdownload_mode\u001b[49m\u001b[43m,\u001b[49m\n\u001b[1;32m 1697\u001b[0m \u001b[43m \u001b[49m\u001b[43mignore_verifications\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[43mignore_verifications\u001b[49m\u001b[43m,\u001b[49m\n\u001b[1;32m 1698\u001b[0m \u001b[43m \u001b[49m\u001b[43mtry_from_hf_gcs\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[43mtry_from_hf_gcs\u001b[49m\u001b[43m,\u001b[49m\n\u001b[1;32m 1699\u001b[0m \u001b[43m \u001b[49m\u001b[43muse_auth_token\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[43muse_auth_token\u001b[49m\u001b[43m,\u001b[49m\n\u001b[1;32m 1700\u001b[0m \u001b[43m\u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m 1702\u001b[0m \u001b[38;5;66;03m# Build dataset for splits\u001b[39;00m\n\u001b[1;32m 1703\u001b[0m keep_in_memory \u001b[38;5;241m=\u001b[39m (\n\u001b[1;32m 1704\u001b[0m keep_in_memory \u001b[38;5;28;01mif\u001b[39;00m keep_in_memory \u001b[38;5;129;01mis\u001b[39;00m \u001b[38;5;129;01mnot\u001b[39;00m \u001b[38;5;28;01mNone\u001b[39;00m \u001b[38;5;28;01melse\u001b[39;00m is_small_dataset(builder_instance\u001b[38;5;241m.\u001b[39minfo\u001b[38;5;241m.\u001b[39mdataset_size)\n\u001b[1;32m 1705\u001b[0m )\n",
139
- "File \u001b[0;32m~/Repos/datasets/src/datasets/builder.py:595\u001b[0m, in \u001b[0;36mDatasetBuilder.download_and_prepare\u001b[0;34m(self, download_config, download_mode, ignore_verifications, try_from_hf_gcs, dl_manager, base_path, use_auth_token, **download_and_prepare_kwargs)\u001b[0m\n\u001b[1;32m 593\u001b[0m logger\u001b[38;5;241m.\u001b[39mwarning(\u001b[38;5;124m\"\u001b[39m\u001b[38;5;124mHF google storage unreachable. Downloading and preparing it from source\u001b[39m\u001b[38;5;124m\"\u001b[39m)\n\u001b[1;32m 594\u001b[0m \u001b[38;5;28;01mif\u001b[39;00m \u001b[38;5;129;01mnot\u001b[39;00m downloaded_from_gcs:\n\u001b[0;32m--> 595\u001b[0m \u001b[38;5;28;43mself\u001b[39;49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43m_download_and_prepare\u001b[49m\u001b[43m(\u001b[49m\n\u001b[1;32m 596\u001b[0m \u001b[43m \u001b[49m\u001b[43mdl_manager\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[43mdl_manager\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43mverify_infos\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[43mverify_infos\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[43mdownload_and_prepare_kwargs\u001b[49m\n\u001b[1;32m 597\u001b[0m \u001b[43m \u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m 598\u001b[0m \u001b[38;5;66;03m# Sync info\u001b[39;00m\n\u001b[1;32m 599\u001b[0m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39minfo\u001b[38;5;241m.\u001b[39mdataset_size \u001b[38;5;241m=\u001b[39m \u001b[38;5;28msum\u001b[39m(split\u001b[38;5;241m.\u001b[39mnum_bytes \u001b[38;5;28;01mfor\u001b[39;00m split \u001b[38;5;129;01min\u001b[39;00m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39minfo\u001b[38;5;241m.\u001b[39msplits\u001b[38;5;241m.\u001b[39mvalues())\n",
140
- "File \u001b[0;32m~/Repos/datasets/src/datasets/builder.py:684\u001b[0m, in \u001b[0;36mDatasetBuilder._download_and_prepare\u001b[0;34m(self, dl_manager, verify_infos, **prepare_split_kwargs)\u001b[0m\n\u001b[1;32m 680\u001b[0m split_dict\u001b[38;5;241m.\u001b[39madd(split_generator\u001b[38;5;241m.\u001b[39msplit_info)\n\u001b[1;32m 682\u001b[0m \u001b[38;5;28;01mtry\u001b[39;00m:\n\u001b[1;32m 683\u001b[0m \u001b[38;5;66;03m# Prepare split will record examples associated to the split\u001b[39;00m\n\u001b[0;32m--> 684\u001b[0m \u001b[38;5;28;43mself\u001b[39;49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43m_prepare_split\u001b[49m\u001b[43m(\u001b[49m\u001b[43msplit_generator\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[43mprepare_split_kwargs\u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m 685\u001b[0m \u001b[38;5;28;01mexcept\u001b[39;00m \u001b[38;5;167;01mOSError\u001b[39;00m \u001b[38;5;28;01mas\u001b[39;00m e:\n\u001b[1;32m 686\u001b[0m \u001b[38;5;28;01mraise\u001b[39;00m \u001b[38;5;167;01mOSError\u001b[39;00m(\n\u001b[1;32m 687\u001b[0m \u001b[38;5;124m\"\u001b[39m\u001b[38;5;124mCannot find data file. \u001b[39m\u001b[38;5;124m\"\u001b[39m\n\u001b[1;32m 688\u001b[0m \u001b[38;5;241m+\u001b[39m (\u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mmanual_download_instructions \u001b[38;5;129;01mor\u001b[39;00m \u001b[38;5;124m\"\u001b[39m\u001b[38;5;124m\"\u001b[39m)\n\u001b[1;32m 689\u001b[0m \u001b[38;5;241m+\u001b[39m \u001b[38;5;124m\"\u001b[39m\u001b[38;5;130;01m\\n\u001b[39;00m\u001b[38;5;124mOriginal error:\u001b[39m\u001b[38;5;130;01m\\n\u001b[39;00m\u001b[38;5;124m\"\u001b[39m\n\u001b[1;32m 690\u001b[0m \u001b[38;5;241m+\u001b[39m \u001b[38;5;28mstr\u001b[39m(e)\n\u001b[1;32m 691\u001b[0m ) \u001b[38;5;28;01mfrom\u001b[39;00m \u001b[38;5;28mNone\u001b[39m\n",
141
- "File \u001b[0;32m~/Repos/datasets/src/datasets/builder.py:1083\u001b[0m, in \u001b[0;36mGeneratorBasedBuilder._prepare_split\u001b[0;34m(self, split_generator)\u001b[0m\n\u001b[1;32m 1075\u001b[0m \u001b[38;5;28;01mtry\u001b[39;00m:\n\u001b[1;32m 1076\u001b[0m \u001b[38;5;28;01mfor\u001b[39;00m key, record \u001b[38;5;129;01min\u001b[39;00m utils\u001b[38;5;241m.\u001b[39mtqdm(\n\u001b[1;32m 1077\u001b[0m generator,\n\u001b[1;32m 1078\u001b[0m unit\u001b[38;5;241m=\u001b[39m\u001b[38;5;124m\"\u001b[39m\u001b[38;5;124m examples\u001b[39m\u001b[38;5;124m\"\u001b[39m,\n\u001b[0;32m (...)\u001b[0m\n\u001b[1;32m 1081\u001b[0m disable\u001b[38;5;241m=\u001b[39m\u001b[38;5;28mbool\u001b[39m(logging\u001b[38;5;241m.\u001b[39mget_verbosity() \u001b[38;5;241m==\u001b[39m logging\u001b[38;5;241m.\u001b[39mNOTSET),\n\u001b[1;32m 1082\u001b[0m ):\n\u001b[0;32m-> 1083\u001b[0m example \u001b[38;5;241m=\u001b[39m \u001b[38;5;28;43mself\u001b[39;49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43minfo\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mfeatures\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mencode_example\u001b[49m\u001b[43m(\u001b[49m\u001b[43mrecord\u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m 1084\u001b[0m writer\u001b[38;5;241m.\u001b[39mwrite(example, key)\n\u001b[1;32m 1085\u001b[0m \u001b[38;5;28;01mfinally\u001b[39;00m:\n",
142
- "File \u001b[0;32m~/Repos/datasets/src/datasets/features/features.py:1214\u001b[0m, in \u001b[0;36mFeatures.encode_example\u001b[0;34m(self, example)\u001b[0m\n\u001b[1;32m 1204\u001b[0m \u001b[38;5;124;03m\"\"\"\u001b[39;00m\n\u001b[1;32m 1205\u001b[0m \u001b[38;5;124;03mEncode example into a format for Arrow.\u001b[39;00m\n\u001b[1;32m 1206\u001b[0m \n\u001b[0;32m (...)\u001b[0m\n\u001b[1;32m 1211\u001b[0m \u001b[38;5;124;03m :obj:`dict[str, Any]`\u001b[39;00m\n\u001b[1;32m 1212\u001b[0m \u001b[38;5;124;03m\"\"\"\u001b[39;00m\n\u001b[1;32m 1213\u001b[0m example \u001b[38;5;241m=\u001b[39m cast_to_python_objects(example)\n\u001b[0;32m-> 1214\u001b[0m \u001b[38;5;28;01mreturn\u001b[39;00m \u001b[43mencode_nested_example\u001b[49m\u001b[43m(\u001b[49m\u001b[38;5;28;43mself\u001b[39;49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43mexample\u001b[49m\u001b[43m)\u001b[49m\n",
143
- "File \u001b[0;32m~/Repos/datasets/src/datasets/features/features.py:976\u001b[0m, in \u001b[0;36mencode_nested_example\u001b[0;34m(schema, obj)\u001b[0m\n\u001b[1;32m 974\u001b[0m \u001b[38;5;66;03m# Nested structures: we allow dict, list/tuples, sequences\u001b[39;00m\n\u001b[1;32m 975\u001b[0m \u001b[38;5;28;01mif\u001b[39;00m \u001b[38;5;28misinstance\u001b[39m(schema, \u001b[38;5;28mdict\u001b[39m):\n\u001b[0;32m--> 976\u001b[0m \u001b[38;5;28;01mreturn\u001b[39;00m {\n\u001b[1;32m 977\u001b[0m k: encode_nested_example(sub_schema, sub_obj) \u001b[38;5;28;01mfor\u001b[39;00m k, (sub_schema, sub_obj) \u001b[38;5;129;01min\u001b[39;00m utils\u001b[38;5;241m.\u001b[39mzip_dict(schema, obj)\n\u001b[1;32m 978\u001b[0m }\n\u001b[1;32m 979\u001b[0m \u001b[38;5;28;01melif\u001b[39;00m \u001b[38;5;28misinstance\u001b[39m(schema, (\u001b[38;5;28mlist\u001b[39m, \u001b[38;5;28mtuple\u001b[39m)):\n\u001b[1;32m 980\u001b[0m sub_schema \u001b[38;5;241m=\u001b[39m schema[\u001b[38;5;241m0\u001b[39m]\n",
144
- "File \u001b[0;32m~/Repos/datasets/src/datasets/features/features.py:976\u001b[0m, in \u001b[0;36m<dictcomp>\u001b[0;34m(.0)\u001b[0m\n\u001b[1;32m 974\u001b[0m \u001b[38;5;66;03m# Nested structures: we allow dict, list/tuples, sequences\u001b[39;00m\n\u001b[1;32m 975\u001b[0m \u001b[38;5;28;01mif\u001b[39;00m \u001b[38;5;28misinstance\u001b[39m(schema, \u001b[38;5;28mdict\u001b[39m):\n\u001b[0;32m--> 976\u001b[0m \u001b[38;5;28;01mreturn\u001b[39;00m {\n\u001b[1;32m 977\u001b[0m k: encode_nested_example(sub_schema, sub_obj) \u001b[38;5;28;01mfor\u001b[39;00m k, (sub_schema, sub_obj) \u001b[38;5;129;01min\u001b[39;00m utils\u001b[38;5;241m.\u001b[39mzip_dict(schema, obj)\n\u001b[1;32m 978\u001b[0m }\n\u001b[1;32m 979\u001b[0m \u001b[38;5;28;01melif\u001b[39;00m \u001b[38;5;28misinstance\u001b[39m(schema, (\u001b[38;5;28mlist\u001b[39m, \u001b[38;5;28mtuple\u001b[39m)):\n\u001b[1;32m 980\u001b[0m sub_schema \u001b[38;5;241m=\u001b[39m schema[\u001b[38;5;241m0\u001b[39m]\n",
145
- "File \u001b[0;32m~/Repos/datasets/src/datasets/utils/py_utils.py:153\u001b[0m, in \u001b[0;36mzip_dict\u001b[0;34m(*dicts)\u001b[0m\n\u001b[1;32m 150\u001b[0m \u001b[38;5;124;03m\"\"\"Iterate over items of dictionaries grouped by their keys.\"\"\"\u001b[39;00m\n\u001b[1;32m 151\u001b[0m \u001b[38;5;28;01mfor\u001b[39;00m key \u001b[38;5;129;01min\u001b[39;00m unique_values(itertools\u001b[38;5;241m.\u001b[39mchain(\u001b[38;5;241m*\u001b[39mdicts)): \u001b[38;5;66;03m# set merge all keys\u001b[39;00m\n\u001b[1;32m 152\u001b[0m \u001b[38;5;66;03m# Will raise KeyError if the dict don't have the same keys\u001b[39;00m\n\u001b[0;32m--> 153\u001b[0m \u001b[38;5;28;01myield\u001b[39;00m key, \u001b[38;5;28;43mtuple\u001b[39;49m\u001b[43m(\u001b[49m\u001b[43md\u001b[49m\u001b[43m[\u001b[49m\u001b[43mkey\u001b[49m\u001b[43m]\u001b[49m\u001b[43m \u001b[49m\u001b[38;5;28;43;01mfor\u001b[39;49;00m\u001b[43m \u001b[49m\u001b[43md\u001b[49m\u001b[43m \u001b[49m\u001b[38;5;129;43;01min\u001b[39;49;00m\u001b[43m \u001b[49m\u001b[43mdicts\u001b[49m\u001b[43m)\u001b[49m\n",
146
- "File \u001b[0;32m~/Repos/datasets/src/datasets/utils/py_utils.py:153\u001b[0m, in \u001b[0;36m<genexpr>\u001b[0;34m(.0)\u001b[0m\n\u001b[1;32m 150\u001b[0m \u001b[38;5;124;03m\"\"\"Iterate over items of dictionaries grouped by their keys.\"\"\"\u001b[39;00m\n\u001b[1;32m 151\u001b[0m \u001b[38;5;28;01mfor\u001b[39;00m key \u001b[38;5;129;01min\u001b[39;00m unique_values(itertools\u001b[38;5;241m.\u001b[39mchain(\u001b[38;5;241m*\u001b[39mdicts)): \u001b[38;5;66;03m# set merge all keys\u001b[39;00m\n\u001b[1;32m 152\u001b[0m \u001b[38;5;66;03m# Will raise KeyError if the dict don't have the same keys\u001b[39;00m\n\u001b[0;32m--> 153\u001b[0m \u001b[38;5;28;01myield\u001b[39;00m key, \u001b[38;5;28mtuple\u001b[39m(\u001b[43md\u001b[49m\u001b[43m[\u001b[49m\u001b[43mkey\u001b[49m\u001b[43m]\u001b[49m \u001b[38;5;28;01mfor\u001b[39;00m d \u001b[38;5;129;01min\u001b[39;00m dicts)\n",
147
- "\u001b[0;31mKeyError\u001b[0m: 'accents'"
148
  ]
149
  }
150
  ],
151
  "source": [
152
- "raw_datasets[\"train\"] = load_dataset(\n",
153
  " dataset_name,\n",
154
  " dataset_config_name,\n",
155
  " split=train_split_name,\n",
@@ -159,7 +69,7 @@
159
  },
160
  {
161
  "cell_type": "code",
162
- "execution_count": 8,
163
  "id": "7945cada",
164
  "metadata": {},
165
  "outputs": [
@@ -167,7 +77,29 @@
167
  "name": "stderr",
168
  "output_type": "stream",
169
  "text": [
170
- "Reusing dataset common_voice (/Users/emiliomarinone/.cache/huggingface/datasets/mozilla-foundation___common_voice/sv-SE/7.0.0/fe20cac47c166e25b1f096ab661832e3da7cf298ed4a91dcaa1343ad972d175b)\n"
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
171
  ]
172
  }
173
  ],
@@ -442,11 +374,71 @@
442
  },
443
  {
444
  "cell_type": "code",
445
- "execution_count": null,
446
  "id": "4f906c9c",
447
  "metadata": {},
448
  "outputs": [],
449
- "source": []
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
450
  }
451
  ],
452
  "metadata": {
2
  "cells": [
3
  {
4
  "cell_type": "code",
5
+ "execution_count": 1,
6
  "id": "c9526c52",
7
  "metadata": {},
8
  "outputs": [],
13
  },
14
  {
15
  "cell_type": "code",
16
+ "execution_count": 2,
17
  "id": "663ff92e",
18
  "metadata": {},
19
  "outputs": [],
23
  },
24
  {
25
  "cell_type": "code",
26
+ "execution_count": 3,
27
  "id": "cc9f1c45",
28
  "metadata": {},
29
  "outputs": [],
30
  "source": [
31
+ "dataset_name = \"speech-recognition-community-v2/dev_data\"\n",
32
+ "dataset_config_name = \"sv\"\n",
33
+ "train_split_name = \"validation\"\n",
34
  "use_auth_token = True"
35
  ]
36
  },
37
  {
38
  "cell_type": "code",
39
+ "execution_count": 4,
40
  "id": "21fd7030",
41
  "metadata": {},
42
  "outputs": [],
46
  },
47
  {
48
  "cell_type": "code",
49
+ "execution_count": 7,
50
  "id": "81a27912",
51
  "metadata": {},
52
  "outputs": [
53
  {
54
+ "name": "stderr",
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
55
  "output_type": "stream",
56
  "text": [
57
+ "Reusing dataset public_speech (/Users/emiliomarinone/.cache/huggingface/datasets/speech-recognition-community-v2___public_speech/sv/0.0.1/cb0563153e481870405b64e5958c7737342cd74f45ec10838bb69a45e5cc6c76)\n"
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
58
  ]
59
  }
60
  ],
61
  "source": [
62
+ "raw_datasets[\"validation\"] = load_dataset(\n",
63
  " dataset_name,\n",
64
  " dataset_config_name,\n",
65
  " split=train_split_name,\n",
69
  },
70
  {
71
  "cell_type": "code",
72
+ "execution_count": 6,
73
  "id": "7945cada",
74
  "metadata": {},
75
  "outputs": [
77
  "name": "stderr",
78
  "output_type": "stream",
79
  "text": [
80
+ "Reusing dataset public_speech (/Users/emiliomarinone/.cache/huggingface/datasets/speech-recognition-community-v2___public_speech/sv/0.0.1/cb0563153e481870405b64e5958c7737342cd74f45ec10838bb69a45e5cc6c76)\n"
81
+ ]
82
+ },
83
+ {
84
+ "ename": "ValueError",
85
+ "evalue": "Unknown split \"test\". Should be one of ['validation'].",
86
+ "output_type": "error",
87
+ "traceback": [
88
+ "\u001b[0;31m---------------------------------------------------------------------------\u001b[0m",
89
+ "\u001b[0;31mValueError\u001b[0m Traceback (most recent call last)",
90
+ "Input \u001b[0;32mIn [6]\u001b[0m, in \u001b[0;36m<module>\u001b[0;34m\u001b[0m\n\u001b[0;32m----> 1\u001b[0m raw_datasets[\u001b[38;5;124m\"\u001b[39m\u001b[38;5;124mtest\u001b[39m\u001b[38;5;124m\"\u001b[39m] \u001b[38;5;241m=\u001b[39m \u001b[43mload_dataset\u001b[49m\u001b[43m(\u001b[49m\n\u001b[1;32m 2\u001b[0m \u001b[43m \u001b[49m\u001b[43mdataset_name\u001b[49m\u001b[43m,\u001b[49m\n\u001b[1;32m 3\u001b[0m \u001b[43m \u001b[49m\u001b[43mdataset_config_name\u001b[49m\u001b[43m,\u001b[49m\n\u001b[1;32m 4\u001b[0m \u001b[43m \u001b[49m\u001b[43msplit\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[38;5;124;43m\"\u001b[39;49m\u001b[38;5;124;43mtest\u001b[39;49m\u001b[38;5;124;43m\"\u001b[39;49m\u001b[43m,\u001b[49m\n\u001b[1;32m 5\u001b[0m \u001b[43m \u001b[49m\u001b[43muse_auth_token\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[43muse_auth_token\u001b[49m\u001b[43m,\u001b[49m\n\u001b[1;32m 6\u001b[0m \u001b[43m)\u001b[49m\n",
91
+ "File \u001b[0;32m~/Repos/transformers/rsc-venv/lib/python3.8/site-packages/datasets/load.py:1714\u001b[0m, in \u001b[0;36mload_dataset\u001b[0;34m(path, name, data_dir, data_files, split, cache_dir, features, download_config, download_mode, ignore_verifications, keep_in_memory, save_infos, revision, use_auth_token, task, streaming, script_version, **config_kwargs)\u001b[0m\n\u001b[1;32m 1710\u001b[0m \u001b[38;5;66;03m# Build dataset for splits\u001b[39;00m\n\u001b[1;32m 1711\u001b[0m keep_in_memory \u001b[38;5;241m=\u001b[39m (\n\u001b[1;32m 1712\u001b[0m keep_in_memory \u001b[38;5;28;01mif\u001b[39;00m keep_in_memory \u001b[38;5;129;01mis\u001b[39;00m \u001b[38;5;129;01mnot\u001b[39;00m \u001b[38;5;28;01mNone\u001b[39;00m \u001b[38;5;28;01melse\u001b[39;00m is_small_dataset(builder_instance\u001b[38;5;241m.\u001b[39minfo\u001b[38;5;241m.\u001b[39mdataset_size)\n\u001b[1;32m 1713\u001b[0m )\n\u001b[0;32m-> 1714\u001b[0m ds \u001b[38;5;241m=\u001b[39m \u001b[43mbuilder_instance\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mas_dataset\u001b[49m\u001b[43m(\u001b[49m\u001b[43msplit\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[43msplit\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43mignore_verifications\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[43mignore_verifications\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43min_memory\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[43mkeep_in_memory\u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m 1715\u001b[0m \u001b[38;5;66;03m# Rename and cast features to match task schema\u001b[39;00m\n\u001b[1;32m 1716\u001b[0m \u001b[38;5;28;01mif\u001b[39;00m task \u001b[38;5;129;01mis\u001b[39;00m \u001b[38;5;129;01mnot\u001b[39;00m \u001b[38;5;28;01mNone\u001b[39;00m:\n",
92
+ "File \u001b[0;32m~/Repos/transformers/rsc-venv/lib/python3.8/site-packages/datasets/builder.py:763\u001b[0m, in \u001b[0;36mDatasetBuilder.as_dataset\u001b[0;34m(self, split, run_post_process, ignore_verifications, in_memory)\u001b[0m\n\u001b[1;32m 760\u001b[0m split \u001b[38;5;241m=\u001b[39m {s: s \u001b[38;5;28;01mfor\u001b[39;00m s \u001b[38;5;129;01min\u001b[39;00m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39minfo\u001b[38;5;241m.\u001b[39msplits}\n\u001b[1;32m 762\u001b[0m \u001b[38;5;66;03m# Create a dataset for each of the given splits\u001b[39;00m\n\u001b[0;32m--> 763\u001b[0m datasets \u001b[38;5;241m=\u001b[39m \u001b[43mutils\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mmap_nested\u001b[49m\u001b[43m(\u001b[49m\n\u001b[1;32m 764\u001b[0m \u001b[43m \u001b[49m\u001b[43mpartial\u001b[49m\u001b[43m(\u001b[49m\n\u001b[1;32m 765\u001b[0m \u001b[43m \u001b[49m\u001b[38;5;28;43mself\u001b[39;49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43m_build_single_dataset\u001b[49m\u001b[43m,\u001b[49m\n\u001b[1;32m 766\u001b[0m \u001b[43m \u001b[49m\u001b[43mrun_post_process\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[43mrun_post_process\u001b[49m\u001b[43m,\u001b[49m\n\u001b[1;32m 767\u001b[0m \u001b[43m \u001b[49m\u001b[43mignore_verifications\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[43mignore_verifications\u001b[49m\u001b[43m,\u001b[49m\n\u001b[1;32m 768\u001b[0m \u001b[43m \u001b[49m\u001b[43min_memory\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[43min_memory\u001b[49m\u001b[43m,\u001b[49m\n\u001b[1;32m 769\u001b[0m \u001b[43m \u001b[49m\u001b[43m)\u001b[49m\u001b[43m,\u001b[49m\n\u001b[1;32m 770\u001b[0m \u001b[43m \u001b[49m\u001b[43msplit\u001b[49m\u001b[43m,\u001b[49m\n\u001b[1;32m 771\u001b[0m \u001b[43m \u001b[49m\u001b[43mmap_tuple\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[38;5;28;43;01mTrue\u001b[39;49;00m\u001b[43m,\u001b[49m\n\u001b[1;32m 772\u001b[0m \u001b[43m \u001b[49m\u001b[43mdisable_tqdm\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[38;5;28;43;01mFalse\u001b[39;49;00m\u001b[43m,\u001b[49m\n\u001b[1;32m 773\u001b[0m \u001b[43m\u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m 774\u001b[0m \u001b[38;5;28;01mif\u001b[39;00m \u001b[38;5;28misinstance\u001b[39m(datasets, \u001b[38;5;28mdict\u001b[39m):\n\u001b[1;32m 775\u001b[0m datasets \u001b[38;5;241m=\u001b[39m DatasetDict(datasets)\n",
93
+ "File \u001b[0;32m~/Repos/transformers/rsc-venv/lib/python3.8/site-packages/datasets/utils/py_utils.py:250\u001b[0m, in \u001b[0;36mmap_nested\u001b[0;34m(function, data_struct, dict_only, map_list, map_tuple, map_numpy, num_proc, types, disable_tqdm)\u001b[0m\n\u001b[1;32m 248\u001b[0m \u001b[38;5;66;03m# Singleton\u001b[39;00m\n\u001b[1;32m 249\u001b[0m \u001b[38;5;28;01mif\u001b[39;00m \u001b[38;5;129;01mnot\u001b[39;00m \u001b[38;5;28misinstance\u001b[39m(data_struct, \u001b[38;5;28mdict\u001b[39m) \u001b[38;5;129;01mand\u001b[39;00m \u001b[38;5;129;01mnot\u001b[39;00m \u001b[38;5;28misinstance\u001b[39m(data_struct, types):\n\u001b[0;32m--> 250\u001b[0m \u001b[38;5;28;01mreturn\u001b[39;00m \u001b[43mfunction\u001b[49m\u001b[43m(\u001b[49m\u001b[43mdata_struct\u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m 252\u001b[0m disable_tqdm \u001b[38;5;241m=\u001b[39m (\n\u001b[1;32m 253\u001b[0m disable_tqdm \u001b[38;5;129;01mor\u001b[39;00m \u001b[38;5;28mbool\u001b[39m(logging\u001b[38;5;241m.\u001b[39mget_verbosity() \u001b[38;5;241m==\u001b[39m logging\u001b[38;5;241m.\u001b[39mNOTSET) \u001b[38;5;129;01mor\u001b[39;00m \u001b[38;5;129;01mnot\u001b[39;00m utils\u001b[38;5;241m.\u001b[39mis_progress_bar_enabled()\n\u001b[1;32m 254\u001b[0m )\n\u001b[1;32m 255\u001b[0m iterable \u001b[38;5;241m=\u001b[39m \u001b[38;5;28mlist\u001b[39m(data_struct\u001b[38;5;241m.\u001b[39mvalues()) \u001b[38;5;28;01mif\u001b[39;00m \u001b[38;5;28misinstance\u001b[39m(data_struct, \u001b[38;5;28mdict\u001b[39m) \u001b[38;5;28;01melse\u001b[39;00m data_struct\n",
94
+ "File \u001b[0;32m~/Repos/transformers/rsc-venv/lib/python3.8/site-packages/datasets/builder.py:794\u001b[0m, in \u001b[0;36mDatasetBuilder._build_single_dataset\u001b[0;34m(self, split, run_post_process, ignore_verifications, in_memory)\u001b[0m\n\u001b[1;32m 791\u001b[0m split \u001b[38;5;241m=\u001b[39m Split(split)\n\u001b[1;32m 793\u001b[0m \u001b[38;5;66;03m# Build base dataset\u001b[39;00m\n\u001b[0;32m--> 794\u001b[0m ds \u001b[38;5;241m=\u001b[39m \u001b[38;5;28;43mself\u001b[39;49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43m_as_dataset\u001b[49m\u001b[43m(\u001b[49m\n\u001b[1;32m 795\u001b[0m \u001b[43m \u001b[49m\u001b[43msplit\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[43msplit\u001b[49m\u001b[43m,\u001b[49m\n\u001b[1;32m 796\u001b[0m \u001b[43m \u001b[49m\u001b[43min_memory\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[43min_memory\u001b[49m\u001b[43m,\u001b[49m\n\u001b[1;32m 797\u001b[0m \u001b[43m\u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m 798\u001b[0m \u001b[38;5;28;01mif\u001b[39;00m run_post_process:\n\u001b[1;32m 799\u001b[0m \u001b[38;5;28;01mfor\u001b[39;00m resource_file_name \u001b[38;5;129;01min\u001b[39;00m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m_post_processing_resources(split)\u001b[38;5;241m.\u001b[39mvalues():\n",
95
+ "File \u001b[0;32m~/Repos/transformers/rsc-venv/lib/python3.8/site-packages/datasets/builder.py:862\u001b[0m, in \u001b[0;36mDatasetBuilder._as_dataset\u001b[0;34m(self, split, in_memory)\u001b[0m\n\u001b[1;32m 847\u001b[0m \u001b[38;5;28;01mdef\u001b[39;00m \u001b[38;5;21m_as_dataset\u001b[39m(\u001b[38;5;28mself\u001b[39m, split: Union[ReadInstruction, Split] \u001b[38;5;241m=\u001b[39m Split\u001b[38;5;241m.\u001b[39mTRAIN, in_memory: \u001b[38;5;28mbool\u001b[39m \u001b[38;5;241m=\u001b[39m \u001b[38;5;28;01mFalse\u001b[39;00m) \u001b[38;5;241m-\u001b[39m\u001b[38;5;241m>\u001b[39m Dataset:\n\u001b[1;32m 848\u001b[0m \u001b[38;5;124;03m\"\"\"Constructs a `Dataset`.\u001b[39;00m\n\u001b[1;32m 849\u001b[0m \n\u001b[1;32m 850\u001b[0m \u001b[38;5;124;03m This is the internal implementation to overwrite called when user calls\u001b[39;00m\n\u001b[0;32m (...)\u001b[0m\n\u001b[1;32m 859\u001b[0m \u001b[38;5;124;03m `Dataset`\u001b[39;00m\n\u001b[1;32m 860\u001b[0m \u001b[38;5;124;03m \"\"\"\u001b[39;00m\n\u001b[0;32m--> 862\u001b[0m dataset_kwargs \u001b[38;5;241m=\u001b[39m \u001b[43mArrowReader\u001b[49m\u001b[43m(\u001b[49m\u001b[38;5;28;43mself\u001b[39;49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43m_cache_dir\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[38;5;28;43mself\u001b[39;49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43minfo\u001b[49m\u001b[43m)\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mread\u001b[49m\u001b[43m(\u001b[49m\n\u001b[1;32m 863\u001b[0m \u001b[43m \u001b[49m\u001b[43mname\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[38;5;28;43mself\u001b[39;49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mname\u001b[49m\u001b[43m,\u001b[49m\n\u001b[1;32m 864\u001b[0m \u001b[43m \u001b[49m\u001b[43minstructions\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[43msplit\u001b[49m\u001b[43m,\u001b[49m\n\u001b[1;32m 865\u001b[0m \u001b[43m \u001b[49m\u001b[43msplit_infos\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[38;5;28;43mself\u001b[39;49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43minfo\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43msplits\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mvalues\u001b[49m\u001b[43m(\u001b[49m\u001b[43m)\u001b[49m\u001b[43m,\u001b[49m\n\u001b[1;32m 866\u001b[0m \u001b[43m \u001b[49m\u001b[43min_memory\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[43min_memory\u001b[49m\u001b[43m,\u001b[49m\n\u001b[1;32m 867\u001b[0m \u001b[43m \u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m 868\u001b[0m fingerprint \u001b[38;5;241m=\u001b[39m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m_get_dataset_fingerprint(split)\n\u001b[1;32m 869\u001b[0m \u001b[38;5;28;01mreturn\u001b[39;00m Dataset(fingerprint\u001b[38;5;241m=\u001b[39mfingerprint, \u001b[38;5;241m*\u001b[39m\u001b[38;5;241m*\u001b[39mdataset_kwargs)\n",
96
+ "File \u001b[0;32m~/Repos/transformers/rsc-venv/lib/python3.8/site-packages/datasets/arrow_reader.py:211\u001b[0m, in \u001b[0;36mBaseReader.read\u001b[0;34m(self, name, instructions, split_infos, in_memory)\u001b[0m\n\u001b[1;32m 190\u001b[0m \u001b[38;5;28;01mdef\u001b[39;00m \u001b[38;5;21mread\u001b[39m(\n\u001b[1;32m 191\u001b[0m \u001b[38;5;28mself\u001b[39m,\n\u001b[1;32m 192\u001b[0m name,\n\u001b[0;32m (...)\u001b[0m\n\u001b[1;32m 195\u001b[0m in_memory\u001b[38;5;241m=\u001b[39m\u001b[38;5;28;01mFalse\u001b[39;00m,\n\u001b[1;32m 196\u001b[0m ):\n\u001b[1;32m 197\u001b[0m \u001b[38;5;124;03m\"\"\"Returns Dataset instance(s).\u001b[39;00m\n\u001b[1;32m 198\u001b[0m \n\u001b[1;32m 199\u001b[0m \u001b[38;5;124;03m Args:\u001b[39;00m\n\u001b[0;32m (...)\u001b[0m\n\u001b[1;32m 208\u001b[0m \u001b[38;5;124;03m kwargs to build a single Dataset instance.\u001b[39;00m\n\u001b[1;32m 209\u001b[0m \u001b[38;5;124;03m \"\"\"\u001b[39;00m\n\u001b[0;32m--> 211\u001b[0m files \u001b[38;5;241m=\u001b[39m \u001b[38;5;28;43mself\u001b[39;49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mget_file_instructions\u001b[49m\u001b[43m(\u001b[49m\u001b[43mname\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43minstructions\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43msplit_infos\u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m 212\u001b[0m \u001b[38;5;28;01mif\u001b[39;00m \u001b[38;5;129;01mnot\u001b[39;00m files:\n\u001b[1;32m 213\u001b[0m msg \u001b[38;5;241m=\u001b[39m \u001b[38;5;124mf\u001b[39m\u001b[38;5;124m'\u001b[39m\u001b[38;5;124mInstruction \u001b[39m\u001b[38;5;124m\"\u001b[39m\u001b[38;5;132;01m{\u001b[39;00minstructions\u001b[38;5;132;01m}\u001b[39;00m\u001b[38;5;124m\"\u001b[39m\u001b[38;5;124m corresponds to no data!\u001b[39m\u001b[38;5;124m'\u001b[39m\n",
97
+ "File \u001b[0;32m~/Repos/transformers/rsc-venv/lib/python3.8/site-packages/datasets/arrow_reader.py:184\u001b[0m, in \u001b[0;36mBaseReader.get_file_instructions\u001b[0;34m(self, name, instruction, split_infos)\u001b[0m\n\u001b[1;32m 182\u001b[0m \u001b[38;5;28;01mdef\u001b[39;00m \u001b[38;5;21mget_file_instructions\u001b[39m(\u001b[38;5;28mself\u001b[39m, name, instruction, split_infos):\n\u001b[1;32m 183\u001b[0m \u001b[38;5;124;03m\"\"\"Return list of dict {'filename': str, 'skip': int, 'take': int}\"\"\"\u001b[39;00m\n\u001b[0;32m--> 184\u001b[0m file_instructions \u001b[38;5;241m=\u001b[39m \u001b[43mmake_file_instructions\u001b[49m\u001b[43m(\u001b[49m\n\u001b[1;32m 185\u001b[0m \u001b[43m \u001b[49m\u001b[43mname\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43msplit_infos\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43minstruction\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43mfiletype_suffix\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[38;5;28;43mself\u001b[39;49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43m_filetype_suffix\u001b[49m\n\u001b[1;32m 186\u001b[0m \u001b[43m \u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m 187\u001b[0m files \u001b[38;5;241m=\u001b[39m file_instructions\u001b[38;5;241m.\u001b[39mfile_instructions\n\u001b[1;32m 188\u001b[0m \u001b[38;5;28;01mreturn\u001b[39;00m files\n",
98
+ "File \u001b[0;32m~/Repos/transformers/rsc-venv/lib/python3.8/site-packages/datasets/arrow_reader.py:107\u001b[0m, in \u001b[0;36mmake_file_instructions\u001b[0;34m(name, split_infos, instruction, filetype_suffix)\u001b[0m\n\u001b[1;32m 105\u001b[0m instruction \u001b[38;5;241m=\u001b[39m ReadInstruction\u001b[38;5;241m.\u001b[39mfrom_spec(instruction)\n\u001b[1;32m 106\u001b[0m \u001b[38;5;66;03m# Create the absolute instruction (per split)\u001b[39;00m\n\u001b[0;32m--> 107\u001b[0m absolute_instructions \u001b[38;5;241m=\u001b[39m \u001b[43minstruction\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mto_absolute\u001b[49m\u001b[43m(\u001b[49m\u001b[43mname2len\u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m 109\u001b[0m \u001b[38;5;28;01mreturn\u001b[39;00m _make_file_instructions_from_absolutes(\n\u001b[1;32m 110\u001b[0m name\u001b[38;5;241m=\u001b[39mname, name2len\u001b[38;5;241m=\u001b[39mname2len, absolute_instructions\u001b[38;5;241m=\u001b[39mabsolute_instructions, filetype_suffix\u001b[38;5;241m=\u001b[39mfiletype_suffix\n\u001b[1;32m 111\u001b[0m )\n",
99
+ "File \u001b[0;32m~/Repos/transformers/rsc-venv/lib/python3.8/site-packages/datasets/arrow_reader.py:618\u001b[0m, in \u001b[0;36mReadInstruction.to_absolute\u001b[0;34m(self, name2len)\u001b[0m\n\u001b[1;32m 607\u001b[0m \u001b[38;5;28;01mdef\u001b[39;00m \u001b[38;5;21mto_absolute\u001b[39m(\u001b[38;5;28mself\u001b[39m, name2len):\n\u001b[1;32m 608\u001b[0m \u001b[38;5;124;03m\"\"\"Translate instruction into a list of absolute instructions.\u001b[39;00m\n\u001b[1;32m 609\u001b[0m \n\u001b[1;32m 610\u001b[0m \u001b[38;5;124;03m Those absolute instructions are then to be added together.\u001b[39;00m\n\u001b[0;32m (...)\u001b[0m\n\u001b[1;32m 616\u001b[0m \u001b[38;5;124;03m list of _AbsoluteInstruction instances (corresponds to the + in spec).\u001b[39;00m\n\u001b[1;32m 617\u001b[0m \u001b[38;5;124;03m \"\"\"\u001b[39;00m\n\u001b[0;32m--> 618\u001b[0m \u001b[38;5;28;01mreturn\u001b[39;00m [_rel_to_abs_instr(rel_instr, name2len) \u001b[38;5;28;01mfor\u001b[39;00m rel_instr \u001b[38;5;129;01min\u001b[39;00m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m_relative_instructions]\n",
100
+ "File \u001b[0;32m~/Repos/transformers/rsc-venv/lib/python3.8/site-packages/datasets/arrow_reader.py:618\u001b[0m, in \u001b[0;36m<listcomp>\u001b[0;34m(.0)\u001b[0m\n\u001b[1;32m 607\u001b[0m \u001b[38;5;28;01mdef\u001b[39;00m \u001b[38;5;21mto_absolute\u001b[39m(\u001b[38;5;28mself\u001b[39m, name2len):\n\u001b[1;32m 608\u001b[0m \u001b[38;5;124;03m\"\"\"Translate instruction into a list of absolute instructions.\u001b[39;00m\n\u001b[1;32m 609\u001b[0m \n\u001b[1;32m 610\u001b[0m \u001b[38;5;124;03m Those absolute instructions are then to be added together.\u001b[39;00m\n\u001b[0;32m (...)\u001b[0m\n\u001b[1;32m 616\u001b[0m \u001b[38;5;124;03m list of _AbsoluteInstruction instances (corresponds to the + in spec).\u001b[39;00m\n\u001b[1;32m 617\u001b[0m \u001b[38;5;124;03m \"\"\"\u001b[39;00m\n\u001b[0;32m--> 618\u001b[0m \u001b[38;5;28;01mreturn\u001b[39;00m [\u001b[43m_rel_to_abs_instr\u001b[49m\u001b[43m(\u001b[49m\u001b[43mrel_instr\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43mname2len\u001b[49m\u001b[43m)\u001b[49m \u001b[38;5;28;01mfor\u001b[39;00m rel_instr \u001b[38;5;129;01min\u001b[39;00m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m_relative_instructions]\n",
101
+ "File \u001b[0;32m~/Repos/transformers/rsc-venv/lib/python3.8/site-packages/datasets/arrow_reader.py:433\u001b[0m, in \u001b[0;36m_rel_to_abs_instr\u001b[0;34m(rel_instr, name2len)\u001b[0m\n\u001b[1;32m 431\u001b[0m split \u001b[38;5;241m=\u001b[39m rel_instr\u001b[38;5;241m.\u001b[39msplitname\n\u001b[1;32m 432\u001b[0m \u001b[38;5;28;01mif\u001b[39;00m split \u001b[38;5;129;01mnot\u001b[39;00m \u001b[38;5;129;01min\u001b[39;00m name2len:\n\u001b[0;32m--> 433\u001b[0m \u001b[38;5;28;01mraise\u001b[39;00m \u001b[38;5;167;01mValueError\u001b[39;00m(\u001b[38;5;124mf\u001b[39m\u001b[38;5;124m'\u001b[39m\u001b[38;5;124mUnknown split \u001b[39m\u001b[38;5;124m\"\u001b[39m\u001b[38;5;132;01m{\u001b[39;00msplit\u001b[38;5;132;01m}\u001b[39;00m\u001b[38;5;124m\"\u001b[39m\u001b[38;5;124m. Should be one of \u001b[39m\u001b[38;5;132;01m{\u001b[39;00m\u001b[38;5;28mlist\u001b[39m(name2len)\u001b[38;5;132;01m}\u001b[39;00m\u001b[38;5;124m.\u001b[39m\u001b[38;5;124m'\u001b[39m)\n\u001b[1;32m 434\u001b[0m num_examples \u001b[38;5;241m=\u001b[39m name2len[split]\n\u001b[1;32m 435\u001b[0m from_ \u001b[38;5;241m=\u001b[39m rel_instr\u001b[38;5;241m.\u001b[39mfrom_\n",
102
+ "\u001b[0;31mValueError\u001b[0m: Unknown split \"test\". Should be one of ['validation']."
103
  ]
104
  }
105
  ],
374
  },
375
  {
376
  "cell_type": "code",
377
+ "execution_count": 19,
378
  "id": "4f906c9c",
379
  "metadata": {},
380
  "outputs": [],
381
+ "source": [
382
+ "text = raw_datasets[\"validation\"][1][\"sentence\"]"
383
+ ]
384
+ },
385
+ {
386
+ "cell_type": "code",
387
+ "execution_count": 20,
388
+ "id": "a20b3bec",
389
+ "metadata": {},
390
+ "outputs": [
391
+ {
392
+ "data": {
393
+ "text/plain": [
394
+ "'Tack så mycket\\nför den fina presentationen.\\nAtt intervjua - jag frågar, du svarar -\\ndet verkar lätt.\\nSom intervjuare har man\\notroligt mycket att slåss mot,\\nOch jag skulle vilja säga,\\nman har ju en idé om\\natt man ska få ett ärligt svar, eller hur?\\nDet sker väldigt sällan, väldigt sällan.\\nOch vad har man att slåss mot?\\nTidspress, en miljö som stör,\\nman kanske inte är överens\\nom varför man gör den här intervjun.\\nMen det som är allra svårast,\\ntycker jag, att slåss mot,\\ndet är den intervjuades bild\\nav vad han eller hon vill förmedla.\\nVilken bild vill jag ge av mig själv?\\nDet där håller vi alla på med,\\nlångt utanför intervjusituationen.\\nJag känner igen det \\nnär jag blir intervjuad.\\nJag tänker mycket på det innan,\\nåtminstone har jag gjort det.\\nDet är en liten förändring på gång.\\nHur ska jag... \\nVad är den ideala bilden av mig?\\nOch sedan så försöker jag leverera det.\\nDå blir det ju inget möte, riktigt möte.\\nJag har ju redan bestämt mig.\\nDet gör ganska många.\\nJag intervjuar nästan alltid människor\\nmed en position; med makt.\\nDe har mycket att försvara.\\nDe har inte bara sig själva\\noch sitt rykte att försvara.\\nDet kan vara ett parti,\\nde kanske kan vinna ett val,\\naffärerna ska gå bättre,\\ndet finns en organisation bakom\\nsom har ett stort intresse\\nav att det sägs exakt rätt saker.\\nSedan kan det uppstå en situation\\nnär det låter väldigt ärligt och öppet.\\nWow! Titta! Hör! Nu blev det ett möte.\\nMen det kan ju vara\\nett verk av en PR-strateg.\\n\"Nu har du var lite kylig sista tiden.\\nVi behöver lite mer verklighet,\\nlite mer värme,\\nlite mer \"riktig\" människa.\"\\nDå är det det som jag möter.\\nDet kanske händer att jag går på det.\\nFörhoppningsvis inte.\\nMen, så händer det, ibland:\\nnågra gyllene ögonblick,\\nväldigt sällan skulle jag tyvärr säga,\\natt det blir på riktigt,\\natt det är ett riktigt möte.\\nAtt det är några sekunder,\\nkanske några minuter i bästa fall,\\nsom man glömmer den där omgivningen,\\noch framförallt glömmer\\ndet man ville få ut,\\noch att man bara är, här och nu.\\nFör ungefär en månad sedan\\nsatt jag mitt emot den världsberömda\\nförfattaren Henning Mankell,\\ni TV-programmet Min Sannings studio\\ni TV-huset i Göteborg.\\nOch han satt där med sin svarta kavaj,\\noch sin svart-vita Hawaii-skjorta,\\noch sitt vita hår, som stod\\nsom en gloria runt huvudet.\\nOch ganska rödögd var han,\\npå grund av cellgiftsbehandling.\\nHan hade - han har -\\nen tumör i nacken och en i lungan.\\nMen cellgiftsbehandlingen\\nfungerar ganska bra,\\noch han kändes ändå ganska pigg.\\nOch vi pratade om hans dödsångest;\\nhan berättade om\\npanikattacker på nätterna.\\nVi pratade om hans liv i Moçambique;\\nhan bor där halva tiden.\\nVi pratade om Sofia,\\nsom han skrivit mycket böcker om.\\nSofia är lemlästad av minor efter krig.\\nSofia är ett av många, många barn,\\nni känner säkert till det här,\\nsom han verkligen har förändrat livet för.\\n\"Är du en världsförbättrare?\"\\nfrågade jag Henning.\\n\"Ja, det är jag\" sade han.\\n\"Det är klart att jag är det.\\nVi är väl här för att förbättra världen.\\nDet hoppas jag verkligen att jag är.\"\\nJag gick vidare och frågade om hans mamma,\\nsom övergav honom när han var bäbis,\\noch sedan träffade honom\\nnästa gång när han var femton,\\npå en krog i Stockholm - Brända tomten -\\nsom inte finns längre.\\nOch det första hon sade till honom var:\\n\"Kom inte nära, jag är så förkyld.\"\\nOch så tog jag sats, och frågade honom\\nom det han inte vill prata om,\\nnämligen hans egen son,\\nsom är i 35-årsåldern idag,\\nsom han har övergivit.\\nHan hade sagt till oss\\natt han inte vill prata om det,\\noch det var med bultande hjärta\\nsom jag närmade mig det här ämnet.\\nOch jag tänkte:\\n\"Gud, men vi måste ha det här.\"\\nJag och Karin, som sitter här nånstans,\\nsom är redaktör,\\nvi kände att vi måste ha\\nhela bilden av honom.\\nDet går inte, han gör så mycket gott.\\nHan är så fruktansvärt generös,\\noch han är en världsförbättrare.\\nMen det finns en annan sida av hans liv,\\noch den hör till bilden.\\nVi tecknar ju honom under en timme,\\nvi måste ha med det här.\\nDet här var naturligtvis väldigt känsligt.\\nHan skiljde sig från sonens mamma\\nnär pojken var bäbis.\\nOch sedan fortsatte Henning att leva,\\nsom om han aldrig hade fått barn.\\nHan skiljde sig från sonen också;\\ndet var inte tal om delad vårdnad.\\nHan flyttade runt i Sverige,\\noch jobbade på olika ställen\\ni olika städer på teatrar.\\nHan skrev.\\nSatsade stenhårt på karriären,\\nsom han alltid har gjort.\\nHan var inte pappa.\\nHan höll kontakt med sonen,\\nalltid, under alla år.\\nIdag har de väldigt fin kontakt.\\nMen han var ju inte med honom,\\nhan uppfostrade honom inte.\\nHan nattade honom inte,\\nläste inga godnattsagor.\\nHan gick inte på utvecklingssamtal,\\nhan hade inga tonårsgräl med honom.\\nHan var inte pappa,\\nhan var inte del av hans liv\\növer huvud taget.\\nNär jag började närma mig det här ämnet,\\nså ser jag att Henning värjer sig.\\nOch jag tänker att nu säger han:\\n\"Jag har ju sagt att jag inte vill\\nprata om det där.\"\\nMen så ser jag\\natt han står och väger, vad han ska göra.\\nOch så händer något\\nsom är ett väldigt gott tecken.\\nHans blick börjar lämna mig,\\noch vandrar iväg.\\nOch så väljer han sanningen.\\nHan väljer att gå in i det,\\noch berättar om varför det blev så.\\nOch han ångrar inte det.\\nDet är ju en skam i vårt samhälle\\natt man lämnar sitt barn.\\nSäkert ännu mer om en kvinna gör det.\\nMen han gör det, han står för det...\\nfast han vet att det inte är\\nnågon vacker bild av honom.\\nHan struntar i bilden\\nav sig själv i den stunden.\\nOch varför blev det så här?\\nVarför lyckades jag -\\nom jag har någon inverkan i det hela -\\nkomma dit för en gångs skull?\\nDen personliga kontakten\\nspelar naturligtvis roll.\\nVi hade mötts en gång tidigare.\\nHenning har ju sett mig många år.\\nHan är samhällsintresserad\\noch tittar på Aktuellt och Agenda,\\noch har förtroende för mig.\\nMen så hade vi möts en gång tidigare,\\nnär Ingmar Bergman dog.\\nHenning är Ingmar Bergmans svärson.\\nAktuellt hade en förlängd sändning.\\nJag var programledare,\\noch Henning Mankell var en av gästerna.\\noch det blev ett väldigt bra samtal.\\nVi hade tid på oss,\\nvi hade tid att prata innan,\\noch det funkade bra.\\nDet här är såklart en viktig komponent...\\nsäkert en grundförutsättning\\nvem man möter,\\nmen det räcker ju inte.\\nDet vet ju jag.\\nJag har ju suttit i den här situationen\\nså många gånger när kontakten varit bra,\\noch det har liksom inte hänt.\\nJag tror att det finns\\nen annan viktig förklaring,\\noch det är en dragning till sanningen.\\nFör att stå för den man är,\\nmed fel och brister.\\nAtt säga det där svåra,\\nsom inte ser så snyggt ut,\\nmen som är sant.\\nAtt inte gömma sig.\\nDet är väldigt befriande...\\näven om det är någonting skamligt.\\nVarför drogs han då till sanningen?\\nJag har ju ingen aning\\nom han skulle gjort det\\ntidigare eller inte.\\nMen jag kan inte låta bli\\natt tänka på två saker:\\nDet ena är att han är sjuk,\\noch att han stått öga mot öga med döden,\\noch gör det fortfarande.\\nJag har ingen erfarenhet av det.\\nJag vet inte om det har betydelse,\\nmen jag tror det.\\nJag har erfarenhet av att bli äldre,\\noch Henning närmar sig 70.\\nJag känner själv att jag är\\nså ointresserad av det ytliga.\\nOch det känner ni säker igen.\\nDet finns säkert fler som är i min ålder,\\neller om man är yngre,\\nnär man nu upptäcker det;\\natt man sänker garden och man orkar inte\\nhålla på med ytligheterna längre.\\nNu är det så här.\\nDen här är jag, och det här står jag för.\\nDe människor jag trivs bäst med idag,\\noch som jag gärna binder band till,\\när de som törs medge...\\nrevorna och sprickorna i idyllen,\\nså långt bort från Facebook-tjusiga livet\\njag bara kan komma.\\nOch jag tänker så här:\\nOm en människa som Henning Mankell,\\nsom är så beundrad och läst\\noch står för så mycket gott,\\nom han kan sitta på bästa sändningstid\\noch medge den solkiga sidan av sig själv,\\nutan att tänka på\\nhur det påverkar bokförsäljningen,\\neller vad sjutton det nu är...\\nså kanske det kan få någon annan,\\neller fler av oss,\\natt någon gång emellanåt åtminstone,\\nsäga hur det faktiskt är.\\nFör när man gör det,\\nnär man hör sig själv säga sanningar\\nom sitt eget liv och sitt eget innersta,\\nså blir det ju verkligt.\\nDå kan det ju hända saker med livet,\\ndå kan ju faktiskt samhället\\nförändra livet.\\nTack så mycket!\\n'"
395
+ ]
396
+ },
397
+ "execution_count": 20,
398
+ "metadata": {},
399
+ "output_type": "execute_result"
400
+ }
401
+ ],
402
+ "source": [
403
+ "text"
404
+ ]
405
+ },
406
+ {
407
+ "cell_type": "code",
408
+ "execution_count": 12,
409
+ "id": "351973b0",
410
+ "metadata": {},
411
+ "outputs": [
412
+ {
413
+ "name": "stdout",
414
+ "output_type": "stream",
415
+ "text": [
416
+ "Collecting num2words\n",
417
+ " Using cached num2words-0.5.10-py3-none-any.whl (101 kB)\n",
418
+ "Collecting docopt>=0.6.2\n",
419
+ " Using cached docopt-0.6.2.tar.gz (25 kB)\n",
420
+ "Using legacy 'setup.py install' for docopt, since package 'wheel' is not installed.\n",
421
+ "Installing collected packages: docopt, num2words\n",
422
+ " Running setup.py install for docopt ... \u001b[?25ldone\n",
423
+ "\u001b[?25hSuccessfully installed docopt-0.6.2 num2words-0.5.10\n",
424
+ "\u001b[33mWARNING: You are using pip version 20.2.1; however, version 22.0.3 is available.\n",
425
+ "You should consider upgrading via the '/Users/emiliomarinone/Repos/transformers/rsc-venv/bin/python3.8 -m pip install --upgrade pip' command.\u001b[0m\n"
426
+ ]
427
+ }
428
+ ],
429
+ "source": [
430
+ "!pip install num2words"
431
+ ]
432
+ },
433
+ {
434
+ "cell_type": "code",
435
+ "execution_count": 17,
436
+ "id": "ca32b763",
437
+ "metadata": {},
438
+ "outputs": [],
439
+ "source": [
440
+ "import num2words"
441
+ ]
442
  }
443
  ],
444
  "metadata": {
log_mozilla-foundation_common_voice_8_0_sv-SE_test_predictions.txt CHANGED
The diff for this file is too large to render. See raw diff
log_speech-recognition-community-v2_dev_data_sv_validation_predictions.txt CHANGED
@@ -1,4 +1,4 @@
1
  0
2
- kära svenskar hemma och utomlands alla i sverigede juldag i sverige ja över nästan hela världen och efter att förra året har sänt en julhälsning från vårt hem på drottningholms slott är jag nu tillbaka här på stockholms slott i min mamma prinsessan cubillas våningdet är inte alla i vårt land som firar jul men alldeles oavsett om de gör de inte så hoppas jag att du får uppleva åtminstone en stund det är hopp och den en fri som man önskar sig den här tiden på åretunder året som gått har drottningen och jag haft glädjen att gratulera omkring ett tusen fem hundra svenskar på deras hundraårsdag genom telegram som vi skickar förr var det mycket ovanligt att blir så gammal men många av de barn som föds idag kommer att uppleva sin hundrårsdagkanske kommer de att fira jul med både barnbarn och barnbarnsbarn det är en en fantastisk utvecklingde svenskar som i år har firat sin hundårsdag föddes nittonhundra tjugo ett samma år som det första svenska riksdagsvalet med lika och allmän rösträtt hölls och de fem första kvinnliga ledamöterna valdes in i riksdagenom denna förändring tog sverige ett avgörande steg mot att bli det land vi är idagunder min tid som kung har jag själv fått uppleva den första kvinnliga partiledaren i riksdagenden första kvinnliga talmannen och år den första kvinnliga statsminister ja utvecklingen går verkligen framåt på olika områdenert skäl till att allt ler svenskar får leva så länge och vara så friska i ala de framsteg forskningen och sjukvården görför en tid sedan talade jag med en svensk kanserforskare han berättade att han hoppas att den behandling som han arbetar med ska kunna ge patienterna några månader till i livet men det viket stora sa är att varje framsteg lägger grunden för nya upptäckter så att människor kanske kan få flera år eller till och med decennier att leva vidare tillsammansunder den tid som gått sedan dagens hundraåringar föddes har vetenskapen gjort enorma frmsteg bara de senaste åren har vi sett en rekordsnabb utveckling av flera vacciner lekemedel och behandlingar mot kovidforskningen räddar och förlänger människoliv har svårt att tänka mig en mer meningsfull verksamhetom jag får hoppas på något av framtiden så är det just det att fler unga människor i vårt lad ska ägna sin kraft och sin kreativitet åt att ytterligare driva vetenskapen och och hela vårt samhälle framåtnär drottning jag gifte oss för fyrtiofem år sedan i storkyrkan här nära slottet bildades en bröllopsfolk nyligen råkade jag hitta i bokhyllan den bok som fonden gav ut nittonhundra åttifem med titeln kom igen den handlade om parasport och när jag såg den där boken så fastnade jag särskilt för titeln kom igenså mycket av det gångna året har handlat om just detta att starta om sverige efter pandemin att ta tillbaka verksamhet och och stegvis återgå till en mer normal tillvaro att komma igensedan förra hösten har jag och min familj genomfört besök det nästan alla sveriges led för att uppmärksamma lokala insatser med anledning av pandemivi har träffat myndigheter företag och organisationer som påverkas av den här speciella situationen och som bidragit med med fantastiska insatser det har varit lärorika och och givande möten ett personligt plan har jag många gånger fyllts av av djup respekt för alla anställda ledare och ideellt angagerade som som vi mött under våra besökundee snart två år som vi levt med kovidnittonpandemin har dessa personer och väldigt många andra i vårt land gjort sitt yttersta för att lösa de problem och de uppgifter som uppståtttack vare dem tack vare alla er har vårt land fortsatt att fungera och står väl rustat för att komma igen för det vill jag uttrycka min stora uppskattning till sist vill jag vända mig särskilt till dig som förlorat någon som stått i närakanske saknar de något om borde suttit bredvid dig just nu ett barn en livskamraten förälder eller ett syskon en god vän eller en kollegajag kan inte säga något som som fyller där tomrummet men jag vill ändå på detta sätt sända en en hälsning och en tanke till digjag hoppas att så många som möjligt i vårt land får möta det är nyåret med hopp och tillfuigtmen låt oss också ha modet att se och hjälpa d som har det svårtjag vill önska dig en fortsatt god jul och ett gott nytt år tjugohundratjutvå
3
  1
4
- tack så mycket för den fina presentationen att intervja jag frågar du svarardet verkar lätt som intervjuare har man otroligt mycket att slåss mot och jag skull ilja säga man har ju en ide om att man ska få ett ärligt svar eller hur det sker väldigt sällan väldigt sällanoch vad har man att slåss mot ja tidspress miljö som stör den kanske inte överens om varför man gör den här intervjunmen det som är allra svårast tycker jag att slåss mot det är den intervjuades bild av vad han eller hon vill förmedla vilken bild vill jag ge av mig själv och det där håller vi alla på med långt utanför inte ju situationen för övrigtjag känner igen dig själv när jag blir intervjuad jag tänker mycket på det innan åtminstone har jag gjort det men det är en liten förändring på gång jag tänkte hur hur hur ska jag vad ideala bilden av mig och sen så försöker jag leverera det och då blir du inget möte riktigt möte utan jag har redan bestämt mig och det gör ganska många jag intervjuar alltid nästan människor med en position med makt de har mycket att försvara de har inte bara sig själva och sitt rykte att försvara det kan vara ett parti de kan se ska vinna ett val affärerna ska gå bättre det finns en organisation bakom som som har ett stort intresse av att det sägs exakt rätt sakersen kan de uppstå en situation när det låter väldigt ärligt och öppet ha titta hör det här nu blev ett möte makan ju vara ett verk av en perstrateg just nu så har du varit lite kylig sista tiden nu behövi lite mer verklighet lite mer värme lite mer riktig människa då det som jag möter kanske händer att jag går på detförhoppningsvis inte men så händer det ibland några gyllene ögonblick väldigt sällan skull jag tuva sägaatt det blir på riktigt att det är ett riktigt möte att det om några sekunder kanske några minuter i bästa fall somman glömmer den där omgivningen och framförallt glömmer det man ville få ut och att man bar här och nu för ungefär en månad sedan så satt jag mitt emot den världsberömda författaren henning mankeli teveprogrammet min sannings studio i tevehuset i göteborgoch han satt där med sin svarta kavaj och sin svartvita havajeskjorta och sitt vita hår som stod som en gloria runt huvudet och ganska rödögd var han på grund av sälgifsbehandling han hadehan har en tumör i nacken och en i lungan men säljsbehandlingen fungerar ganska bra ochhankändes ändå ganska pigg och vi pratade om hans dödsångest han berättade om panikattacker på nätterna vi pratade om hans liv i mosambik han bor där halva tiden vi pratar om sofia som har skrivit mycket böcker om sofia som är lemlästad av minor efter krig och som han sofia är ett av många många barn ni känner säkert till det här som han verkligen har förändrat livet förär du en världsförbättrare frågade jag henninga de sade han det det klart att jag är det vi är väl här för att förbättra världen det hoppas jag verkligen att jag är och jag gick vidare och frågade om hans mamma som övergav honom när han var bebis och sen träffade honom nästa gång när han var femton på en krog i stockholm brända tomten som inte finns längreoch det första hon sade till honom var kom inte nära jag är så förkyldoch sen tog jag satsoch frågde honom omdet han inte vill prata om nämligen hans egen son som är trettfemårsåldern idagsom han har övergivithan hade sagt i os att han inte ville prata om detoch jag det var med bultande hjärta som jag närmar mig här ämnet jag sagt gud men vi måste ha det här jag och karin som sitter någonstans som med redaktörvi kände at vi måste ha hela bilden av honom det går inte han gör så mycket gott han är så fruktansvärt generös och han är en världsförbättrare men det finns en annan sida av hans liv och den hör till bilden vi tecknar ju honom under en timme vi måste ha med härochdet här var ju naturis väldigt känsligt han han skilde sig från sonens mamma när pojken var bebis och sen fortsatte henning och leva som om han aldrig hade fått barnhan skilde sig från sonen också det var inte tal om delad vårdnad där inte han flyttade runt i sverige och jobbade på olika ställen i olika städer på teatrar han skrev satsat stenhårt på karriären som han alltid har gjort han var inte pappahan höll kontakt med sonen alltid under alla år och idag har en väldigt fin kontakt men han var ju inte med honom han uppfostrade honom inte han nattade honom inte han läste inga godnattsagor han gick inte på utvecklingssamtal han hade inga tonårsgräl med honom han han var inte pappa han var inte del av hans liv överhuvutagetoch när jag börjar närmare med det här ämnet då så så ser jag jag att henning värjer sig och jag tänker att nu nu säger han att men jag har tänkt att inte vi prata om det där men så se att han han står och väger vad han ska göra och jag och så händer någonting som är ett väldigt gott tecken att hans blick börjar lämna mig och vandrar iväg så här och så väljer han sanningenochhan väljer att gå in i det och berättar om varför det blev så och han ångrar inte detoch det är ju sen skam i vårt samhälle att man lämnar sitt barn säkert ännu mer om en kvinna gör det men men han han gör det han står för detfast han vet att det inte är någon vacker bild av honom han struntar i bilden av sig själv i den stunden och varför blev dethärvarför lyckades jag om jag nu har någon inverkan i hela komma dit för en gångs skulleja den personliga kontakten spelar naturligtvis roll vi hade mötts en gång tidigare henning ar sett mig massor han är samelsintresserad av att titta på aktuellt agenda och har förtroende för mig men så hade vi möts en gång tidigare det var när ingmar bergman dog henning elmar bergman svärson och aktuellt hade en förlängd sändning och jag var programledare och henning make var en av gästerna och det blev ett väldigt bra samtal och vi hade tid på oss så vi hade tid att prata innan och det funkade bra så det här ju klart vikt en viktig komponentsäkert en en grundförutsättning naturligtvis vem man möter men det räcker ju inte det vet ju jag för att jag har suttidendär situation som gånger när kontakten också har varit bra och det och det har liksom inte hänt jag tror att det finns en annan viktig förklaring och det en dragning till sanninenför att att stå för den man är med fel och brister och att säga det där svåra som inte ser så snyggt ut men som är sant att inte gömma sig det är väldigt befriandeäven om det är någonting skamligtoch varför drogs han då till sanningen jag vet ju inte jag har ingen aning om han inte skulle om han skulle gjort det tidigareler inte men jag kan inte låta bli att tänka på två saker det ena är att han är sjuk och att han har stått öga mot öga med döden och gör det fortfarande jag har ingen erfarenhet av det jag vet inte om det har betydelse men jag tror det jag har erfarenhet av att bli äldre och henning närmar sig sjuttio och jag känner själv att jag är så ointresserad av det ytligaoch det känner ni säkert igen det finns säkert fler som i min åldereller om man yngre när man nu upptäcker det att man sänker garden och man orkar inte liksom hålla på mytlietena längre utan nu är det så här den här är jag och det här står jag för jag märker att jag de människor som jag trivs bäst med i dag och som jag gärna binder band till dem som törs medge revorna och srickorna i idyllen så långt bort från fajsbuk tjusiga livet jag bara kan kommaoch jag tänker så här att om en männska som henne make som är så beundrad och läst och stå för så mycket gott om han kan sitta på bästa sändningstid och medge det där solkiga sidan av sig själv utan att tänka på hur det påverkar bokförsäljning elva sjutton detsåså kanske det kan få någon annan eller fler av oss å och gång emellanåt i alla fall säga faktiskt som det för att när man gör det när man hör sig själv säga sanningar om sitt eget liv och sitt eget innersta så blir du verkligtochdå kan de u hända saker med livetdå kan ju faktiskt samhället förändra livettack så mycket
1
  0
2
+ kära svenskar hemma och utomlands alla i sverigedet är juldag i sverige ja över nästan hela världen och efter att förra året har sänt en julhälsning från vårt hem på drottning holms slotter jag nu tillbaka här på stockholms slott i min mamma prinsessan cubillas våningdet är inte alla i vårt land som firar julmen alldeles oavsett om de gör det inte så hoppas jag att du får uppleva åtminstone en stund det är hopp och den den fri man önskar sig den här tiden på åretunder året som gått har drottningen och jag haft glädjen att gratulera omkring ett tusen fem hundra svenskar på deras hundraårsdag genom telegram som vi skickar förr var det mycket ovanligt att blir så gammal men många av de barn som föds i dag kommer att uppleva sin hundårsdagkanske kommer de att fira jul med både barnbarn och barnbarnsbarn det är en fantastisk utvecklingde svenskar som i år har firat sin hundrårsdag föddes nittonhundra tjugo ettsamma år som det första svenska riksdagsvalet med lika och allmän rösträtt hölls och de fe första kvinnliga ledamöterna valdes in i riksdagengenom denna förändring tog sverige ett avgörande steg mot att bli det land vi är idagunder min tid som kung har jag själv fått uppleva den första kvinnliga partiledaren i riksdagen den första kvinnliga talmannen och i år den första kvinnliga stadsminister ja utvecklingen går verkligt framåt på olika områdenert skäl till att allt fler svenskar får leva så länge och vara så friska i ala de framsteg forskningen och sjukvården görför en tid sedan talade jag med en svensk kanserforskare han berättade att han hoppas att den behandling som han arbetar med ska kunna ge patienterna några månader till i livet men det riktigt stora sagan är att varje framsteg lägger grunden för nya upptäckter så att människor kanske kan få flera år eller till och med decennier att leva vidare tillsammansunder den tid som gått sedan dagens hundraåringar föddes har vetenskapen gjort enorma frmstegbara de senaste åren har vi sett en rekordsnabb utveckling av flera vaciner lekemedel och behandlingar mot koviforskningen räddar och förlänger människoliv jag har svårt att tänka mig en mer meningsfull verksamhetom jag får hoppas på något av framtiden så är det just det att fler unga människor i vårt land ska ägna sin kraft åt sin kreativitet åt att ytterligare driva vetenskapen och och hela vårt samhälle framåtnär drottning jag gifte oss för fyrtiofem år sedan i storkyrkan här nära slottet bildades en bröllopsfongnyligen råkade jag hitta i bokhyllan den bok som fonden gav ut nittonhundra åttiofem med titeln kom igenden handlade om parasport och när jag såg den där boken så fastnade jag särskilt för titeln kom igen mycket av det gångna året har handlat om just detta att starta om sverige efter pandeminatte ta tillbaka verksamhet och och stegvis återgå till en mer normal tillvaro att komma igen sedan förra hösten har jag och min familj genomfört besök de nästan alla sveriges led för att uppmärksamma lokala insatser med anledning av pandeminvi har träffat myndigheter företag och organisationer som påverkas av den här speciella situationen och som bidragit med med fantastiska insatserdet har varit lärrika och och givande möterpå ett personligt plan har jag många gånger fylls av av djup respekt för alla anställda ledare och ideellt angagerade som som vi mött under våra besökunder snart två år som vi levt med kovidnittonpandemin har dessa personer och väldigt många andra i vårt land gjort sitt yttersta för att lösa de problem och de uppgifter som uppståtttack vare dom tack vare alla er har vårt land fortsatt att fungera och står väl rustad för att komma igen för det vill jag uttrycka min stora uppskattningtill sist vill jag vända mig särskilt till dig som förlorat någon som stått i nära kanske saknar du något som borde suttit bredvid dig just nu ett barnen livskamrat efer eldr eller syskon en god vän eller en kollegajag kan inte säga något som som fyller d tomrummet men jag vill ändå på detta sätt sända en en hälsning och en tanke till digjag hoppas att så många sm möjligt i vårt land får möta det nya red med hopp och tillförsiktmen låt oss också ha modet att se och hjälpa de som har det svårtjag vill önska dig en fortsatt god jul och ett gott nytt år tjugohundra tjutvåhan henne
3
  1
4
+ tack så mycket för den fina presentationenatt intervjua jag frågar du svarar det verkar lätt som intervjuare har man otroligt mycket att slåss mot och jag skulle jag säga man har ju en ide om att man ska få ett ärligt svar eller hur det sker väldigt sällan väldigt sällanoch vad har man å slåss mot ja tidspres miljö som stör man kanske inte överens om varför man gör den här intervjun men det som är allra svårast tycker jag att slåss mot det e den intervjuades bild av vad han eller hon vill förmedla vilken bild vill jag ge av mig själv och det där hållervi alla på med långt utanför inte ju situationen för övrigtjag känner igen dig själv när jag blir intervjuad jag tänker mycket på det innan åtminstone har jag gjort det men det är en liten förändring på gång jag tänkte hur hur hur ska jag vad e ideala bilden av mig och sen så försöker jag leverera det och då blir det ju inget möte riktigt möte utan jag har redan bestämt mig och det gör ganska mångajag intervjuar alltid nästan människor med en position med makt de har mycket att försvara de har inte bara sig själva och sitt rykte att försvara det kan vara ett parti de kanske ska vinna ett val affärerna ska gå bättre det finns en organisation bakom som som har ett stort intresse av att det sägs exakt rätt sakersen kan det uppstå en situation där det låter väldigt ärligt och öppet wau titta hör det här nu blev ett möte män kan ju vara ett verk av en per strateg just nu så har du varit lite kylig sista tiden nu behöver vi lite mer verklighet lite mer värme lite mer riktig människa då är det det som jag möter kanske händer att jag går på detförhoppningsvis inte men så händer det iblnd några gyllene ögonblick väldigt sällan skulle jag tyvärr sägaatt det blir på riktigt att det är ett riktigt möte att det några sekunder kanske några minuter i bästa fall som man glömmer den där omgivningen och framför allt glömmer det man ville få ut och att man bar här och nuför ungefär en månad sedan så satt jag mitt emot den världsberömda författaren henning mankeli teveprogrammet min sannings studio i tevehuset i göteborgoch han satt där med sin svarta kavaj och sin svartvita havajeskjorta och sitt vita hår som stod som en gloria runt huvudet och ganska rödögd var han på grund av sälgivsbeandling han hade han har en tumör i nacken och en i lungan men säljesbehandlingen fungerar ganska bra och han kände sig ändå ganska pigg och vi pratade om hans dödsångest han berättade om panikattacker på nätterna vi pratade om hans liv i mosambick han bor där halva tiden vi pratar om sofia som har skrivit mycket böcker om sofia som är lämlästd av minor efter krig och som han sofia är ett av många många barn ni känner säket till det här som han verkligen har förändrat livet förär du en världsförbättrare frågade jag henning ja det sade han det det är klart att jag det vi är väl här för att förbättra världen det hppas jag verkligen att jag eroch jag gick vidare och frågade om hans mamma som övergav honom när han var bebis och sen träffade honom nästa gång när han var femton på en krog i stockholm brända tomten som inte finns längre och det första hon sa till honom var kom inte nära jag är så förkyldoch sen tog jag sats och frågde honom omdet han inte vill prata om nämligen hans egen son som är trettfemårsåldern i dag som han har övergivithan hade sagt oss att han inte ville prata om det och jag bad mig bultande hjärta som jag närmar mig här ämnet hastig gud men vi måste ha det här jag och karin som sitter någostans med redaktörvi kände at vi måste ha hela bilden av honom det går inte han gör så mycket gotthan är så fruktansvärt generös och han är en världsförbättrare men det finns en annan sida av hans liv och den hör till bilden vi tecknar ju honom under en timme vi måste ha mer häroch det här var ju naturligt väldigt känsligt han han skilde sig från sonens mamma när pojken var bebis och sen fortsatte henning och leva som om han aldrig hade fått barn han skilde sig från sonen också det var inte tal om delad vårdnad där intehan flyttade runt i sverige och jobbade på olika ställen i olika städer på teatrar han skrev satsat stenhårt på karriären som han alltid har gjort han var inte pappahan höll kontakt med sonen alltid under alla år och i dag har den väldigt fin kontakt men han var ju inte med honom han uppfostrade honom inte han natta honom inte han läste inga gonattsager han gick inte på utvecklingssamal han hade inga tonårsgräll med honom han han var inte pappa han var inte del av hans liv överhuvetagetoch när jag börjar närmare med det här ämnet då så så ser jag jag att henning värjer sigoch jag tänker att nu nu säger han att men jag har saktat inte vi pratar om det där men så ser jag att han han står och väger vad han ska göra och jag och så händer någonting som är ett väldigt gott tecken att hans blick börjar lämna mig och vandrar iväg så här och så väljer han sanningenoch han väljer att gå in i det och berättar omvarfördblev så och han ångrar inte det och det är ju en skam i vårt samhälle att man lämnar sitt barn säkert ännu mer om en kvinna gör det men men han han gör det han står för detfast han vet att det inte är någon vacker bild av honom han struntar i bilden av sig själv i den stundenoch varför blev dehär varför lyckades jag om jag nu har någon inverkan i det hela komma dit för en gångs skull ja den personliga kontakten spelar naturligtvis roll vi hade mötts en gång tidigare henning har sett mig massmår han är samhällsintresserad och titta på aktuellt agenda och har förtroende för mig men så hade vi möts en gång tidigare det var när ingmar bergman dog henning ingmar bergman svärson och aktuellt hade en förlängd sändning och jag var programledare och henning mankel var en av gästerna och det blev ett väldigt bra samtal och vi hade tid på oss så vi hade tid att prata innan och det funkade bra så det här är ju såklart vikt en viktg komponent säkert en grundförutsättnig naturligtvis vem man möter men det räcker ju inte det vet ju jag för att jag har suttit den här situation som jag gånger när kontakten också har varit bra och de och det har liksom inte häntjag tror att det finns en annan viktig förklaring och det en dragning till sanningenför att att stå för den man är med fel och brister och att säga det där svåra som inte ser så snyggt ut men som är sant att inte gömma sig det är ju väldigt befriande även om det är någonting skamligt och varför drogs han då till sanningen jag vet ju inte jag har ingen aning om han inte sk om han skulle gjort det tidigar eler inte men jag kan inte låta bli att tänka på två saker det ena är att han är sjuk och att han har stått öga mot öga med döden och gör det fortfarandejag har ingen erfarenhet av det jag vet inte om det har betydelse men jag tror det jag har erfarenhet av att bli äldre och henning närmar sig sjuttioch jag känner själv att jag är så ointresserad av det ytliga och det känner ni säkert igen det finns säkert fler som är min ålder eller om man yngre när man nu upptäcker de att man sänker garden och man orkar inte liksom hålla på mytletnad längre utan nu är det så här den här är jag och det här står jag förjag märker att jag de människor som jag trivs bäst med i dag och som jag gärna binder band till er dem som tursmedge revorna och srickorna i idyllen så långt bort från fejsbuktjusea livet jag bara kan kommaoch jag tänker så här att om en människa som hennimankel som är så beundrad och läste och stå för så mycket gott om han kan sitta på bästa sändningstid och medge det där solka sidan av sig själv utan att tänka på hur det påverkar bokförsäljninge elva sjutton detså kansk det kan få någon annan eller fler av oss å och nån gång emellanåt i alla fall säga faktiskt som det e för att när man gör det när man hör sig själv säga sanningar om sitt eget liv och sitt eget innersta så blir det verkligtochdå kan de u hända saker med livet kan ju faktiskt samhället förändra livet tack så mycket
mozilla-foundation_common_voice_8_0_sv-SE_test_eval_results.txt CHANGED
@@ -1,2 +1,2 @@
1
- WER: 0.09437978995174567
2
- CER: 0.03291422449108212
1
+ WER: 0.08719841044564292
2
+ CER: 0.03053507279258839
speech-recognition-community-v2_dev_data_sv_validation_eval_results.txt CHANGED
@@ -1,2 +1,2 @@
1
- WER: 0.19633273703041146
2
- CER: 0.09062003179650238
1
+ WER: 0.1967799642218247
2
+ CER: 0.08944858170864363