jcmc commited on
Commit
7f3926e
1 Parent(s): 3992870

Upload lm-boosted decoder

Browse files
.ipynb_checkpoints/notebook-checkpoint.ipynb ADDED
@@ -0,0 +1,6 @@
 
 
 
 
 
 
 
1
+ {
2
+ "cells": [],
3
+ "metadata": {},
4
+ "nbformat": 4,
5
+ "nbformat_minor": 5
6
+ }
5gram.arpa ADDED
The diff for this file is too large to render. See raw diff
 
5gram_correct.arpa ADDED
The diff for this file is too large to render. See raw diff
 
notebook.ipynb ADDED
@@ -0,0 +1,441 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "cells": [
3
+ {
4
+ "cell_type": "code",
5
+ "execution_count": 1,
6
+ "id": "347417aa",
7
+ "metadata": {},
8
+ "outputs": [],
9
+ "source": [
10
+ "from datasets import load_dataset"
11
+ ]
12
+ },
13
+ {
14
+ "cell_type": "code",
15
+ "execution_count": 35,
16
+ "id": "131dee3d",
17
+ "metadata": {},
18
+ "outputs": [
19
+ {
20
+ "name": "stderr",
21
+ "output_type": "stream",
22
+ "text": [
23
+ "Reusing dataset common_voice (/workspace/cache/hf/datasets/mozilla-foundation___common_voice/ga-IE/7.0.0/fe20cac47c166e25b1f096ab661832e3da7cf298ed4a91dcaa1343ad972d175b)\n"
24
+ ]
25
+ },
26
+ {
27
+ "data": {
28
+ "text/plain": [
29
+ "Dataset({\n",
30
+ " features: ['client_id', 'path', 'audio', 'sentence', 'up_votes', 'down_votes', 'age', 'gender', 'accent', 'locale', 'segment'],\n",
31
+ " num_rows: 529\n",
32
+ "})"
33
+ ]
34
+ },
35
+ "execution_count": 35,
36
+ "metadata": {},
37
+ "output_type": "execute_result"
38
+ }
39
+ ],
40
+ "source": [
41
+ "dataset = load_dataset(\"mozilla-foundation/common_voice_7_0\", 'ga-IE', split=\"train\", use_auth_token = True)\n",
42
+ "dataset"
43
+ ]
44
+ },
45
+ {
46
+ "cell_type": "code",
47
+ "execution_count": 8,
48
+ "id": "05c3ae92",
49
+ "metadata": {},
50
+ "outputs": [
51
+ {
52
+ "data": {
53
+ "text/plain": [
54
+ "'An bhfuil do pheannsa sa bhaile, a Shíle'"
55
+ ]
56
+ },
57
+ "execution_count": 8,
58
+ "metadata": {},
59
+ "output_type": "execute_result"
60
+ }
61
+ ],
62
+ "source": [
63
+ "audio_sample = dataset[2]\n",
64
+ "audio_sample['sentence']"
65
+ ]
66
+ },
67
+ {
68
+ "cell_type": "code",
69
+ "execution_count": 9,
70
+ "id": "c2edcf22",
71
+ "metadata": {},
72
+ "outputs": [
73
+ {
74
+ "data": {
75
+ "text/plain": [
76
+ "{'client_id': '7a622ad3217ecf8c2fc6656077a33059732504874d096bd0fc1d239f6e5f39a5861c5faad9e119d588ea80c048c3ab02bfae41fbde22232e89272ac3d5ecc7a4',\n",
77
+ " 'path': 'cv-corpus-7.0-2021-07-21/ga-IE/clips/common_voice_ga-IE_17410230.mp3',\n",
78
+ " 'audio': {'path': 'cv-corpus-7.0-2021-07-21/ga-IE/clips/common_voice_ga-IE_17410230.mp3',\n",
79
+ " 'array': array([ 0. , 0. , 0. , ..., -0.00993466,\n",
80
+ " -0.00979847, -0.00967056], dtype=float32),\n",
81
+ " 'sampling_rate': 48000},\n",
82
+ " 'sentence': 'An bhfuil do pheannsa sa bhaile, a Shíle',\n",
83
+ " 'up_votes': 2,\n",
84
+ " 'down_votes': 0,\n",
85
+ " 'age': '',\n",
86
+ " 'gender': '',\n",
87
+ " 'accent': '',\n",
88
+ " 'locale': 'ga-IE',\n",
89
+ " 'segment': ''}"
90
+ ]
91
+ },
92
+ "execution_count": 9,
93
+ "metadata": {},
94
+ "output_type": "execute_result"
95
+ }
96
+ ],
97
+ "source": [
98
+ "audio_sample"
99
+ ]
100
+ },
101
+ {
102
+ "cell_type": "code",
103
+ "execution_count": 12,
104
+ "id": "f3d9bb64",
105
+ "metadata": {},
106
+ "outputs": [
107
+ {
108
+ "name": "stdout",
109
+ "output_type": "stream",
110
+ "text": [
111
+ "Git LFS: (2 of 2 files) 3.59 GB / 3.59 GB \n"
112
+ ]
113
+ }
114
+ ],
115
+ "source": [
116
+ "!git lfs pull"
117
+ ]
118
+ },
119
+ {
120
+ "cell_type": "code",
121
+ "execution_count": 13,
122
+ "id": "936da5cb",
123
+ "metadata": {},
124
+ "outputs": [],
125
+ "source": [
126
+ "from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC\n",
127
+ "\n",
128
+ "processor = Wav2Vec2Processor.from_pretrained(\"./\")\n",
129
+ "model = Wav2Vec2ForCTC.from_pretrained(\"./\")"
130
+ ]
131
+ },
132
+ {
133
+ "cell_type": "code",
134
+ "execution_count": 16,
135
+ "id": "28659e97",
136
+ "metadata": {},
137
+ "outputs": [
138
+ {
139
+ "data": {
140
+ "text/plain": [
141
+ "{'client_id': '7a622ad3217ecf8c2fc6656077a33059732504874d096bd0fc1d239f6e5f39a5861c5faad9e119d588ea80c048c3ab02bfae41fbde22232e89272ac3d5ecc7a4',\n",
142
+ " 'path': 'cv-corpus-7.0-2021-07-21/ga-IE/clips/common_voice_ga-IE_17410230.mp3',\n",
143
+ " 'audio': {'path': 'cv-corpus-7.0-2021-07-21/ga-IE/clips/common_voice_ga-IE_17410230.mp3',\n",
144
+ " 'array': array([ 0. , 0. , 0. , ..., -0.00993466,\n",
145
+ " -0.00979847, -0.00967056], dtype=float32),\n",
146
+ " 'sampling_rate': 48000},\n",
147
+ " 'sentence': 'An bhfuil do pheannsa sa bhaile, a Shíle',\n",
148
+ " 'up_votes': 2,\n",
149
+ " 'down_votes': 0,\n",
150
+ " 'age': '',\n",
151
+ " 'gender': '',\n",
152
+ " 'accent': '',\n",
153
+ " 'locale': 'ga-IE',\n",
154
+ " 'segment': ''}"
155
+ ]
156
+ },
157
+ "execution_count": 16,
158
+ "metadata": {},
159
+ "output_type": "execute_result"
160
+ }
161
+ ],
162
+ "source": [
163
+ "audio_sample"
164
+ ]
165
+ },
166
+ {
167
+ "cell_type": "code",
168
+ "execution_count": 28,
169
+ "id": "e24cacdc",
170
+ "metadata": {},
171
+ "outputs": [],
172
+ "source": [
173
+ "inputs = processor(audio_sample[\"audio\"][\"array\"], sampling_rate=16000, return_tensors=\"pt\")"
174
+ ]
175
+ },
176
+ {
177
+ "cell_type": "code",
178
+ "execution_count": 29,
179
+ "id": "d9972307",
180
+ "metadata": {},
181
+ "outputs": [],
182
+ "source": [
183
+ "import torch\n",
184
+ "\n",
185
+ "with torch.no_grad():\n",
186
+ " logits = model(**inputs).logits"
187
+ ]
188
+ },
189
+ {
190
+ "cell_type": "code",
191
+ "execution_count": 30,
192
+ "id": "b78e3ea6",
193
+ "metadata": {},
194
+ "outputs": [
195
+ {
196
+ "data": {
197
+ "text/plain": [
198
+ "torch.Size([1, 611, 34])"
199
+ ]
200
+ },
201
+ "execution_count": 30,
202
+ "metadata": {},
203
+ "output_type": "execute_result"
204
+ }
205
+ ],
206
+ "source": [
207
+ "logits.shape"
208
+ ]
209
+ },
210
+ {
211
+ "cell_type": "code",
212
+ "execution_count": 31,
213
+ "id": "b1692f0a",
214
+ "metadata": {},
215
+ "outputs": [
216
+ {
217
+ "data": {
218
+ "text/plain": [
219
+ "'anrúir car nria cn nn non mneanaénnni'"
220
+ ]
221
+ },
222
+ "execution_count": 31,
223
+ "metadata": {},
224
+ "output_type": "execute_result"
225
+ }
226
+ ],
227
+ "source": [
228
+ "predicted_ids = torch.argmax(logits, dim=-1)\n",
229
+ "transcription = processor.batch_decode(predicted_ids)\n",
230
+ "\n",
231
+ "transcription[0].lower()"
232
+ ]
233
+ },
234
+ {
235
+ "cell_type": "code",
236
+ "execution_count": 38,
237
+ "id": "ecf01625",
238
+ "metadata": {},
239
+ "outputs": [],
240
+ "source": [
241
+ "with open(\"text.txt\", \"w\") as file:\n",
242
+ " file.write(\" \".join(dataset['sentence']))"
243
+ ]
244
+ },
245
+ {
246
+ "cell_type": "code",
247
+ "execution_count": 40,
248
+ "id": "40067117",
249
+ "metadata": {},
250
+ "outputs": [
251
+ {
252
+ "name": "stdout",
253
+ "output_type": "stream",
254
+ "text": [
255
+ "=== 1/5 Counting and sorting n-grams ===\n",
256
+ "Reading /workspace/wav2vec2-xls-r-1b-ir/text.txt\n",
257
+ "----5---10---15---20---25---30---35---40---45---50---55---60---65---70---75---80---85---90---95--100\n",
258
+ "****************************************************************************************************\n",
259
+ "Unigram tokens 3960 types 1431\n",
260
+ "=== 2/5 Calculating and sorting adjusted counts ===\n",
261
+ "Chain sizes: 1:17172 2:14475761664 3:27142055936 4:43427287040 5:63331463168\n",
262
+ "Statistics:\n",
263
+ "1 1430 D1=0.788367 D2=1.34216 D3+=0.97277\n",
264
+ "2 3029 D1=0.885256 D2=1.28784 D3+=1.81966\n",
265
+ "3 3538 D1=0.95385 D2=1.62076 D3+=1.26573\n",
266
+ "4 3709 D1=0.979641 D2=1.38128 D3+=2.02036\n",
267
+ "5 3789 D1=0.942754 D2=1.59232 D3+=2.05725\n",
268
+ "Memory estimate for binary LM:\n",
269
+ "type kB\n",
270
+ "probing 343 assuming -p 1.5\n",
271
+ "probing 409 assuming -r models -p 1.5\n",
272
+ "trie 160 without quantization\n",
273
+ "trie 98 assuming -q 8 -b 8 quantization \n",
274
+ "trie 154 assuming -a 22 array pointer compression\n",
275
+ "trie 92 assuming -a 22 -q 8 -b 8 array pointer compression and quantization\n",
276
+ "=== 3/5 Calculating and sorting initial probabilities ===\n",
277
+ "Chain sizes: 1:17160 2:48464 3:70760 4:89016 5:106092\n",
278
+ "----5---10---15---20---25---30---35---40---45---50---55---60---65---70---75---80---85---90---95--100\n",
279
+ "####################################################################################################\n",
280
+ "=== 4/5 Calculating and writing order-interpolated probabilities ===\n",
281
+ "Chain sizes: 1:17160 2:48464 3:70760 4:89016 5:106092\n",
282
+ "----5---10---15---20---25---30---35---40---45---50---55---60---65---70---75---80---85---90---95--100\n",
283
+ "####################################################################################################\n",
284
+ "=== 5/5 Writing ARPA model ===\n",
285
+ "----5---10---15---20---25---30---35---40---45---50---55---60---65---70---75---80---85---90---95--100\n",
286
+ "****************************************************************************************************\n",
287
+ "Name:lmplz\tVmPeak:145097716 kB\tVmRSS:6968 kB\tRSSMax:25576636 kB\tuser:2.61395\tsys:13.3051\tCPU:15.9192\treal:15.8981\n"
288
+ ]
289
+ }
290
+ ],
291
+ "source": [
292
+ "!../kenlm/build/bin/lmplz -o 5 <\"text.txt\" > \"5gram.arpa\""
293
+ ]
294
+ },
295
+ {
296
+ "cell_type": "code",
297
+ "execution_count": 42,
298
+ "id": "ab7fc7d0",
299
+ "metadata": {},
300
+ "outputs": [],
301
+ "source": [
302
+ "from transformers import AutoProcessor\n",
303
+ "\n",
304
+ "processor = AutoProcessor.from_pretrained('./')"
305
+ ]
306
+ },
307
+ {
308
+ "cell_type": "code",
309
+ "execution_count": 43,
310
+ "id": "4d994ae5",
311
+ "metadata": {},
312
+ "outputs": [],
313
+ "source": [
314
+ "vocab_dict = processor.tokenizer.get_vocab()\n",
315
+ "sorted_vocab_dict = {k.lower(): v for k, v in sorted(vocab_dict.items(), key=lambda item: item[1])}"
316
+ ]
317
+ },
318
+ {
319
+ "cell_type": "code",
320
+ "execution_count": 47,
321
+ "id": "3dd24709",
322
+ "metadata": {},
323
+ "outputs": [],
324
+ "source": [
325
+ "with open(\"5gram.arpa\", \"r\") as read_file, open(\"5gram_correct.arpa\", \"w\") as write_file:\n",
326
+ " has_added_eos = False\n",
327
+ " for line in read_file:\n",
328
+ " if not has_added_eos and \"ngram 1=\" in line:\n",
329
+ " count=line.strip().split(\"=\")[-1]\n",
330
+ " write_file.write(line.replace(f\"{count}\", f\"{int(count)+1}\"))\n",
331
+ " elif not has_added_eos and \"<s>\" in line:\n",
332
+ " write_file.write(line)\n",
333
+ " write_file.write(line.replace(\"<s>\", \"</s>\"))\n",
334
+ " has_added_eos = True\n",
335
+ " else:\n",
336
+ " write_file.write(line)"
337
+ ]
338
+ },
339
+ {
340
+ "cell_type": "code",
341
+ "execution_count": null,
342
+ "id": "65607d2d",
343
+ "metadata": {},
344
+ "outputs": [],
345
+ "source": []
346
+ },
347
+ {
348
+ "cell_type": "code",
349
+ "execution_count": 48,
350
+ "id": "9f2c0244",
351
+ "metadata": {},
352
+ "outputs": [
353
+ {
354
+ "name": "stderr",
355
+ "output_type": "stream",
356
+ "text": [
357
+ "Found entries of length > 1 in alphabet. This is unusual unless style is BPE, but the alphabet was not recognized as BPE type. Is this correct?\n",
358
+ "Unigrams and labels don't seem to agree.\n"
359
+ ]
360
+ }
361
+ ],
362
+ "source": [
363
+ "from pyctcdecode import build_ctcdecoder\n",
364
+ "\n",
365
+ "decoder = build_ctcdecoder(\n",
366
+ " labels=list(sorted_vocab_dict.keys()),\n",
367
+ " kenlm_model_path=\"5gram_correct.arpa\",\n",
368
+ ")"
369
+ ]
370
+ },
371
+ {
372
+ "cell_type": "code",
373
+ "execution_count": 49,
374
+ "id": "017e8d2c",
375
+ "metadata": {},
376
+ "outputs": [],
377
+ "source": [
378
+ "from transformers import Wav2Vec2ProcessorWithLM\n",
379
+ "\n",
380
+ "processor_with_lm = Wav2Vec2ProcessorWithLM(\n",
381
+ " feature_extractor=processor.feature_extractor,\n",
382
+ " tokenizer=processor.tokenizer,\n",
383
+ " decoder=decoder\n",
384
+ ")"
385
+ ]
386
+ },
387
+ {
388
+ "cell_type": "code",
389
+ "execution_count": 50,
390
+ "id": "3b4c2228",
391
+ "metadata": {},
392
+ "outputs": [],
393
+ "source": [
394
+ "processor_with_lm.save_pretrained(\"xls-r-1b-ir\")"
395
+ ]
396
+ },
397
+ {
398
+ "cell_type": "code",
399
+ "execution_count": 55,
400
+ "id": "786587f0",
401
+ "metadata": {},
402
+ "outputs": [
403
+ {
404
+ "ename": "NameError",
405
+ "evalue": "name 'repo' is not defined",
406
+ "output_type": "error",
407
+ "traceback": [
408
+ "\u001b[0;31m---------------------------------------------------------------------------\u001b[0m",
409
+ "\u001b[0;31mNameError\u001b[0m Traceback (most recent call last)",
410
+ "\u001b[0;32m<ipython-input-55-b8e08bd9412e>\u001b[0m in \u001b[0;36m<module>\u001b[0;34m\u001b[0m\n\u001b[0;32m----> 1\u001b[0;31m \u001b[0mrepo\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mpush_to_hub\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mcommit_message\u001b[0m\u001b[0;34m=\u001b[0m\u001b[0;34m\"Upload lm-boosted decoder\"\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0m",
411
+ "\u001b[0;31mNameError\u001b[0m: name 'repo' is not defined"
412
+ ]
413
+ }
414
+ ],
415
+ "source": [
416
+ "repo.push_to_hub(commit_message=\"Upload lm-boosted decoder\")"
417
+ ]
418
+ }
419
+ ],
420
+ "metadata": {
421
+ "kernelspec": {
422
+ "display_name": "Python 3",
423
+ "language": "python",
424
+ "name": "python3"
425
+ },
426
+ "language_info": {
427
+ "codemirror_mode": {
428
+ "name": "ipython",
429
+ "version": 3
430
+ },
431
+ "file_extension": ".py",
432
+ "mimetype": "text/x-python",
433
+ "name": "python",
434
+ "nbconvert_exporter": "python",
435
+ "pygments_lexer": "ipython3",
436
+ "version": "3.8.8"
437
+ }
438
+ },
439
+ "nbformat": 4,
440
+ "nbformat_minor": 5
441
+ }
text.txt ADDED
@@ -0,0 +1 @@
 
 
1
+ A Thiarna déan trócaire orainn. Dúirt Pól nach raibh an rang sa halla. Ní rabhas ag caint léi le fada. B’éigean an corc a chur ar ais ar an mbuidéal. tá turse orm eolas fúinn Tugaim fiche euro dó ó am go chéile. cúigear an comhchoiste réamhscolaíochta Níl ann ach nach n-oireann sé di. Dhein sí iarracht an-mhaith ach fós féin níor leor é. Is mór an pléisiúir dom é MayFest dhá mhíle a sé déag a oscailt A dhaoine córa, Cad é an dath atá air Guím gach rath ar Chomhdháil Oileán na hÉireann. A Thánaiste, a Oirirceasa a sheansailéir, a leas-sheansailéir, a mhic léinn, a dhaoine uaisle Tá mé go maith, buíochas le Dia, conas atá tú féin An té is lú eolais is é is mó a labhraíonn Tá leabhar agamsa, a dhuine uasail Impím oraibh gan na maidí a ligin le sruth Na méireanna fada Is mór an pléisiúir dom bheith anseo inniu Bhí Séamus sa bhaile Bhí an coileach ina sheasamh in airde ar an gcró An Cabhán Cá bhfuil do pheann Tá cathaoir ag an doras, agus tá cathaoir eile ag an bhfuinneog anois an tseamróg ghlas bheag Tá áthas orm féin agus ar Saidhbhín fáilte a fhearadh romhaibh go hÁras an Uachtaráin Tá mála mór ar an urlár, agus tá mála beag ar an mbord Comhghairdeas libh as ucht na n-éachtaí sin a bhaint amach An Méid (Dollair Stát Aontaithe) Tá áthas orm a bheith anseo inniú chun ‘Ollamh Éireann le Filíocht’ nua a fhógairt bailí agus i bhfeidhm ar feadh na bliana a shonrófar chuige sin sa cheadúnas. Oscail é, más é do thoil é Na buachaillí beaga Bhí sé ag teacht abhaile Bhí nádúr agus scála an chomórtha thar cuimse Acht ó Oireachtas Shaorstát Éireann Ní mar a shíltear a bhítear An Ghearmáin Tá fíorchaoin fáilte romhaibh ar fad chuig Áras an Uachtaráin An Maoirseoir, Tithe an Oireachtais, agus Captaen an Gharda, Tithe an Oireachtais, a cheapadh. Óráid an Uachtaráin, Micheál D Ó hUigínn ag Cóisir Ghaeilge sa Ghairdín Tá peann agamsa agus tá peann agatsa agus is linn féin iad Tá an fhuinneog ar oscailt. Ceacht a Dó Bainigí sult as an lá, agus bígí ar bhur suaimhneas Beo agus muid ag bunú agus ag tógáil Gaelscoileanna nua An Ostair An Bord nó oifigigh don Bhord do dhul isteach ar thalamh. Óráid an Uachtaráin Le linn a chuairt ar Chléire An bord beag Ná habair faic faoi. Ailt áirithe do leanúint i bhfeidhm. I mbliana, tá Seachtain na Gaeilge agus Conradh na Gaeilge mar phríomh-chomhpháirtithe ar an ócáid. agus comhghairdeas libh arís Táim nocht Tá an-áthas orm bheith anseo inniu chun Féile Lár-Shamhraidh Phort Láirge a oscailt. Bhí comhluadar ban ag sníomh bréidín tigh Bhairbre an Droichid oíche airneáin Is féidir an rud céanna a rá faoi chúrsaí pholaitíochta agus aitheantas an phobail Chuaigh siad i gcomhairle a chéile. thug sé an t-airgead don fhear Ábhar caipitiúil i mblianachtaí ceannaithe áirithe. Go raibh míle maith agaibh go léir, agus go dté sibh slán Comhaltas agus Caipiteal. Nach tusa Tomás Ó Ceallaigh Tá a fhios agam go bhfuil feachtais ar bun le hiar-bhunscoileanna Gaeilge a bhunú Murach an obair sin bheadh rudaí níos faide siar go suntasach gan amhras Ar bhealach. Go raibh míle maith agaibh An raibh sé ar scoil inné Coir déistineach a chur uafás ar an tír uile Ag scríobh na litreach. Gura fada buan sibh i mbun cheoil bhinn na hÉireann. "Tréaslaím le Seachtain na Gaeilge as a mana tarraingteach ""Croí na Teanga: It's you""." An bhfuil an leabhar buí ar an mbord, a Dhomhnaill An Príomh-Acht do leanúint i bhfeidhm. Is ar, a dhuine uasail Cad é an dhath atá ar an leabhar atá agat Nollaig faoi shéan agus faoi mhaise oraibh go léir Mac deartháir do Risteard ba ea Piaras ar ndóigh. a Thánaiste Contae Chorcaí, an deichiú lá de mhí an Mheitheamh dhá mhíle a cúig déag Ach ní dúirt de Hindeberg aon ní dá short. Tóg é sin. Tá áthas orm féin agus ar Saidhbhín go bhfuil sibh inár gcomhluadar Tugaim cuairt go minic ar ghaelscoileanna fud fad na tíre Go raibh maith agaibh as ucht bhur gcuid flaithiúlachta agus bhur fíorchaoin fáilte. Tá dúshlán romhainn anois daoine a mhealladh chuig an Gaeilge Cé go bhfuil giotaí de dhaoine ionam ní duine mé. Bhí sé ag obair inné Do bhí Maighréad anseo inné agus do bhí leabhar aici Go raibh míle maith agaibh as bhur bhfoighne ní liomsa é Tá sé níos fearr anois. Leabhar dearg is ea é sin, agus leabhar bán is ea é seo An bhfuil na cailíní ag an tine Cur chuige den sort sin atá ag teastáil ónar dteanga. A Cheardchumannaithe is fear é An mbeidh tú féin ar scoil amárach Tá sé a deich a chlog Tá leabhar mór ag Siobhán Ní Thuama, ach níl aon pheann aici An capall dubh Ar dheis Dé go raibh a anam Achomhairc. Beidh sé ar scoil amárach Níor bhris focal maith fiacail riamh Achtanna na Sclábhaithe do leanúint i bhfeidhm. Tá áthas orm bheith anseo i bhur measc tráthnóna chun an tIonad seo a sheoladh Ní hea, ach bosca beag An Fhionlainn Is mian liom a rá arís chomh mór is atáim as an duais seo fháil Oscailt Mór an t-aonú Se�� Bláthanna Domhanda déag ag Cumann Cóiritheoirí Bláthanna na Cruinne. Forálacha Deiridh. Comhgháirdeachas mór le Cnocán an Éin Fhinn A chomhaltaí na Comhairle Stáit Is lá é seo chun céiliúradh a dhéanamh Tá an-áthas orm bheith anseo libh Is leor nod don eolach Cad a bhí agat Tá an ghrian níos gile ná an ghealach, Tá sé ina sheasamh ag bun na sráide. Cuir an chailc seo ar an mbord Conas atá Eibhlín Pá seachtaine atá ag dul dom. Ba mhór an onóir dom fresin cuireadh a fháil chun crann a chur anseo. Cad é an rud é sin Fan go fóill. Na fuarmaí fada na fir mhóra A Cheann Foirne agus a Óglacha na hÉirean Go raibh míle maith agaibh go léir, agus bainigí sult as an lá Mar a dúirt an léirmheastóir Anthony Butler, agus é ag cur síos ar shaothar Edward Ná cuir do mhála ar an mbord, a Thomáis, cuir ar an urlár é Is mór an pléisiúir dom a bheith anseo libh ar fad inniu Tá mé buíoch dibh as an cuireadh agus an fáilte forchaoin a chur sibh romham Gan phobail tuaithe bheoga ní bheidh sochaí beo fuinniúil ann Níl aon rud ar a ceann, ach tá hata ar mo cheannsa Is mór an pléisiúir dom é an chomhdháil tábhachtach seo a oscailt Ní thuigim - bhuel, tá mé chun ligean orm féin nach dtuigim a sé a chlog A Leas-Sheansailéir, a mhic léinn agus a chairde Gael Tá sé i mo phóca agam Is mór an pléisiúir dom a bheith anseo libh inniu Nuálaí struchtúrach agus nuálaí oideachasúil ab ea í Naomh Bríde Muna bhfuil timpeallacht sláintiúil ann, ní bheidh geilleagar sláintiúil ná sochaí sláintiúil ann ach oiread Beo agus muid ag freastail ar pop-up Gaeltachtaí ar fud an domhain An Coimisinéir Luachála do chabhrú leis an gCúirt. A Bhalla Dáimhe Guím gach rath ar bhur gcomhdháil tábhachtach. Gabhaim buíochas libh a chairde táimid ag tsnúth le tuilleadh uaibh ar ball An Bord Stiúrthóirí. An dara ceacht Dún an doras, a Mhichíl, más é do thoil é Bhí áthas orm gur ghlac an Wheel páirt i dTionscnamh Eitice Uachtarán na hÉireann. Croch suas é a stór! Caora is mó a bhíonn sa ghort sin. Tá an tír seo faoi chomaoin mhóir ag an bpobal beag Gaeltachta seo. A chúin an cothéacs as a thagann ár bhféidireachtaí d’inniu agus don todhchaí Cosc ar thobac. Tá, tá na málaí go léir ar an urlár Is mór an pléisiúir dom é an chomhdháil tábhachtach seo a sheoladh "A naoi déag d'fhichithe" An bhfuil an mála agat, a Bhriain Treaslaím libh agus déanaim comhghairdeas libh as an sár-obair seo atá curtha i gcrích agaibh. Bhí sé ar dhuine de hintinní dlíthúla móra ár linne Bígí ar bhur shuaimhneas Tá áthas orm a fhógairt go bhfuil tús leis an t-ochtó tríú Comórtas Náisiúnta Treabhdóireachta! a trí a chlog Is iomaí cor sa saol Ar an mbóthar Agus ní bheidh pobail tuaithe bheoga ann gan feirmeacha theaghlaigh Ar dheis Dé go raibh a n-anamacha An bhfuil a deartháir sa bhaile leis An bhfuil mála ar an urlár "Bhí Tara Viscardi agus Meadhbh O'Rourke ag seinnt i ngáirdín na mbláth" "Is comhartha suntasach í d'ár bhféin-mheas mar náisiún" Tá difríocht ama uair amháin idir seo agus Vársá Is mór an pléisiúir dom an t-ochtó séú Comórtas Náisiúnta Treabhdóireachta a oscailt Ar an gcasóg Mar fhocal scoir, is mian liom mo bhuíochas a ghabháil libh arís as bhúr bhflaithiúlacht Is mór an pléisiúir dom a bheith anseo ar maidin fuair bás an séú lá de mhí dheireadh fómhair míle naoi gcéad fiche a hocht Tá sé i mo póca agam Tá sibh bailithe ón earnáíl phríobháideach, an earnáil dheonach agus an státchóras Tá áthas orm fáilte a fhearradh romhaibh chuig Áras an Uachtaráin tráthnóna. Tá an chathaoir ag an doras Níl bá dá laghad aige le hainmhithe. Is í sin an obair atá á gceiliúradh againn anocht Níl mé sásta go hiomlán gur glacadh le mo h-iarratas ar ghach leibhéal Lig sé isteach ar chluas agus amach ar chluas Go raibh maith agaibh agus bainigí taithneamh as an bhfilíocht agus as an gceol. Is féidir leis na meáin chumarsáide ról dearfach a ghlacadh i gcúrsaí teanga Tá an chuma ar an scéal go raibh mí-thuiscint ar dhaoine áirithe ina thaobh. Ach ní h-aon íontas an méid sin An Ceathrú Bliain Cad í fréamh chearnach a naoi? Faraoir, ní raibh sé ar mo chumas glacadh le cuireadh Richard anuraidh. An seachtú ceacht I scáth a chéile a mhaireann na daoine Cad é an dath atá ar an mballa sin Ionann nó mór thimpeall orainn, lenár linn nó ó na glúine atá imithe i léig Is mór an onóir dom bheith anseo libh inniu An Bord Gráin. An cleas a bhíonn ag an deaid, bíonn sé ag an mac Fís atá fós beo Maireann croí éadrom i bhfad "Is mór an chailliúint é don dlí agus d'Éire i gcoitinne" Tugann sé deis do scéalaithe na nua-fhíse a gcéird a fhoghlaim agus a mhaisiú An Dara Bliain Míle buíochas daoibh as an gcuireadh agus as an fáilte a chuir sibh romham. A dhaoine uaisle, a shoilsí Náisiúnaithe, poblachtaigh, sóisialaithe, feiminigh agus idirnáisiúnaíthe ab ea iad fir agus mná an ré sin A Aire Stáit Mhic an tSaoí, Tá grá agam do gach duine a labhraíonn liom. Gúim rath agus sonas oraibh go léir. Is mór an pléisiúir dom é cuairt a thabhairt ar an taobh seo den tír Chuir sí bó thar abhainn. Tá áthas orm fáilte a fhearadh romhaibh go dtí Áras an Uachtaráin agus go hÉireann Beidh mé, beimid go léir ar scoil A Chomhaltaí den Oireachtas, agus a hIonadaithe ban ach go háirithe Sí capall na hoibre an bia Bhuail sí binn an tí leis an sliotar. Ná hoscail é Cad é an dáta atá ann ceathair lá tar éis Lá Nollag? A Aíonna Oirirce, agus a Chairde A mhaca léinn, a fhoirne acadúil, a chairde, An ceathrú ceacht A dhaoine uaisle agus a chairde Briseann an dúchas trí shúile an chait An Chéim tráth an Urscaoilte as na Fórsaí tá siad ag teacht ón tseilg An leatsa an leabhar atá ag Seán Ó Murchú, a Bhriain Chreid Leonardo féin go láidir i gcumhacht an phictiúir mar uirlis eolais Níl mála ar an gcathaoir An fáinne deas Cé mhéad lá atá i mí na Nollag? Ní dóigh liom go bhfuil Tá an leabhar ar an mbinse Dia daoibh a chairde Tá áthas orm a bheith libh ar fad tráthnóna ag an ócáid cheiliúrtha seo Cad é an dath atá ar an leabhar atá agat Ólann an cat ciúin bainne leis Míle buíochas daoibh as an gcuireadh agus as an bhfáilte a chuir sibh romham. Rinne sé é gan aon mhoill. Ar chaith mé sa lá. Daichead a dó ar ndóigh! a hocht a chlog Is mór an pléisiúr dom a bheith anseo ar maidin Ní raibh mórán de mhaoin an tsaoil aige. an cnoc is airde in Éirinn Pádraic Ó Conaire, Fíor-Ghael agus Sárúdar Gaeilge Beidh mála eile aige amárach Guím gach rath ar bhur gcomhdháil thábhachtach. Lá breá, is ea é. Gúna na mná. An bhfuil aon leabhar buí agat Tá, a bhean uasal, tá sí ar an mbord Tá fáilte romhaibh abhaile Ba mhaith liom an cineál gloine ina raibh tú a fheiceáil Ceacht a Seacht Is mian liom mo bhuíochas a ghabháil leatsa, a Seansailéir, as do chuid focail lácha Pós bean ón sliabh agus pósfaidh tú an sliabh Náisiúnaithe, poblachtaigh, sóisialaithe, feiminigh agus idirnáisiúnaithe ab ea iad fir agus mná na ré sin An Príomh-Acht a leasú tuilleadh. Fáinne fí atá ann. Tá an-áthas orm a bheith anseo i gCnocán an Éin Fhinn inniu I ndiaidh cúpla iarracht gan rath, ceadaíodh coimisiúnú an phíosa bhreá seo ar deireadh Thit an duilleog den chrann. D’fhéach sé ar an bhfrog An Iaráic Tá siad sa bhaile An fear a bhuaileann mé. Is iad an Amasóin agus an Níl na haibhneacha is faide ar domhan Ar an ngarsún Ní hamháin. Níl ciall aige. A Chomhaltaí den Tionól Parlaiminteach Tá sé san Eoraip. Thug sí íde béil dó. Bhí Seán Ó Gríofa anseo ar a dó a chlog, ach níl sé anseo anois Go raibh míle maith agaibh as ucht na fíorchaoin fáilte a d’fhear sibh romham. An bhfuil peann ina lámh ag Séamus Conas atá sé A Oirirceasa An t-ochtú ceacht An bhróg bheag Maidin gheal sa samhradh. Achomhairc i gcoinne orduithe a rinneadh ar ghearán. An bhfuil an bosca ar an mbord Nach bhfeiceann tú go bhfuil mé i mo luí? Ar an gcluais Is lá fíor-speisialta an lá seo domsa mar Uachtarán ar Éirinn agus mar Luimníoch. Bhí sé i gCill Airne An Mhí An naíonán a labhair trína chodladh Capall a leag ar an mbóthar é. Paradacsúil, teibí, ach ábhartha i gcónaí Chomh luath agus a chonaic an leanbh a haghaidh, stad sé den chaoineachán Cuir sa tsoitheach sin é. Nuair a bhíonn an t-ól istigh, bíonn an chiall amuigh Airgeadas. Is comharthaí dearfacha iad seo agus is féidir tógáil orthu A Uachtaráin Coláiste na hOllscoile Corcaigh An Chéad Sceideal a ghabhann leis an bPríomh-Acht a leasú. An raibh do bhricfeasta agat is sagart é Go raibh maith agaibh as ucht bhur n-airde. Óráid an Uachtaráin ag Dinnéar Ceiliúrtha Sheachtain na Gaeilge Cad é an difríocht ama idir seo agus Londain? Beo agus muid ag bunú agus ag forbairt Gaelphobal nua Tuigim go ndearna sibh go leor réamh-oibre chun an siombal ceart a roghnú. Cad atá ar a ceann Ní bheidh mé Is mór an pléisiúr dom é cuairt a thabhairt ar an taobh seo den tír Táim ólta An bhfuil eagla ort roimh an mbás? Creid uaim é. Roimh dheireadh na bliana. Bhíodar, agus bhíomar féin ag obair anseo An bhfuil Séamus agus Seán ag an doras "A sé déag d'fhichithe" An Chéad Bhliain Cad í an ilchríoch is mó ar domhan? "Ba dhóigh liom go raibh Úna ní b'airde ná Máire." Is fearr cara sa chúirt ná punt sa sparán Is file iontach í Ciara. Níl le déanamh agam anois ach an leabharlann a oscailt go hoifigiúil. Léigh sí an leabhar. Marbh le tae agus marbh gan é Tá dlúthdhiosca de chuid den chaint atá sa Chartlann eisithe ag an gColáiste chomh maith. Tá mo mhála mór agam Ainmniú comhaltaí ex officio ag an Aire. Tais-scóp atá ann. An Príomh-Acht a leasú. Cinnte, nach maith linn ar fad é? Is gile an ghrian ná an ghealach Na boird mhóra Nuair a chonaic sé an t-ainmhí beag suarach chuir sé dranngháire as Is maith an t-anlann an t-ocras Coir dhéistineach a chuir uafás ar an tír uile Gan amhras ar bith, tá ard-mheas na tíre agus an domhain tuillte agaibh dá bharr Airgead de chuid Chúlchiste na gCairteacha Coigiltis a infheistiú. D’éirigh an bhean ar labhraíodh léi Tá áthas orm a bheith libh ar fad anseo. Airleacain chun an Bhoird as an bPríomh-Chiste chun tuathlímistéir a leictriú. Nach raibh peann aici inné Na binsí gearra Oscailt Mór an aonú Seó Bláthanna Domhanda déag ag Cumann Cóiritheoirí Bláthanna na Cruinne. Tá áthas orm fáilte a fhearadh romhaibh go dtí Áras an Uachtaráin agus go hÉirinn i dtaobh. Is mór idir grá agus crá. Teach ceann tuí é sin. Go raibh maith agaibh as ucht bhur gcuid flaithiúlachta agus bhur bhfíorchaoin fáilte. Cad a bhí ag bean Joe? Is mór an pléisiúr dom é MayFest dhá mhíle a sé déag a oscailt Mar a dúirt sé féin tá sé ar an gcapall An Bord Rialtóirí. Ach tá áthas orm aitheantas a thabhairt d’iarrachtaí atá á ndéanamh ag Glór na nGael Nach raibh tú Tá a pheann ar an gcathaoir Na boird bheaga Airgead a airleacan as an bPríomh-Chiste. Airleacain chun na Cuideachta ón Aire. An bhfuil an leabhar ar an gcathaoir Ceacht a Trí Nach bhfuil sé anseo Airleacain chun an Bhoird as an bPríomhchiste. An raibh sibh go léir ar scoil inné Ghreadadh sí ar an bhfuinneog tráth. Bhí mé féin ag caint leis Mo mhála mór An bhfeiceann tusa an leabhar dubh seo i mo láimh agam, a Shíle Tá sé faoin bhfógra mór lasmuigh. Conas atá siad go léir sa bhaile Chuir na longa chun farraige. Ar an gcapall Tá an dream sin ag dul chun na Spáinne. Níl cumas siúil agam, ar an drochuair. Is iad na muca ciúine a itheann an mhin An Iordáin An Phacastáin Ba é sin Seán. Bhíodar go léir ag caint Tá Seán sa bhaile inniu Gabhaim buíochas leo agus molaim iad Sa bhliain dhá mhíle a dó dhéag. Mar náisiún, is iomaí cúis bhróid atá againn Cré na cille. Guím gach rath oraibh don todhchaí Cuir uait é sin! An é Cormac an rí? níor bhuail mé é Ba é aidhm na físe nua ná áit na bréagshochaí coilíní a líonadh Tá an-áthas orm a bheith anseo inniu. Tá mála ag Síle Ní Laoire, agus is léi féin é Faraor, ní raibh sé ar mo chumas glacadh le cuireadh Richard anuraidh. Ansin a itear an bia is blasta. Tá leabhar eile anseo i mo láimh agam Bhuaigh sibh Craobh na hÉireann ag an bhféile Scoldramaíochta go mion minic. Léigh ceacht a cúig a Chormaic Dúnmharuithe uafásacha de chúigear clainne Tá mé féin ag dul amach, leis Is nead chluthair í. Bhí, ach níl sé ar scoil inniu agus ní bheidh sé ar scoil amárach An beár is deise. An balla ard é seo "D'fhoghlaim óige na tíre faoi thábhacht staire agus oidhreacht na tíre" cá bhfuil sé? A sheansailéir, a leas-sheansailéir, a mhic léinn, a dhaoine uaisle Sheas siad an fód agus bhain siad áit amach don Ghaeilge sa saol poiblí Is mór an gar a dhéanfadh maoiniú anois. An leabhar gorm é sin, a Bhriain Óráid ag Comhdháil Chumann Idirnáisiúnta na gCoimisinéirí Teanga An Ísiltír An mbeidh tú féin i gCill Airne Bíodh an Ghaeilge beo an dtuigeann tú An Chairt a dhaingniú i slite eile. Go ndéana Dia grásta ar a anam dílis Is cúis áthais dom go bhfuil Gradam le bronnadh anocht ar Mhuintir Shéamuis Mhic Géidigh Thug sí an dá leabhar dom. Tá áthas orm fáilte a fhearadh romhaibh chuig Áras an Uachtaráin Tuigimid go léir a thábhachtaí agus atá ról na dtuismitheoirí in oideachas a bpáistí. An Ciste Caomhnaithe Bradán. Óráid an Uachtaráin Uí Uiginn ag Féile Beo Chuir sí i gcrích é. Stádas, Díolúintí agus Pribhléidí. Shín sí a lámh mhín amach. Óráid an Uachtaráin ar ócáid do Phardún Mhaolra Seoighe Go raibh míle maith agaibh go léir agus nár laga Dia sibh Castar na daoine ar a chéile, ach ní chastar na cnoic An Liobáin Timpeall dhá chéad leabhar atá i gcnuasach de Hindeberg féin. Go raibh maith agaibh as ucht na fíorchaoin fáilte a d’fhear sibh romham. "D'iarr sí go gcuirfí leaba ar fáil." Tá mé féin go maith leis Fearaim fíorchaoin fáilte romhaibh go léir go dtí an ócáid stairiúil seo An fuarma fada Táim thar a bheith buíoch daoibh uile as ucht a bheith ag éisteacht liom is lá breá é Ciall ná réasún níl aici. Lorgaíodh aighneachtaí ar an bpobal. Níl, ach tá cárta bán ar an gcathaoir Leigheas na póite ná ól arís. Go deireadh an chiú leat! Déan duit féin é An bhfuil a fhios agatsa, a Cháit An Chéad Sceideal a ghabhann leis an bPríomh-Acht (fostaíochtaí agus fostaíochtaí eiscthe) a leasú. Bímis Gaelach, bródúil agus inár bpobal bheo Chuaigh sé i mbun pinn. Ar dheis Dé go raibh a anam dílis Is beag an chlí atá ann. An Bholaive Ná bí mar sin. Cá bhfuil an chathaoir Is í an tSionainn an abhainn is faide in Éirinn Ní hé lá na báistí lá na bpáistí Nollaig faoi shéan agus faoi mhaise daoibh go léir Is acmhainn í nach féidir a chloí Dhíol sí a raibh aici. An duine thú? An Iaráin Cuir an leabhar seo ar an mbord, a Mháire Lean an chuid eile é agus iad go bréan díobh féin beidh Seán i gCorcaigh amárach, agus beidh Nóra anseo An bhfuil peann agat Siúlann sí ón gcaisleán gach lá. An maith leat a bheith beo? Ní raibh aon duine againn anseo cheana. Is í ding di féin a scoileann an dair A Phríomh Bhreitheamh a Aíonna oirirce agus a Chairde Maith sibh go léir. A thánaiste a airí chomhaltaí na Comhairle Stáit agus a chairde a ceathair a chlog Bheadh an Rialtas réidh leis an bhfreagra. Guím gach rath agus beannacht don todhchaí ar gach scoláire atá anseo inniu. Airleacain as an bPríomh-Chiste. Guím gach rath ar bhur gcaint agus ar bhur gcomhrá inniu Cuirigí na leabhair go léir ar an mbord Bhí an naíonán ina lándúiseacht roimpi agus é ag caoineachán go truamhéalach Ar an mbord Níl aon tóin thinn mar do thóin thinn féin Ba dhúthrachtach an múinteoir í. Tá sibh le moladh. Féach an leon! Fearaim fíorchaoin fáilte romhaibh go léir chuig Áras an Uachtaráin ar an ócáid fíorstairiúil seo Is mór againn glúin na hAthbheochana An raibh sé i gCorcaigh inné Do chárta beag Guím gach rath ar obair na scoile anois agus sa todhchaí. don Chathaoirleach Máirín de Brún; don Stiúrthóir Liam Ó Maolaodha Is comhartha suntasach é sin de ról bunúsach Dhún Laoghaire san aonú haois is fiche A Chomhairleoirí, A Chairde Ní chuirfidh mé tuileadh moille oraibh. Mí na Nollag. Bosca mór, an ea Beidh sé sa bhaile Leis an saothar seo léirítear scileanna agus fís Eddie Delaney Óm a thugtar ar aonad friotaíochta leictrí. Tír, Pobal agus Teanga Níl, a dhuine uasail, tá sí ag an doras Feicim, a bhean uasal Bíonn caora dhubh ar an tréad is gile An leatsa an leabhar sin agat, a Mhichíl Fear ag glanadh cré de ghimseán láí. Molann an obair an fear "Bhí banjo ag bean Joe ach b'fhearr go deo Joe ar an mbanjo" A dhaoine uaisle agus a scoláirí Imigh go bun na cé. Tá dúshlán romhainn anois daoine a mhealladh chuig an nGaeilge Gan an t-uisce. Léim sé amach ar an bhfuinneog. Aithníonn ciaróg ciaróg eile Cá bhfuil sé Tá leabhar eile ag Mícheál Ó Foghlú, ach níl aon leabhar ag Cormac Ó Conaill Éirí as; Comhaltas a Fhionraí; Oibríochtaí a Fhionraí. Airgead a sholáthar chun tuath-límistéir a leictriú. Dúirt sí gur fearr fanacht. Tá an-áthas orm a bheith anseo inniu chun Féile Lár-Shamhraidh Phort Láirge a oscailt. "A haon déag d'fhichithe" Bhí, go deimhin Ní neart go cur le chéile Ceacht a hAon
xls-r-1b-ir/added_tokens.json ADDED
@@ -0,0 +1 @@
 
 
1
+ {"<s>": 32, "</s>": 33}
xls-r-1b-ir/alphabet.json ADDED
@@ -0,0 +1 @@
 
 
1
+ {"labels": [" ", "a", "b", "c", "d", "e", "f", "g", "h", "i", "j", "k", "l", "m", "n", "o", "p", "r", "s", "t", "u", "v", "w", "x", "y", "\u00e1", "\u00e9", "\u00ed", "\u00f3", "\u00fa", "\u2047", "", "<s>", "</s>"], "is_bpe": false}
xls-r-1b-ir/language_model/5gram.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:6577b0e5b22bc1162d19def7a160a81be45e81664e12330adcd63480963bc5e7
3
+ size 363367
xls-r-1b-ir/language_model/5gram_correct.arpa ADDED
The diff for this file is too large to render. See raw diff
 
xls-r-1b-ir/language_model/attrs.json ADDED
@@ -0,0 +1 @@
 
 
1
+ {"alpha": 0.5, "beta": 1.5, "unk_score_offset": -10.0, "score_boundary": true}
xls-r-1b-ir/language_model/unigrams.txt ADDED
@@ -0,0 +1,1430 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ""Croí
2
+ "A
3
+ "Ba
4
+ "Bhí
5
+ "D'fhoghlaim
6
+ "D'iarr
7
+ "Is
8
+ "Tréaslaím
9
+ (Dollair
10
+ (fostaíochtaí
11
+ -
12
+ </s>
13
+ <s>
14
+ A
15
+ Ach
16
+ Achomhairc
17
+ Achomhairc.
18
+ Acht
19
+ Achtanna
20
+ Ag
21
+ Agus
22
+ Ailt
23
+ Ainmniú
24
+ Aire
25
+ Aire.
26
+ Airgead
27
+ Airgeadas.
28
+ Airleacain
29
+ Airne
30
+ Aithníonn
31
+ Amasóin
32
+ An
33
+ Ansin
34
+ Anthony
35
+ Aontaithe)
36
+ Ar
37
+ Aíonna
38
+ Ba
39
+ Bainigí
40
+ Beidh
41
+ Beo
42
+ Bhairbre
43
+ Bhalla
44
+ Bheadh
45
+ Bhliain
46
+ Bhoird
47
+ Bholaive
48
+ Bhord
49
+ Bhreitheamh
50
+ Bhriain
51
+ Bhuaigh
52
+ Bhuail
53
+ Bhí
54
+ Bhí,
55
+ Bhíodar
56
+ Bhíodar,
57
+ Bliain
58
+ Bláthanna
59
+ Bord
60
+ Bosca
61
+ Bradán.
62
+ Briseann
63
+ Bríde
64
+ Brún;
65
+ Butler,
66
+ Bígí
67
+ Bímis
68
+ Bíodh
69
+ Bíonn
70
+ B’éigean
71
+ Cabhán
72
+ Cad
73
+ Caipiteal.
74
+ Caomhnaithe
75
+ Caora
76
+ Capall
77
+ Captaen
78
+ Castar
79
+ Ceacht
80
+ Ceallaigh
81
+ Ceathrú
82
+ Ceiliúrtha
83
+ Chairde
84
+ Chairt
85
+ Chartlann
86
+ Chathaoirleach
87
+ Cheann
88
+ Cheardchumannaithe
89
+ Chléire
90
+ Chomh
91
+ Chomhairleoirí,
92
+ Chomhaltaí
93
+ Chomhdháil
94
+ Chorcaí,
95
+ Chormaic
96
+ Chreid
97
+ Chuaigh
98
+ Chuir
99
+ Chumann
100
+ Cháit
101
+ Chéad
102
+ Chéim
103
+ Chúlchiste
104
+ Ciall
105
+ Ciara.
106
+ Cinnte,
107
+ Ciste
108
+ Cnocán
109
+ Coigiltis
110
+ Coimisinéir
111
+ Coir
112
+ Coláiste
113
+ Comhairle
114
+ Comhaltas
115
+ Comhdháil
116
+ Comhghairdeas
117
+ Comhgháirdeachas
118
+ Comórtas
119
+ Conaill
120
+ Conaire,
121
+ Conas
122
+ Conradh
123
+ Contae
124
+ Corcaigh
125
+ Cormac
126
+ Cosc
127
+ Craobh
128
+ Creid
129
+ Croch
130
+ Cruinne.
131
+ Cré
132
+ Cuideachta
133
+ Cuir
134
+ Cuirigí
135
+ Cumann
136
+ Cur
137
+
138
+
139
+ Cóiritheoirí
140
+ Cóisir
141
+ D
142
+ Daichead
143
+ Dara
144
+ Deiridh.
145
+ Delaney
146
+ Dhein
147
+ Dhomhnaill
148
+ Dhíol
149
+ Dhún
150
+ Dia
151
+ Dia,
152
+ Dinnéar
153
+ Do
154
+ Domhanda
155
+ Droichid
156
+ Dáimhe
157
+
158
+ Déan
159
+ Díolúintí
160
+
161
+ Dúirt
162
+ Dún
163
+ Dúnmharuithe
164
+ D’fhéach
165
+ D’éirigh
166
+ Eddie
167
+ Edward
168
+ Eibhlín
169
+ Eitice
170
+ Eoraip.
171
+ Fan
172
+ Faraoir,
173
+ Faraor,
174
+ Fear
175
+ Fearaim
176
+ Feicim,
177
+ Fhinn
178
+ Fhionlainn
179
+ Fhionraí.
180
+ Fhionraí;
181
+ Filíocht’
182
+ Foghlú,
183
+ Foirne
184
+ Forálacha
185
+ Fáinne
186
+ Féach
187
+ Féile
188
+ Fíor-Ghael
189
+ Fís
190
+ Fórsaí
191
+ Gabhaim
192
+ Gaeilge
193
+ Gael
194
+ Gaelach,
195
+ Gaelphobal
196
+ Gaelscoileanna
197
+ Gaeltachta
198
+ Gaeltachtaí
199
+ Gan
200
+ Ghaeilge
201
+ Ghairdín
202
+ Gharda,
203
+ Ghearmáin
204
+ Ghreadadh
205
+ Glór
206
+ Go
207
+ Gradam
208
+ Gráin.
209
+ Gríofa
210
+ Gura
211
+ Guím
212
+ Géidigh
213
+ Gúim
214
+ Gúna
215
+ Hindeberg
216
+ I
217
+ Iaráic
218
+ Iaráin
219
+ Idirnáisiúnta
220
+ Imigh
221
+ Impím
222
+ Ionann
223
+ Iordáin
224
+ Is
225
+ It's
226
+ Joe
227
+ Joe?
228
+ Laoghaire
229
+ Laoire,
230
+ Le
231
+ Leabhar
232
+ Lean
233
+ Leas-Sheansailéir,
234
+ Leigheas
235
+ Leis
236
+ Leonardo
237
+ Liam
238
+ Lig
239
+ Liobáin
240
+ Londain?
241
+ Lorgaíodh
242
+ Luachála
243
+ Luimníoch.
244
+
245
+ Láirge
246
+ Lár-Shamhraidh
247
+ Léigh
248
+ Léim
249
+ Mac
250
+ Maidin
251
+ Maighréad
252
+ Maireann
253
+ Maith
254
+ Maoirseoir,
255
+ Maolaodha
256
+ Mar
257
+ Marbh
258
+ MayFest
259
+ Meadhbh
260
+ Mhaolra
261
+ Mheitheamh
262
+ Mhic
263
+ Mhichíl
264
+ Mhichíl,
265
+ Mhuintir
266
+ Mháire
267
+ Mhí
268
+ Micheál
269
+ Mo
270
+ Molann
271
+ Muna
272
+ Murach
273
+ Murchú,
274
+ Máire."
275
+ Máirín
276
+ Méid
277
+
278
+ Mícheál
279
+ Míle
280
+ Mór
281
+ Na
282
+ Nach
283
+ Naomh
284
+ Nollag.
285
+ Nollag?
286
+ Nollaig
287
+ Nuair
288
+ Nuálaí
289
+
290
+ Náisiúnaithe,
291
+ Náisiúnta
292
+
293
+ Níl
294
+ Níl,
295
+ Níor
296
+ Nóra
297
+ O'Rourke
298
+ Oibríochtaí
299
+ Oileán
300
+ Oireachtais,
301
+ Oireachtas
302
+ Oireachtas,
303
+ Oirirce,
304
+ Oirirceasa
305
+ Oscail
306
+ Oscailt
307
+ Ostair
308
+ Paradacsúil,
309
+ Parlaiminteach
310
+ Phacastáin
311
+ Phardún
312
+ Phort
313
+ Phríomh
314
+ Piaras
315
+ Pobal
316
+ Pribhléidí.
317
+ Príomh-Acht
318
+
319
+ Pádraic
320
+ Pól
321
+ Pós
322
+ Rialtas
323
+ Rialtóirí.
324
+ Richard
325
+ Rinne
326
+ Risteard
327
+ Roimh
328
+ Sa
329
+ Saidhbhín
330
+ Sceideal
331
+ Sclábhaithe
332
+ Scoldramaíochta
333
+ Seacht
334
+ Seachtain
335
+ Seansailéir,
336
+ Seoighe
337
+ Seán
338
+ Seán.
339
+ Seó
340
+ Shaorstát
341
+ Sheachtain
342
+ Sheas
343
+ Shéamuis
344
+ Shíle
345
+ Shín
346
+ Siobhán
347
+ Siúlann
348
+ Spáinne.
349
+ Stiúrthóir
350
+ Stiúrthóirí.
351
+ Stádas,
352
+ Stáit
353
+ Stát
354
+ Sárúdar
355
+ Séamus
356
+
357
+ Síle
358
+ Tais-scóp
359
+ Tara
360
+ Teach
361
+ Teanga
362
+ Teanga:
363
+ Thiarna
364
+ Thit
365
+ Thomáis,
366
+ Thuama,
367
+ Thug
368
+ Thánaiste
369
+ Thánaiste,
370
+ Timpeall
371
+ Tionól
372
+ Tithe
373
+ Tomás
374
+ Treabhdóireachta
375
+ Treabhdóireachta!
376
+ Treaslaím
377
+ Trí
378
+ Tugaim
379
+ Tugann
380
+ Tuigim
381
+ Tuigimid
382
+
383
+ Tá,
384
+ Táim
385
+ Tír,
386
+ Tóg
387
+ Uachtaráin
388
+ Uachtaráin,
389
+ Uachtarán
390
+ Uiginn
391
+ Urscaoilte
392
+
393
+ Viscardi
394
+ Vársá
395
+ Wheel
396
+ a
397
+ ab
398
+ abhaile
399
+ abhainn
400
+ abhainn.
401
+ acadúil,
402
+ ach
403
+ acmhainn
404
+ ag
405
+ agaibh
406
+ agaibh.
407
+ againn
408
+ agam
409
+ agam,
410
+ agamsa
411
+ agamsa,
412
+ agat
413
+ agat,
414
+ agatsa
415
+ agatsa,
416
+ agus
417
+ aici
418
+ aici.
419
+ aidhm
420
+ aige
421
+ aige.
422
+ aighneachtaí
423
+ air
424
+ airde
425
+ airleacan
426
+ airneáin
427
+ airí
428
+ ais
429
+ aitheantas
430
+ am
431
+ ama
432
+ amach
433
+ amach,
434
+ amach.
435
+ amhras
436
+ amháin
437
+ amuigh
438
+ amárach
439
+ amárach,
440
+ an
441
+ an-mhaith
442
+ an-áthas
443
+ anam
444
+ ann
445
+ ann,
446
+ ann.
447
+ anocht
448
+ anois
449
+ anois.
450
+ anseo
451
+ anseo.
452
+ anuraidh.
453
+ aon
454
+ aonad
455
+ aonú
456
+ ar
457
+ ar,
458
+ ard
459
+ ard-mheas
460
+ arís
461
+ arís.
462
+ as
463
+ as;
464
+ atá
465
+ atáim
466
+ b'airde
467
+ b'fhearr
468
+ bPríomh-Acht
469
+ bPríomh-Chiste
470
+ bPríomh-Chiste.
471
+ bPríomhchiste.
472
+ ba
473
+ bailithe
474
+ bailí
475
+ bainigí
476
+ bainne
477
+ ball
478
+ balla
479
+ ban
480
+ banjo
481
+ beag
482
+ beaga
483
+ bean
484
+ beannacht
485
+ beidh
486
+ beimid
487
+ beo
488
+ beo?
489
+ beár
490
+ bhaile
491
+ bhain
492
+ bhaint
493
+ bharr
494
+ bheadh
495
+ bheag
496
+ bheaga
497
+ bhealach.
498
+ bhean
499
+ bheidh
500
+ bheith
501
+ bheo
502
+ bheoga
503
+ bhfad
504
+ bhfeiceann
505
+ bhfeidhm
506
+ bhfeidhm.
507
+ bhfilíocht
508
+ bhflaithiúlacht
509
+ bhfoighne
510
+ bhfreagra.
511
+ bhfrog
512
+ bhfuil
513
+ bhfuinneog
514
+ bhfuinneog.
515
+ bhfáilte
516
+ bhféidireachtaí
517
+ bhféile
518
+ bhféin-mheas
519
+ bhfíorchaoin
520
+ bhfógra
521
+ bhinn
522
+ bhliain
523
+ bhreá
524
+ bhricfeasta
525
+ bhris
526
+ bhróg
527
+ bhróid
528
+ bhuail
529
+ bhuaileann
530
+ bhuel,
531
+ bhunú
532
+ bhur
533
+ bhuíochas
534
+ bhí
535
+ bhíomar
536
+ bhíonn
537
+ bhítear
538
+ bhúr
539
+ bia
540
+ binn
541
+ binsí
542
+ bith,
543
+ blasta.
544
+ bliana
545
+ bliana.
546
+ boird
547
+ bord
548
+ bosca
549
+ bpobal
550
+ bpobal.
551
+ bpáistí
552
+ bpáistí.
553
+ breá
554
+ breá,
555
+ bronnadh
556
+ bréagshochaí
557
+ bréan
558
+ bréidín
559
+ bródúil
560
+ buachaillí
561
+ buan
562
+ bun
563
+ bunú
564
+ bunúsach
565
+ buí
566
+ buíoch
567
+ buíochas
568
+
569
+ báistí
570
+ bán
571
+ bás
572
+ béil
573
+
574
+ bíg��
575
+ bíonn
576
+
577
+ cailíní
578
+ caint
579
+ caipitiúil
580
+ caoineachán
581
+ caora
582
+ capall
583
+ cara
584
+ cat
585
+ cathaoir
586
+ ceacht
587
+ ceadaíodh
588
+ ceann
589
+ ceann,
590
+ ceannaithe
591
+ ceart
592
+ ceathair
593
+ ceathrú
594
+ chabhrú
595
+ chailc
596
+ chailliúint
597
+ chaint
598
+ chairde
599
+ chairde,
600
+ chait
601
+ chaith
602
+ chaoineachán
603
+ chastar
604
+ chathaoir
605
+ cheadúnas.
606
+ cheana.
607
+ cheannsa
608
+ cheapadh.
609
+ chearnach
610
+ cheiliúrtha
611
+ cheoil
612
+ chiall
613
+ chiú
614
+ chlog
615
+ chlog,
616
+ chloí
617
+ chluas
618
+ chluthair
619
+ chlí
620
+ chodladh
621
+ chomaoin
622
+ chomh
623
+ chomhaltaí
624
+ chomhdháil
625
+ chomórtha
626
+ chonaic
627
+ chrann.
628
+ chuairt
629
+ chuid
630
+ chuig
631
+ chuige
632
+ chuir
633
+ chuirfidh
634
+ chuma
635
+ chumarsáide
636
+ chumas
637
+ chun
638
+ chur
639
+ chárta
640
+ chéad
641
+ chéile
642
+ chéile,
643
+ chéile.
644
+ chúigear
645
+ chúin
646
+ chúirt
647
+ chúrsaí
648
+ ciall
649
+ ciaróg
650
+ cille.
651
+ cineál
652
+ ciúin
653
+ ciúine
654
+ clainne
655
+ cleas
656
+ cnoc
657
+ cnoic
658
+ coileach
659
+ coilíní
660
+ coimisiúnú
661
+ comhaltaí
662
+ comhartha
663
+ comharthaí
664
+ comhchoiste
665
+ comhghairdeas
666
+ comhluadar
667
+ conas
668
+ cor
669
+ corc
670
+ cothéacs
671
+ crann
672
+ croí
673
+ crá.
674
+ cré
675
+ cuairt
676
+ cuimse
677
+ cuir
678
+ cuireadh
679
+ cumas
680
+ cur
681
+ curtha
682
+
683
+ cárta
684
+ cé.
685
+ céanna
686
+ céiliúradh
687
+ córa,
688
+ cúig
689
+ cúigear
690
+ cúis
691
+ cúpla
692
+ d'fhichithe"
693
+ d'Éire
694
+ d'ár
695
+ dTionscnamh
696
+ dair
697
+ daoibh
698
+ daoine
699
+ dara
700
+ dath
701
+ de
702
+ deaid,
703
+ dearfach
704
+ dearfacha
705
+ dearg
706
+ deartháir
707
+ deas
708
+ deich
709
+ deichiú
710
+ deimhin
711
+ deireadh
712
+ deis
713
+ deise.
714
+ den
715
+ deo
716
+ dhaingniú
717
+ dhaoine
718
+ dhath
719
+ dheireadh
720
+ dheis
721
+ dheonach
722
+ dhubh
723
+ dhuine
724
+ dhul
725
+ dhá
726
+ dhéag.
727
+ dhéanamh
728
+ dhéanfadh
729
+ dhéistineach
730
+ dhóigh
731
+ dhúthrachtach
732
+ di
733
+ di.
734
+ dibh
735
+ difríocht
736
+ ding
737
+ dlí
738
+ dlíthúla
739
+ dlúthdhiosca
740
+ do
741
+ dom
742
+ dom.
743
+ domhain
744
+ domhan
745
+ domhan?
746
+ domsa
747
+ don
748
+ doras
749
+ doras,
750
+ dranngháire
751
+ dream
752
+ drochuair.
753
+ dtaobh.
754
+ dteanga.
755
+ dtuigeann
756
+ dtuigim
757
+ dtuismitheoirí
758
+ dté
759
+ dtí
760
+ duais
761
+ dubh
762
+ duilleog
763
+ duine
764
+ duit
765
+ dul
766
+
767
+ dáta
768
+ déag
769
+ déan
770
+ déanaim
771
+ déanamh
772
+ déistineach
773
+ dílis
774
+ díobh
775
+
776
+ dó.
777
+ dóigh
778
+ dúchas
779
+ dúirt
780
+ dúshlán
781
+ d’fhear
782
+ d’iarrachtaí
783
+ d’inniu
784
+ ea
785
+ eagla
786
+ earnáil
787
+ earnáíl
788
+ eile
789
+ eile.
790
+ eiscthe)
791
+ eisithe
792
+ eolach
793
+ eolais
794
+ eolas
795
+ euro
796
+ ex
797
+ fad
798
+ fada
799
+ fada.
800
+ faic
801
+ faide
802
+ fanacht.
803
+ faoi
804
+ faoi.
805
+ faoin
806
+ farraige.
807
+ feachtais
808
+ feadh
809
+ fear
810
+ fearr
811
+ feiminigh
812
+ feirmeacha
813
+ fhear
814
+ fhearadh
815
+ fhearradh
816
+ fheiceáil
817
+ fhios
818
+ fhocal
819
+ fhoghlaim
820
+ fhoirne
821
+ fhuinneog
822
+ fháil
823
+ fhógairt
824
+ fiacail
825
+ fiche
826
+ file
827
+ fir
828
+ flaithiúlachta
829
+ focail
830
+ focal
831
+ forbairt
832
+ forchaoin
833
+ fostaíochtaí
834
+ freastail
835
+ fresin
836
+ friotaíochta
837
+ fréamh
838
+ fuair
839
+ fuarma
840
+ fuarmaí
841
+ fud
842
+ fuinniúil
843
+ fáil."
844
+ fáilte
845
+ fáilte.
846
+ fáinne
847
+ féidir
848
+ féin
849
+ féin.
850
+
851
+ fíor-speisialta
852
+ fíorchaoin
853
+ fíorstairiúil
854
+ fís
855
+ físe
856
+ fód
857
+ fóill.
858
+ fómhair
859
+ fós
860
+ fúinn
861
+ gCairteacha
862
+ gCill
863
+ gCnocán
864
+ gCoimisinéirí
865
+ gColáiste
866
+ gCorcaigh
867
+ gCúirt.
868
+ gach
869
+ gan
870
+ gar
871
+ gcaint
872
+ gcaisleán
873
+ gcapall
874
+ gcasóg
875
+ gcathaoir
876
+ gceiliúradh
877
+ gceol.
878
+ gcluais
879
+ gcnuasach
880
+ gcoinne
881
+ gcoitinne"
882
+ gcomhairle
883
+ gcomhdháil
884
+ gcomhluadar
885
+ gcomhrá
886
+ gcrích
887
+ gcró
888
+ gcuid
889
+ gcuireadh
890
+ gcuirfí
891
+ gcumhacht
892
+ gcéad
893
+ gcéird
894
+ gcónaí
895
+ gcúrsaí
896
+ gearra
897
+ geilleagar
898
+ ghabhann
899
+ ghabháil
900
+ ghach
901
+ ghaelscoileanna
902
+ gheal
903
+ ghealach
904
+ ghealach,
905
+ ghearán.
906
+ ghimseán
907
+ ghlac
908
+ ghlacadh
909
+ ghlas
910
+ ghort
911
+ ghrian
912
+ gile
913
+ giotaí
914
+ glacadh
915
+ glanadh
916
+ gloine
917
+ glúin
918
+ glúine
919
+ go
920
+ gorm
921
+ grá
922
+ grásta
923
+ gur
924
+ h-aon
925
+ h-iarratas
926
+ hAon
927
+ hAthbheochana
928
+ hIonadaithe
929
+ hOllscoile
930
+ hUigínn
931
+ habair
932
+ haghaidh,
933
+ haibhneacha
934
+ hainmhithe.
935
+ halla.
936
+ hamháin.
937
+ haois
938
+ haon
939
+ hata
940
+ hea,
941
+ hiar-bhunscoileanna
942
+ hintinní
943
+ hiomlán
944
+ hocht
945
+ hoibre
946
+ hoifigiúil.
947
+ hoscail
948
+ hÁras
949
+ hÉirean
950
+ hÉireann
951
+ hÉireann.
952
+ hÉirinn
953
+ háirithe
954
+
955
+ i
956
+ iad
957
+ iarracht
958
+ idir
959
+ idirnáisiúnaithe
960
+ idirnáisiúnaíthe
961
+ ilchríoch
962
+ imithe
963
+ in
964
+ ina
965
+ infheistiú.
966
+ inniu
967
+ inniu.
968
+ inniú
969
+ inné
970
+ inár
971
+ iomaí
972
+ ionam
973
+ iontach
974
+ is
975
+ isteach
976
+ istigh,
977
+ itear
978
+ itheann
979
+ labhair
980
+ labhraíodh
981
+ labhraíonn
982
+ laga
983
+ laghad
984
+ lasmuigh.
985
+ le
986
+ leaba
987
+ leabhair
988
+ leabhar
989
+ leabhar.
990
+ leabharlann
991
+ leag
992
+ leanbh
993
+ leanúint
994
+ leas-sheansailéir,
995
+ leasú
996
+ leasú.
997
+ leat
998
+ leat!
999
+ leatsa
1000
+ leatsa,
1001
+ leibhéal
1002
+ leictriú.
1003
+ leictrí.
1004
+ leis
1005
+ lenár
1006
+ leo
1007
+ leon!
1008
+ leor
1009
+ libh
1010
+ ligean
1011
+ ligin
1012
+ linn
1013
+ linne
1014
+ liom
1015
+ liom.
1016
+ liomsa
1017
+ litreach.
1018
+ longa
1019
+ luath
1020
+ luí?
1021
+
1022
+ lá,
1023
+ lá.
1024
+ lácha
1025
+ láidir
1026
+ láimh
1027
+ lámh
1028
+ lándúiseacht
1029
+ láí.
1030
+ léi
1031
+ léig
1032
+ léinn
1033
+ léinn,
1034
+ léir
1035
+ léir,
1036
+ léir.
1037
+ léirmheastóir
1038
+ léirítear
1039
+ líonadh
1040
+
1041
+ mac
1042
+ maidin
1043
+ maidí
1044
+ maith
1045
+ maith,
1046
+ maith.
1047
+ mana
1048
+ maoiniú
1049
+ mar
1050
+ marbh
1051
+ mballa
1052
+ mbanjo"
1053
+ mbeidh
1054
+ mbinse
1055
+ mbliana,
1056
+ mblianachtaí
1057
+ mbláth"
1058
+ mbord
1059
+ mbord,
1060
+ mbuidéal.
1061
+ mbun
1062
+ mbás?
1063
+ mbóthar
1064
+ measc
1065
+ meáin
1066
+ mhaca
1067
+ mhaireann
1068
+ mhaise
1069
+ mhaisiú
1070
+ mhaith
1071
+ mhaoin
1072
+ mhealladh
1073
+ mhic
1074
+ mhin
1075
+ mhoill.
1076
+ mhála
1077
+ mhéad
1078
+ mhí
1079
+ mhíle
1080
+ mhín
1081
+ mhóir
1082
+ mhór
1083
+ mhóra
1084
+ mian
1085
+ minic
1086
+ minic.
1087
+ mion
1088
+ mná
1089
+ mná.
1090
+ mo
1091
+ moille
1092
+ moladh.
1093
+ molaim
1094
+ muca
1095
+ muid
1096
+ mála
1097
+ málaí
1098
+ más
1099
+
1100
+ mé,
1101
+ mé.
1102
+ méid
1103
+ méireanna
1104
+
1105
+ mí-thuiscint
1106
+ míle
1107
+
1108
+ mór
1109
+ mór,
1110
+ móra
1111
+ mórán
1112
+ múinteoir
1113
+ n-airde.
1114
+ n-anamacha
1115
+ n-oireann
1116
+ n-éachtaí
1117
+ nGaeilge
1118
+ nGael
1119
+ na
1120
+ nach
1121
+ naoi
1122
+ naoi?
1123
+ naíonán
1124
+ ndearna
1125
+ ndiaidh
1126
+ ndéana
1127
+ ndéanamh
1128
+ ndóigh!
1129
+ ndóigh.
1130
+ nead
1131
+ neart
1132
+ ngarsún
1133
+ ngáirdín
1134
+ nocht
1135
+ nod
1136
+ nua
1137
+ nua-fhíse
1138
+ nuálaí
1139
+
1140
+ nádúr
1141
+ náisiún"
1142
+ náisiún,
1143
+ nár
1144
+
1145
+ níl
1146
+ níor
1147
+ níos
1148
+
1149
+ obair
1150
+ officio
1151
+ oideachas
1152
+ oideachasúil
1153
+ oidhreacht
1154
+ oifigigh
1155
+ oiread
1156
+ oirirce
1157
+ onóir
1158
+ oraibh
1159
+ oraibh.
1160
+ orainn,
1161
+ orainn.
1162
+ orduithe
1163
+ orm
1164
+ ort
1165
+ orthu
1166
+ oscailt
1167
+ oscailt.
1168
+ oíche
1169
+ peann
1170
+ pheann
1171
+ phictiúir
1172
+ phobail
1173
+ pholaitíochta
1174
+ phríobháideach,
1175
+ phríomh-chomhpháirtithe
1176
+ phíosa
1177
+ phóca
1178
+ pinn.
1179
+ pléisiúir
1180
+ pléisiúr
1181
+ pobail
1182
+ poblachtaigh,
1183
+ poiblí
1184
+ pop-up
1185
+ punt
1186
+ páirt
1187
+ póca
1188
+ póite
1189
+ pósfaidh
1190
+ rabhas
1191
+ raibh
1192
+ rang
1193
+ rath
1194
+ rath,
1195
+ riamh
1196
+ rinneadh
1197
+ roghnú.
1198
+ roimh
1199
+ roimpi
1200
+ romhaibh
1201
+ romhainn
1202
+ romham
1203
+ romham.
1204
+ rud
1205
+ rudaí
1206
+
1207
+
1208
+ réamh-oibre
1209
+ réamhscolaíochta
1210
+ réasún
1211
+ réidh
1212
+ rí?
1213
+ ról
1214
+ sa
1215
+ sagart
1216
+ samhradh.
1217
+ san
1218
+ saol
1219
+ saothar
1220
+ scileanna
1221
+ scoil
1222
+ scoile
1223
+ scoileann
1224
+ scoir,
1225
+ scoláire
1226
+ scoláirí
1227
+ scríobh
1228
+ scála
1229
+ scáth
1230
+ scéal
1231
+ scéalaithe
1232
+ seachtaine
1233
+ seachtú
1234
+ seinnt
1235
+ seo
1236
+ seo.
1237
+ shaothar
1238
+ sheansailéir,
1239
+ sheasamh
1240
+ sheoladh
1241
+ shoilsí
1242
+ sholáthar
1243
+ shonrófar
1244
+ short.
1245
+ shuaimhneas
1246
+ shéan
1247
+ shíltear
1248
+ shúile
1249
+ siad
1250
+ siar
1251
+ sibh
1252
+ sin
1253
+ sin!
1254
+ sin,
1255
+ sin.
1256
+ siombal
1257
+ siúil
1258
+ sliabh
1259
+ sliotar.
1260
+ slite
1261
+ sláintiúil
1262
+ slán
1263
+ sníomh
1264
+ sochaí
1265
+ sonas
1266
+ sort
1267
+ sparán
1268
+ sruth
1269
+ sráide.
1270
+ stad
1271
+ staire
1272
+ stairiúil
1273
+ struchtúrach
1274
+ státchóras
1275
+ stór!
1276
+ suaimhneas
1277
+ suarach
1278
+ suas
1279
+ sult
1280
+ suntasach
1281
+ sár-obair
1282
+ sásta
1283
+
1284
+ sé?
1285
+ séú
1286
+
1287
+ síos
1288
+ sóisialaithe,
1289
+ t-ainmhí
1290
+ t-airgead
1291
+ t-anlann
1292
+ t-aonú
1293
+ t-ochtó
1294
+ t-ochtú
1295
+ t-ocras
1296
+ t-uisce.
1297
+ t-ól
1298
+ tIonad
1299
+ tSaoí,
1300
+ tSionainn
1301
+ tae
1302
+ taithneamh
1303
+ taobh
1304
+ tar
1305
+ tarraingteach
1306
+ teacht
1307
+ teanga
1308
+ teastáil
1309
+ teibí,
1310
+ thabhairt
1311
+ thagann
1312
+ thalamh.
1313
+ thaobh.
1314
+ thar
1315
+ theaghlaigh
1316
+ thimpeall
1317
+ thinn
1318
+ thobac.
1319
+ thoil
1320
+ thug
1321
+ thugtar
1322
+ thuigim
1323
+ thábhacht
1324
+ thábhachtach.
1325
+ thábhachtaí
1326
+ thánaiste
1327
+ thóin
1328
+ thú?
1329
+ tigh
1330
+ timpeallacht
1331
+ tine
1332
+ todhchaí
1333
+ todhchaí.
1334
+ truamhéalach
1335
+ tráth
1336
+ tráth.
1337
+ tráthnóna
1338
+ tráthnóna.
1339
+ tréad
1340
+ trí
1341
+ trína
1342
+ tríú
1343
+ trócaire
1344
+ tsaoil
1345
+ tseamróg
1346
+ tseilg
1347
+ tsnúth
1348
+ tsoitheach
1349
+ tuaithe
1350
+ tuath-límistéir
1351
+ tuathlímistéir
1352
+ tuileadh
1353
+ tuilleadh
1354
+ tuilleadh.
1355
+ tuillte
1356
+ turse
1357
+ tusa
1358
+ tuí
1359
+
1360
+ tábhachtach
1361
+ tábhachtach.
1362
+ táimid
1363
+
1364
+
1365
+ tír
1366
+ tíre
1367
+ tíre"
1368
+ tógáil
1369
+ tóin
1370
+
1371
+ tús
1372
+ uafás
1373
+ uafásacha
1374
+ uaibh
1375
+ uaim
1376
+ uair
1377
+ uaisle
1378
+ uaisle,
1379
+ uait
1380
+ uasail
1381
+ uasail,
1382
+ uasal
1383
+ uasal,
1384
+ ucht
1385
+ uile
1386
+ uirlis
1387
+ urlár
1388
+ urlár,
1389
+ you""."
1390
+ Ábhar
1391
+ Áras
1392
+ Éin
1393
+ Éireann
1394
+ Éirinn
1395
+ Éirí
1396
+ Ísiltír
1397
+ Ó
1398
+ Óglacha
1399
+ Ólann
1400
+ Óm
1401
+ Óráid
1402
+ Úna
1403
+ á
1404
+ ábhartha
1405
+ áirithe
1406
+ áirithe.
1407
+ áit
1408
+ ár
1409
+ áthais
1410
+ áthas
1411
+ é
1412
+ é,
1413
+ é.
1414
+ é?
1415
+ éadrom
1416
+ éis
1417
+ éisteacht
1418
+ í
1419
+ í.
1420
+ íde
1421
+ íontas
1422
+ ó
1423
+ ócáid
1424
+ ócáid.
1425
+ óige
1426
+ ól
1427
+ ólta
1428
+ ón
1429
+ ónar
1430
+ ‘Ollamh
xls-r-1b-ir/preprocessor_config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "do_normalize": true,
3
+ "feature_extractor_type": "Wav2Vec2FeatureExtractor",
4
+ "feature_size": 1,
5
+ "padding_side": "right",
6
+ "padding_value": 0,
7
+ "processor_class": "Wav2Vec2ProcessorWithLM",
8
+ "return_attention_mask": true,
9
+ "sampling_rate": 16000
10
+ }
xls-r-1b-ir/special_tokens_map.json ADDED
@@ -0,0 +1 @@
 
 
1
+ {"bos_token": "<s>", "eos_token": "</s>", "unk_token": "[UNK]", "pad_token": "[PAD]", "additional_special_tokens": [{"content": "<s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, {"content": "</s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, {"content": "<s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, {"content": "</s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, {"content": "<s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, {"content": "</s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}]}
xls-r-1b-ir/tokenizer_config.json ADDED
@@ -0,0 +1 @@
 
 
1
+ {"unk_token": "[UNK]", "bos_token": "<s>", "eos_token": "</s>", "pad_token": "[PAD]", "do_lower_case": false, "word_delimiter_token": "|", "special_tokens_map_file": null, "tokenizer_file": null, "name_or_path": "./", "tokenizer_class": "Wav2Vec2CTCTokenizer", "processor_class": "Wav2Vec2ProcessorWithLM"}
xls-r-1b-ir/vocab.json ADDED
@@ -0,0 +1 @@
 
 
1
+ {"a": 1, "b": 2, "c": 3, "d": 4, "e": 5, "f": 6, "g": 7, "h": 8, "i": 9, "j": 10, "k": 11, "l": 12, "m": 13, "n": 14, "o": 15, "p": 16, "r": 17, "s": 18, "t": 19, "u": 20, "v": 21, "w": 22, "x": 23, "y": 24, "á": 25, "é": 26, "í": 27, "ó": 28, "ú": 29, "|": 0, "[UNK]": 30, "[PAD]": 31}