File size: 2,180 Bytes
c8a32e7
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
LANGUAGE_TO_TESSERACT_CODE = {
    'Afrikaans': 'afr',
    'Amharic': 'amh',
    'Arabic': 'ara',
    'Assamese': 'asm',
    'Azerbaijani': 'aze',
    'Belarusian': 'bel',
    'Bulgarian': 'bul',
    'Bengali': 'ben',
    'Breton': 'bre',
    'Bosnian': 'bos',
    'Catalan': 'cat',
    'Czech': 'ces',
    'Welsh': 'cym',
    'Danish': 'dan',
    'German': 'deu',
    'Greek': 'ell',
    'English': 'eng',
    'Esperanto': 'epo',
    'Spanish': 'spa',
    'Estonian': 'est',
    'Basque': 'eus',
    'Persian': 'fas',
    'Finnish': 'fin',
    'French': 'fra',
    'Western Frisian': 'fry',
    'Irish': 'gle',
    'Scottish Gaelic': 'gla',
    'Galician': 'glg',
    'Gujarati': 'guj',
    'Hausa': 'hau',
    'Hebrew': 'heb',
    'Hindi': 'hin',
    'Croatian': 'hrv',
    'Hungarian': 'hun',
    'Armenian': 'hye',
    'Indonesian': 'ind',
    'Icelandic': 'isl',
    'Italian': 'ita',
    'Japanese': 'jpn',
    'Javanese': 'jav',
    'Georgian': 'kat',
    'Kazakh': 'kaz',
    'Khmer': 'khm',
    'Kannada': 'kan',
    'Korean': 'kor',
    'Kurdish': 'kur',
    'Kyrgyz': 'kir',
    'Latin': 'lat',
    'Lao': 'lao',
    'Lithuanian': 'lit',
    'Latvian': 'lav',
    'Malagasy': 'mlg',
    'Macedonian': 'mkd',
    'Malayalam': 'mal',
    'Mongolian': 'mon',
    'Marathi': 'mar',
    'Malay': 'msa',
    'Burmese': 'mya',
    'Nepali': 'nep',
    'Dutch': 'nld',
    'Norwegian': 'nor',
    'Oromo': 'orm',
    'Oriya': 'ori',
    'Punjabi': 'pan',
    'Polish': 'pol',
    'Pashto': 'pus',
    'Portuguese': 'por',
    'Romanian': 'ron',
    'Russian': 'rus',
    'Sanskrit': 'san',
    'Sindhi': 'snd',
    'Sinhala': 'sin',
    'Slovak': 'slk',
    'Slovenian': 'slv',
    'Somali': 'som',
    'Albanian': 'sqi',
    'Serbian': 'srp',
    'Sundanese': 'sun',
    'Swedish': 'swe',
    'Swahili': 'swa',
    'Tamil': 'tam',
    'Telugu': 'tel',
    'Thai': 'tha',
    'Tagalog': 'tgl',
    'Turkish': 'tur',
    'Uyghur': 'uig',
    'Ukrainian': 'ukr',
    'Urdu': 'urd',
    'Uzbek': 'uzb',
    'Vietnamese': 'vie',
    'Xhosa': 'xho',
    'Yiddish': 'yid',
    'Chinese': 'chi_sim',
}

TESSERACT_CODE_TO_LANGUAGE = {v:k for k,v in LANGUAGE_TO_TESSERACT_CODE.items()}