ylacombe HF staff commited on
Commit
8a42960
1 Parent(s): 8578336

Upload processor

Browse files
added_tokens.json CHANGED
@@ -1,8 +1,5 @@
1
  {
2
  "</s>": 3,
3
- "<MINED_DATA>": 256203,
4
- "<MMT_BT_DATA>": 256204,
5
- "<SMT_BT_DATA>": 256205,
6
  "<pad>": 0,
7
  "<s>": 2,
8
  "<unk>": 1,
 
1
  {
2
  "</s>": 3,
 
 
 
3
  "<pad>": 0,
4
  "<s>": 2,
5
  "<unk>": 1,
preprocessor_config.json CHANGED
@@ -2,208 +2,208 @@
2
  "feature_extractor_type": "SeamlessM4TFeatureExtractor",
3
  "feature_size": 80,
4
  "language_code": [
5
- "ace",
6
- "ace_Latn",
7
- "acm",
8
- "acq",
9
- "aeb",
10
- "afr",
11
- "ajp",
12
- "aka",
13
- "amh",
14
- "apc",
15
- "arb",
16
- "ars",
17
- "ary",
18
- "arz",
19
- "asm",
20
- "ast",
21
- "awa",
22
- "ayr",
23
- "azb",
24
- "azj",
25
- "bak",
26
- "bam",
27
- "ban",
28
- "bel",
29
- "bem",
30
- "ben",
31
- "bho",
32
- "bjn",
33
- "bjn_Latn",
34
- "bod",
35
- "bos",
36
- "bug",
37
- "bul",
38
- "cat",
39
- "ceb",
40
- "ces",
41
- "cjk",
42
- "ckb",
43
- "crh",
44
- "cym",
45
- "dan",
46
- "deu",
47
- "dik",
48
- "dyu",
49
- "dzo",
50
- "ell",
51
- "eng",
52
- "epo",
53
- "est",
54
- "eus",
55
- "ewe",
56
- "fao",
57
- "pes",
58
- "fij",
59
- "fin",
60
- "fon",
61
- "fra",
62
- "fur",
63
- "fuv",
64
- "gla",
65
- "gle",
66
- "glg",
67
- "grn",
68
- "guj",
69
- "hat",
70
- "hau",
71
- "heb",
72
- "hin",
73
- "hne",
74
- "hrv",
75
- "hun",
76
- "hye",
77
- "ibo",
78
- "ilo",
79
- "ind",
80
- "isl",
81
- "ita",
82
- "jav",
83
- "jpn",
84
- "kab",
85
- "kac",
86
- "kam",
87
- "kan",
88
- "kas",
89
- "kas_Deva",
90
- "kat",
91
- "knc",
92
- "knc_Latn",
93
- "kaz",
94
- "kbp",
95
- "kea",
96
- "khm",
97
- "kik",
98
- "kin",
99
- "kir",
100
- "kmb",
101
- "kon",
102
- "kor",
103
- "kmr",
104
- "lao",
105
- "lvs",
106
- "lij",
107
- "lim",
108
- "lin",
109
- "lit",
110
- "lmo",
111
- "ltg",
112
- "ltz",
113
- "lua",
114
- "lug",
115
- "luo",
116
- "lus",
117
- "mag",
118
- "mai",
119
- "mal",
120
- "mar",
121
- "min",
122
- "mkd",
123
- "plt",
124
- "mlt",
125
- "mni",
126
- "khk",
127
- "mos",
128
- "mri",
129
- "zsm",
130
- "mya",
131
- "nld",
132
- "nno",
133
- "nob",
134
- "npi",
135
- "nso",
136
- "nus",
137
- "nya",
138
- "oci",
139
- "gaz",
140
- "ory",
141
- "pag",
142
- "pan",
143
- "pap",
144
- "pol",
145
- "por",
146
- "prs",
147
- "pbt",
148
- "quy",
149
- "ron",
150
- "run",
151
- "rus",
152
- "sag",
153
- "san",
154
- "sat",
155
- "scn",
156
- "shn",
157
- "sin",
158
- "slk",
159
- "slv",
160
- "smo",
161
- "sna",
162
- "snd",
163
- "som",
164
- "sot",
165
- "spa",
166
- "als",
167
- "srd",
168
- "srp",
169
- "ssw",
170
- "sun",
171
- "swe",
172
- "swh",
173
- "szl",
174
- "tam",
175
- "tat",
176
- "tel",
177
- "tgk",
178
- "tgl",
179
- "tha",
180
- "tir",
181
- "taq",
182
- "taq_Tfng",
183
- "tpi",
184
- "tsn",
185
- "tso",
186
- "tuk",
187
- "tum",
188
- "tur",
189
- "twi",
190
- "tzm",
191
- "uig",
192
- "ukr",
193
- "umb",
194
- "urd",
195
- "uzn",
196
- "vec",
197
- "vie",
198
- "war",
199
- "wol",
200
- "xho",
201
- "ydd",
202
- "yor",
203
- "yue",
204
- "cmn",
205
- "cmn_Hant",
206
- "zul"
207
  ],
208
  "num_mel_bins": 80,
209
  "padding_side": "right",
 
2
  "feature_extractor_type": "SeamlessM4TFeatureExtractor",
3
  "feature_size": 80,
4
  "language_code": [
5
+ "__ace__",
6
+ "__ace_Latn__",
7
+ "__acm__",
8
+ "__acq__",
9
+ "__aeb__",
10
+ "__afr__",
11
+ "__ajp__",
12
+ "__aka__",
13
+ "__amh__",
14
+ "__apc__",
15
+ "__arb__",
16
+ "__ars__",
17
+ "__ary__",
18
+ "__arz__",
19
+ "__asm__",
20
+ "__ast__",
21
+ "__awa__",
22
+ "__ayr__",
23
+ "__azb__",
24
+ "__azj__",
25
+ "__bak__",
26
+ "__bam__",
27
+ "__ban__",
28
+ "__bel__",
29
+ "__bem__",
30
+ "__ben__",
31
+ "__bho__",
32
+ "__bjn__",
33
+ "__bjn_Latn__",
34
+ "__bod__",
35
+ "__bos__",
36
+ "__bug__",
37
+ "__bul__",
38
+ "__cat__",
39
+ "__ceb__",
40
+ "__ces__",
41
+ "__cjk__",
42
+ "__ckb__",
43
+ "__crh__",
44
+ "__cym__",
45
+ "__dan__",
46
+ "__deu__",
47
+ "__dik__",
48
+ "__dyu__",
49
+ "__dzo__",
50
+ "__ell__",
51
+ "__eng__",
52
+ "__epo__",
53
+ "__est__",
54
+ "__eus__",
55
+ "__ewe__",
56
+ "__fao__",
57
+ "__pes__",
58
+ "__fij__",
59
+ "__fin__",
60
+ "__fon__",
61
+ "__fra__",
62
+ "__fur__",
63
+ "__fuv__",
64
+ "__gla__",
65
+ "__gle__",
66
+ "__glg__",
67
+ "__grn__",
68
+ "__guj__",
69
+ "__hat__",
70
+ "__hau__",
71
+ "__heb__",
72
+ "__hin__",
73
+ "__hne__",
74
+ "__hrv__",
75
+ "__hun__",
76
+ "__hye__",
77
+ "__ibo__",
78
+ "__ilo__",
79
+ "__ind__",
80
+ "__isl__",
81
+ "__ita__",
82
+ "__jav__",
83
+ "__jpn__",
84
+ "__kab__",
85
+ "__kac__",
86
+ "__kam__",
87
+ "__kan__",
88
+ "__kas__",
89
+ "__kas_Deva__",
90
+ "__kat__",
91
+ "__knc__",
92
+ "__knc_Latn__",
93
+ "__kaz__",
94
+ "__kbp__",
95
+ "__kea__",
96
+ "__khm__",
97
+ "__kik__",
98
+ "__kin__",
99
+ "__kir__",
100
+ "__kmb__",
101
+ "__kon__",
102
+ "__kor__",
103
+ "__kmr__",
104
+ "__lao__",
105
+ "__lvs__",
106
+ "__lij__",
107
+ "__lim__",
108
+ "__lin__",
109
+ "__lit__",
110
+ "__lmo__",
111
+ "__ltg__",
112
+ "__ltz__",
113
+ "__lua__",
114
+ "__lug__",
115
+ "__luo__",
116
+ "__lus__",
117
+ "__mag__",
118
+ "__mai__",
119
+ "__mal__",
120
+ "__mar__",
121
+ "__min__",
122
+ "__mkd__",
123
+ "__plt__",
124
+ "__mlt__",
125
+ "__mni__",
126
+ "__khk__",
127
+ "__mos__",
128
+ "__mri__",
129
+ "__zsm__",
130
+ "__mya__",
131
+ "__nld__",
132
+ "__nno__",
133
+ "__nob__",
134
+ "__npi__",
135
+ "__nso__",
136
+ "__nus__",
137
+ "__nya__",
138
+ "__oci__",
139
+ "__gaz__",
140
+ "__ory__",
141
+ "__pag__",
142
+ "__pan__",
143
+ "__pap__",
144
+ "__pol__",
145
+ "__por__",
146
+ "__prs__",
147
+ "__pbt__",
148
+ "__quy__",
149
+ "__ron__",
150
+ "__run__",
151
+ "__rus__",
152
+ "__sag__",
153
+ "__san__",
154
+ "__sat__",
155
+ "__scn__",
156
+ "__shn__",
157
+ "__sin__",
158
+ "__slk__",
159
+ "__slv__",
160
+ "__smo__",
161
+ "__sna__",
162
+ "__snd__",
163
+ "__som__",
164
+ "__sot__",
165
+ "__spa__",
166
+ "__als__",
167
+ "__srd__",
168
+ "__srp__",
169
+ "__ssw__",
170
+ "__sun__",
171
+ "__swe__",
172
+ "__swh__",
173
+ "__szl__",
174
+ "__tam__",
175
+ "__tat__",
176
+ "__tel__",
177
+ "__tgk__",
178
+ "__tgl__",
179
+ "__tha__",
180
+ "__tir__",
181
+ "__taq__",
182
+ "__taq_Tfng__",
183
+ "__tpi__",
184
+ "__tsn__",
185
+ "__tso__",
186
+ "__tuk__",
187
+ "__tum__",
188
+ "__tur__",
189
+ "__twi__",
190
+ "__tzm__",
191
+ "__uig__",
192
+ "__ukr__",
193
+ "__umb__",
194
+ "__urd__",
195
+ "__uzn__",
196
+ "__vec__",
197
+ "__vie__",
198
+ "__war__",
199
+ "__wol__",
200
+ "__xho__",
201
+ "__ydd__",
202
+ "__yor__",
203
+ "__yue__",
204
+ "__cmn__",
205
+ "__cmn_Hant__",
206
+ "__zul__"
207
  ],
208
  "num_mel_bins": 80,
209
  "padding_side": "right",
special_tokens_map.json CHANGED
@@ -1,5 +1,9 @@
1
  {
2
  "additional_special_tokens": [
 
 
 
 
3
  "__ace__",
4
  "__ace_Latn__",
5
  "__acm__",
@@ -201,10 +205,7 @@
201
  "__yue__",
202
  "__cmn__",
203
  "__cmn_Hant__",
204
- "__zul__",
205
- "<MINED_DATA>",
206
- "<MMT_BT_DATA>",
207
- "<SMT_BT_DATA>"
208
  ],
209
  "bos_token": "<s>",
210
  "cls_token": "<s>",
 
1
  {
2
  "additional_special_tokens": [
3
+ "<pad>",
4
+ "<unk>",
5
+ "<s>",
6
+ "</s>",
7
  "__ace__",
8
  "__ace_Latn__",
9
  "__acm__",
 
205
  "__yue__",
206
  "__cmn__",
207
  "__cmn_Hant__",
208
+ "__zul__"
 
 
 
209
  ],
210
  "bos_token": "<s>",
211
  "cls_token": "<s>",
tokenizer_config.json CHANGED
@@ -1647,33 +1647,13 @@
1647
  "rstrip": true,
1648
  "single_word": false,
1649
  "special": true
1650
- },
1651
- "256203": {
1652
- "content": "<MINED_DATA>",
1653
- "lstrip": true,
1654
- "normalized": false,
1655
- "rstrip": true,
1656
- "single_word": false,
1657
- "special": true
1658
- },
1659
- "256204": {
1660
- "content": "<MMT_BT_DATA>",
1661
- "lstrip": true,
1662
- "normalized": false,
1663
- "rstrip": true,
1664
- "single_word": false,
1665
- "special": true
1666
- },
1667
- "256205": {
1668
- "content": "<SMT_BT_DATA>",
1669
- "lstrip": true,
1670
- "normalized": false,
1671
- "rstrip": true,
1672
- "single_word": false,
1673
- "special": true
1674
  }
1675
  },
1676
  "additional_special_tokens": [
 
 
 
 
1677
  "__ace__",
1678
  "__ace_Latn__",
1679
  "__acm__",
@@ -1875,219 +1855,12 @@
1875
  "__yue__",
1876
  "__cmn__",
1877
  "__cmn_Hant__",
1878
- "__zul__",
1879
- "<MINED_DATA>",
1880
- "<MMT_BT_DATA>",
1881
- "<SMT_BT_DATA>"
1882
  ],
1883
  "bos_token": "<s>",
1884
  "clean_up_tokenization_spaces": true,
1885
  "cls_token": "<s>",
1886
  "eos_token": "</s>",
1887
- "language_code": [
1888
- "ace",
1889
- "ace_Latn",
1890
- "acm",
1891
- "acq",
1892
- "aeb",
1893
- "afr",
1894
- "ajp",
1895
- "aka",
1896
- "amh",
1897
- "apc",
1898
- "arb",
1899
- "ars",
1900
- "ary",
1901
- "arz",
1902
- "asm",
1903
- "ast",
1904
- "awa",
1905
- "ayr",
1906
- "azb",
1907
- "azj",
1908
- "bak",
1909
- "bam",
1910
- "ban",
1911
- "bel",
1912
- "bem",
1913
- "ben",
1914
- "bho",
1915
- "bjn",
1916
- "bjn_Latn",
1917
- "bod",
1918
- "bos",
1919
- "bug",
1920
- "bul",
1921
- "cat",
1922
- "ceb",
1923
- "ces",
1924
- "cjk",
1925
- "ckb",
1926
- "crh",
1927
- "cym",
1928
- "dan",
1929
- "deu",
1930
- "dik",
1931
- "dyu",
1932
- "dzo",
1933
- "ell",
1934
- "eng",
1935
- "epo",
1936
- "est",
1937
- "eus",
1938
- "ewe",
1939
- "fao",
1940
- "pes",
1941
- "fij",
1942
- "fin",
1943
- "fon",
1944
- "fra",
1945
- "fur",
1946
- "fuv",
1947
- "gla",
1948
- "gle",
1949
- "glg",
1950
- "grn",
1951
- "guj",
1952
- "hat",
1953
- "hau",
1954
- "heb",
1955
- "hin",
1956
- "hne",
1957
- "hrv",
1958
- "hun",
1959
- "hye",
1960
- "ibo",
1961
- "ilo",
1962
- "ind",
1963
- "isl",
1964
- "ita",
1965
- "jav",
1966
- "jpn",
1967
- "kab",
1968
- "kac",
1969
- "kam",
1970
- "kan",
1971
- "kas",
1972
- "kas_Deva",
1973
- "kat",
1974
- "knc",
1975
- "knc_Latn",
1976
- "kaz",
1977
- "kbp",
1978
- "kea",
1979
- "khm",
1980
- "kik",
1981
- "kin",
1982
- "kir",
1983
- "kmb",
1984
- "kon",
1985
- "kor",
1986
- "kmr",
1987
- "lao",
1988
- "lvs",
1989
- "lij",
1990
- "lim",
1991
- "lin",
1992
- "lit",
1993
- "lmo",
1994
- "ltg",
1995
- "ltz",
1996
- "lua",
1997
- "lug",
1998
- "luo",
1999
- "lus",
2000
- "mag",
2001
- "mai",
2002
- "mal",
2003
- "mar",
2004
- "min",
2005
- "mkd",
2006
- "plt",
2007
- "mlt",
2008
- "mni",
2009
- "khk",
2010
- "mos",
2011
- "mri",
2012
- "zsm",
2013
- "mya",
2014
- "nld",
2015
- "nno",
2016
- "nob",
2017
- "npi",
2018
- "nso",
2019
- "nus",
2020
- "nya",
2021
- "oci",
2022
- "gaz",
2023
- "ory",
2024
- "pag",
2025
- "pan",
2026
- "pap",
2027
- "pol",
2028
- "por",
2029
- "prs",
2030
- "pbt",
2031
- "quy",
2032
- "ron",
2033
- "run",
2034
- "rus",
2035
- "sag",
2036
- "san",
2037
- "sat",
2038
- "scn",
2039
- "shn",
2040
- "sin",
2041
- "slk",
2042
- "slv",
2043
- "smo",
2044
- "sna",
2045
- "snd",
2046
- "som",
2047
- "sot",
2048
- "spa",
2049
- "als",
2050
- "srd",
2051
- "srp",
2052
- "ssw",
2053
- "sun",
2054
- "swe",
2055
- "swh",
2056
- "szl",
2057
- "tam",
2058
- "tat",
2059
- "tel",
2060
- "tgk",
2061
- "tgl",
2062
- "tha",
2063
- "tir",
2064
- "taq",
2065
- "taq_Tfng",
2066
- "tpi",
2067
- "tsn",
2068
- "tso",
2069
- "tuk",
2070
- "tum",
2071
- "tur",
2072
- "twi",
2073
- "tzm",
2074
- "uig",
2075
- "ukr",
2076
- "umb",
2077
- "urd",
2078
- "uzn",
2079
- "vec",
2080
- "vie",
2081
- "war",
2082
- "wol",
2083
- "xho",
2084
- "ydd",
2085
- "yor",
2086
- "yue",
2087
- "cmn",
2088
- "cmn_Hant",
2089
- "zul"
2090
- ],
2091
  "model_max_length": 1000000000000000019884624838656,
2092
  "pad_token": "<pad>",
2093
  "processor_class": "SeamlessM4TProcessor",
 
1647
  "rstrip": true,
1648
  "single_word": false,
1649
  "special": true
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1650
  }
1651
  },
1652
  "additional_special_tokens": [
1653
+ "<pad>",
1654
+ "<unk>",
1655
+ "<s>",
1656
+ "</s>",
1657
  "__ace__",
1658
  "__ace_Latn__",
1659
  "__acm__",
 
1855
  "__yue__",
1856
  "__cmn__",
1857
  "__cmn_Hant__",
1858
+ "__zul__"
 
 
 
1859
  ],
1860
  "bos_token": "<s>",
1861
  "clean_up_tokenization_spaces": true,
1862
  "cls_token": "<s>",
1863
  "eos_token": "</s>",
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1864
  "model_max_length": 1000000000000000019884624838656,
1865
  "pad_token": "<pad>",
1866
  "processor_class": "SeamlessM4TProcessor",