Upload processor

#1
by ylacombe HF staff - opened
preprocessor_config.json ADDED
@@ -0,0 +1,113 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "feature_extractor_type": "SeamlessM4TFeatureExtractor",
3
+ "feature_size": 80,
4
+ "language_code": [
5
+ "afr",
6
+ "amh",
7
+ "arb",
8
+ "ary",
9
+ "arz",
10
+ "asm",
11
+ "azj",
12
+ "bel",
13
+ "ben",
14
+ "bos",
15
+ "bul",
16
+ "cat",
17
+ "ceb",
18
+ "ces",
19
+ "ckb",
20
+ "cmn",
21
+ "cmn_Hant",
22
+ "cym",
23
+ "dan",
24
+ "deu",
25
+ "ell",
26
+ "eng",
27
+ "est",
28
+ "eus",
29
+ "fin",
30
+ "fra",
31
+ "fuv",
32
+ "gaz",
33
+ "gle",
34
+ "glg",
35
+ "guj",
36
+ "heb",
37
+ "hin",
38
+ "hrv",
39
+ "hun",
40
+ "hye",
41
+ "ibo",
42
+ "ind",
43
+ "isl",
44
+ "ita",
45
+ "jav",
46
+ "jpn",
47
+ "kan",
48
+ "kat",
49
+ "kaz",
50
+ "khk",
51
+ "khm",
52
+ "kir",
53
+ "kor",
54
+ "lao",
55
+ "lit",
56
+ "lug",
57
+ "luo",
58
+ "lvs",
59
+ "mai",
60
+ "mal",
61
+ "mar",
62
+ "mkd",
63
+ "mlt",
64
+ "mni",
65
+ "mya",
66
+ "nld",
67
+ "nno",
68
+ "nob",
69
+ "npi",
70
+ "nya",
71
+ "ory",
72
+ "pan",
73
+ "pbt",
74
+ "pes",
75
+ "pol",
76
+ "por",
77
+ "ron",
78
+ "rus",
79
+ "sat",
80
+ "slk",
81
+ "slv",
82
+ "sna",
83
+ "snd",
84
+ "som",
85
+ "spa",
86
+ "srp",
87
+ "swe",
88
+ "swh",
89
+ "tam",
90
+ "tel",
91
+ "tgk",
92
+ "tgl",
93
+ "tha",
94
+ "tur",
95
+ "ukr",
96
+ "urd",
97
+ "uzn",
98
+ "vie",
99
+ "yor",
100
+ "yue",
101
+ "zlm",
102
+ "zul"
103
+ ],
104
+ "num_mel_bins": 80,
105
+ "padding_side": "right",
106
+ "padding_value": 0.0,
107
+ "processor_class": "SeamlessM4TProcessor",
108
+ "return_attention_mask": true,
109
+ "sampling_rate": 16000,
110
+ "src_lang": "eng",
111
+ "stride": 2,
112
+ "tgt_lang": "fra"
113
+ }
sentencepiece.bpe.model ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:026a76827537db9f1348e4d5aaa127bb10a2f2ff633243f3a52d16be82d73f9d
3
+ size 5165809
special_tokens_map.json ADDED
@@ -0,0 +1,111 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "additional_special_tokens": [
3
+ "__afr__",
4
+ "__amh__",
5
+ "__arb__",
6
+ "__ary__",
7
+ "__arz__",
8
+ "__asm__",
9
+ "__azj__",
10
+ "__bel__",
11
+ "__ben__",
12
+ "__bos__",
13
+ "__bul__",
14
+ "__cat__",
15
+ "__ceb__",
16
+ "__ces__",
17
+ "__ckb__",
18
+ "__cmn__",
19
+ "__cmn_Hant__",
20
+ "__cym__",
21
+ "__dan__",
22
+ "__deu__",
23
+ "__ell__",
24
+ "__eng__",
25
+ "__est__",
26
+ "__eus__",
27
+ "__fin__",
28
+ "__fra__",
29
+ "__fuv__",
30
+ "__gaz__",
31
+ "__gle__",
32
+ "__glg__",
33
+ "__guj__",
34
+ "__heb__",
35
+ "__hin__",
36
+ "__hrv__",
37
+ "__hun__",
38
+ "__hye__",
39
+ "__ibo__",
40
+ "__ind__",
41
+ "__isl__",
42
+ "__ita__",
43
+ "__jav__",
44
+ "__jpn__",
45
+ "__kan__",
46
+ "__kat__",
47
+ "__kaz__",
48
+ "__khk__",
49
+ "__khm__",
50
+ "__kir__",
51
+ "__kor__",
52
+ "__lao__",
53
+ "__lit__",
54
+ "__lug__",
55
+ "__luo__",
56
+ "__lvs__",
57
+ "__mai__",
58
+ "__mal__",
59
+ "__mar__",
60
+ "__mkd__",
61
+ "__mlt__",
62
+ "__mni__",
63
+ "__mya__",
64
+ "__nld__",
65
+ "__nno__",
66
+ "__nob__",
67
+ "__npi__",
68
+ "__nya__",
69
+ "__ory__",
70
+ "__pan__",
71
+ "__pbt__",
72
+ "__pes__",
73
+ "__pol__",
74
+ "__por__",
75
+ "__ron__",
76
+ "__rus__",
77
+ "__sat__",
78
+ "__slk__",
79
+ "__slv__",
80
+ "__sna__",
81
+ "__snd__",
82
+ "__som__",
83
+ "__spa__",
84
+ "__srp__",
85
+ "__swe__",
86
+ "__swh__",
87
+ "__tam__",
88
+ "__tel__",
89
+ "__tgk__",
90
+ "__tgl__",
91
+ "__tha__",
92
+ "__tur__",
93
+ "__ukr__",
94
+ "__urd__",
95
+ "__uzn__",
96
+ "__vie__",
97
+ "__yor__",
98
+ "__yue__",
99
+ "__zlm__",
100
+ "__zul__",
101
+ "<MINED_DATA>",
102
+ "<MMT_BT_DATA>",
103
+ "<SMT_BT_DATA>"
104
+ ],
105
+ "bos_token": "<s>",
106
+ "cls_token": "<s>",
107
+ "eos_token": "</s>",
108
+ "pad_token": "<pad>",
109
+ "sep_token": "</s>",
110
+ "unk_token": "<unk>"
111
+ }
tokenizer_config.json ADDED
@@ -0,0 +1,117 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "additional_special_tokens": null,
3
+ "bos_token": "<s>",
4
+ "clean_up_tokenization_spaces": true,
5
+ "cls_token": "<s>",
6
+ "eos_token": "</s>",
7
+ "language_code": [
8
+ "afr",
9
+ "amh",
10
+ "arb",
11
+ "ary",
12
+ "arz",
13
+ "asm",
14
+ "azj",
15
+ "bel",
16
+ "ben",
17
+ "bos",
18
+ "bul",
19
+ "cat",
20
+ "ceb",
21
+ "ces",
22
+ "ckb",
23
+ "cmn",
24
+ "cmn_Hant",
25
+ "cym",
26
+ "dan",
27
+ "deu",
28
+ "ell",
29
+ "eng",
30
+ "est",
31
+ "eus",
32
+ "fin",
33
+ "fra",
34
+ "fuv",
35
+ "gaz",
36
+ "gle",
37
+ "glg",
38
+ "guj",
39
+ "heb",
40
+ "hin",
41
+ "hrv",
42
+ "hun",
43
+ "hye",
44
+ "ibo",
45
+ "ind",
46
+ "isl",
47
+ "ita",
48
+ "jav",
49
+ "jpn",
50
+ "kan",
51
+ "kat",
52
+ "kaz",
53
+ "khk",
54
+ "khm",
55
+ "kir",
56
+ "kor",
57
+ "lao",
58
+ "lit",
59
+ "lug",
60
+ "luo",
61
+ "lvs",
62
+ "mai",
63
+ "mal",
64
+ "mar",
65
+ "mkd",
66
+ "mlt",
67
+ "mni",
68
+ "mya",
69
+ "nld",
70
+ "nno",
71
+ "nob",
72
+ "npi",
73
+ "nya",
74
+ "ory",
75
+ "pan",
76
+ "pbt",
77
+ "pes",
78
+ "pol",
79
+ "por",
80
+ "ron",
81
+ "rus",
82
+ "sat",
83
+ "slk",
84
+ "slv",
85
+ "sna",
86
+ "snd",
87
+ "som",
88
+ "spa",
89
+ "srp",
90
+ "swe",
91
+ "swh",
92
+ "tam",
93
+ "tel",
94
+ "tgk",
95
+ "tgl",
96
+ "tha",
97
+ "tur",
98
+ "ukr",
99
+ "urd",
100
+ "uzn",
101
+ "vie",
102
+ "yor",
103
+ "yue",
104
+ "zlm",
105
+ "zul"
106
+ ],
107
+ "model_max_length": 1000000000000000019884624838656,
108
+ "pad_token": "<pad>",
109
+ "processor_class": "SeamlessM4TProcessor",
110
+ "sep_token": "</s>",
111
+ "sp_model_kwargs": {},
112
+ "src_lang": "__eng__",
113
+ "tgt_lang": "__fra__",
114
+ "tokenizer_class": "SeamlessM4TTokenizer",
115
+ "tokenizer_file": null,
116
+ "unk_token": "<unk>"
117
+ }