Xenova HF staff commited on
Commit
d7c57d6
1 Parent(s): 6540b5e

Upload 5 files

Browse files
Files changed (2) hide show
  1. special_tokens_map.json +109 -1
  2. tokenizer_config.json +118 -1
special_tokens_map.json CHANGED
@@ -1 +1,109 @@
1
- {"bos_token": "<s>", "eos_token": "</s>", "unk_token": "<unk>", "sep_token": "</s>", "pad_token": "<pad>", "additional_special_tokens": ["__af__", "__am__", "__ar__", "__ast__", "__az__", "__ba__", "__be__", "__bg__", "__bn__", "__br__", "__bs__", "__ca__", "__ceb__", "__cs__", "__cy__", "__da__", "__de__", "__el__", "__en__", "__es__", "__et__", "__fa__", "__ff__", "__fi__", "__fr__", "__fy__", "__ga__", "__gd__", "__gl__", "__gu__", "__ha__", "__he__", "__hi__", "__hr__", "__ht__", "__hu__", "__hy__", "__id__", "__ig__", "__ilo__", "__is__", "__it__", "__ja__", "__jv__", "__ka__", "__kk__", "__km__", "__kn__", "__ko__", "__lb__", "__lg__", "__ln__", "__lo__", "__lt__", "__lv__", "__mg__", "__mk__", "__ml__", "__mn__", "__mr__", "__ms__", "__my__", "__ne__", "__nl__", "__no__", "__ns__", "__oc__", "__or__", "__pa__", "__pl__", "__ps__", "__pt__", "__ro__", "__ru__", "__sd__", "__si__", "__sk__", "__sl__", "__so__", "__sq__", "__sr__", "__ss__", "__su__", "__sv__", "__sw__", "__ta__", "__th__", "__tl__", "__tn__", "__tr__", "__uk__", "__ur__", "__uz__", "__vi__", "__wo__", "__xh__", "__yi__", "__yo__", "__zh__", "__zu__"]}
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "additional_special_tokens": [
3
+ "__af__",
4
+ "__am__",
5
+ "__ar__",
6
+ "__ast__",
7
+ "__az__",
8
+ "__ba__",
9
+ "__be__",
10
+ "__bg__",
11
+ "__bn__",
12
+ "__br__",
13
+ "__bs__",
14
+ "__ca__",
15
+ "__ceb__",
16
+ "__cs__",
17
+ "__cy__",
18
+ "__da__",
19
+ "__de__",
20
+ "__el__",
21
+ "__en__",
22
+ "__es__",
23
+ "__et__",
24
+ "__fa__",
25
+ "__ff__",
26
+ "__fi__",
27
+ "__fr__",
28
+ "__fy__",
29
+ "__ga__",
30
+ "__gd__",
31
+ "__gl__",
32
+ "__gu__",
33
+ "__ha__",
34
+ "__he__",
35
+ "__hi__",
36
+ "__hr__",
37
+ "__ht__",
38
+ "__hu__",
39
+ "__hy__",
40
+ "__id__",
41
+ "__ig__",
42
+ "__ilo__",
43
+ "__is__",
44
+ "__it__",
45
+ "__ja__",
46
+ "__jv__",
47
+ "__ka__",
48
+ "__kk__",
49
+ "__km__",
50
+ "__kn__",
51
+ "__ko__",
52
+ "__lb__",
53
+ "__lg__",
54
+ "__ln__",
55
+ "__lo__",
56
+ "__lt__",
57
+ "__lv__",
58
+ "__mg__",
59
+ "__mk__",
60
+ "__ml__",
61
+ "__mn__",
62
+ "__mr__",
63
+ "__ms__",
64
+ "__my__",
65
+ "__ne__",
66
+ "__nl__",
67
+ "__no__",
68
+ "__ns__",
69
+ "__oc__",
70
+ "__or__",
71
+ "__pa__",
72
+ "__pl__",
73
+ "__ps__",
74
+ "__pt__",
75
+ "__ro__",
76
+ "__ru__",
77
+ "__sd__",
78
+ "__si__",
79
+ "__sk__",
80
+ "__sl__",
81
+ "__so__",
82
+ "__sq__",
83
+ "__sr__",
84
+ "__ss__",
85
+ "__su__",
86
+ "__sv__",
87
+ "__sw__",
88
+ "__ta__",
89
+ "__th__",
90
+ "__tl__",
91
+ "__tn__",
92
+ "__tr__",
93
+ "__uk__",
94
+ "__ur__",
95
+ "__uz__",
96
+ "__vi__",
97
+ "__wo__",
98
+ "__xh__",
99
+ "__yi__",
100
+ "__yo__",
101
+ "__zh__",
102
+ "__zu__"
103
+ ],
104
+ "bos_token": "<s>",
105
+ "eos_token": "</s>",
106
+ "pad_token": "<pad>",
107
+ "sep_token": "</s>",
108
+ "unk_token": "<unk>"
109
+ }
tokenizer_config.json CHANGED
@@ -1 +1,118 @@
1
- {"src_lang": null, "tgt_lang": null, "bos_token": "<s>", "eos_token": "</s>", "sep_token": "</s>", "unk_token": "<unk>", "pad_token": "<pad>", "special_tokens_map_file": "m2m_100_1.2B_v2/special_tokens_map.json", "tokenizer_file": null, "name_or_path": "m2m_100_1.2B_v2/"}
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "additional_special_tokens": [
3
+ "__af__",
4
+ "__am__",
5
+ "__ar__",
6
+ "__ast__",
7
+ "__az__",
8
+ "__ba__",
9
+ "__be__",
10
+ "__bg__",
11
+ "__bn__",
12
+ "__br__",
13
+ "__bs__",
14
+ "__ca__",
15
+ "__ceb__",
16
+ "__cs__",
17
+ "__cy__",
18
+ "__da__",
19
+ "__de__",
20
+ "__el__",
21
+ "__en__",
22
+ "__es__",
23
+ "__et__",
24
+ "__fa__",
25
+ "__ff__",
26
+ "__fi__",
27
+ "__fr__",
28
+ "__fy__",
29
+ "__ga__",
30
+ "__gd__",
31
+ "__gl__",
32
+ "__gu__",
33
+ "__ha__",
34
+ "__he__",
35
+ "__hi__",
36
+ "__hr__",
37
+ "__ht__",
38
+ "__hu__",
39
+ "__hy__",
40
+ "__id__",
41
+ "__ig__",
42
+ "__ilo__",
43
+ "__is__",
44
+ "__it__",
45
+ "__ja__",
46
+ "__jv__",
47
+ "__ka__",
48
+ "__kk__",
49
+ "__km__",
50
+ "__kn__",
51
+ "__ko__",
52
+ "__lb__",
53
+ "__lg__",
54
+ "__ln__",
55
+ "__lo__",
56
+ "__lt__",
57
+ "__lv__",
58
+ "__mg__",
59
+ "__mk__",
60
+ "__ml__",
61
+ "__mn__",
62
+ "__mr__",
63
+ "__ms__",
64
+ "__my__",
65
+ "__ne__",
66
+ "__nl__",
67
+ "__no__",
68
+ "__ns__",
69
+ "__oc__",
70
+ "__or__",
71
+ "__pa__",
72
+ "__pl__",
73
+ "__ps__",
74
+ "__pt__",
75
+ "__ro__",
76
+ "__ru__",
77
+ "__sd__",
78
+ "__si__",
79
+ "__sk__",
80
+ "__sl__",
81
+ "__so__",
82
+ "__sq__",
83
+ "__sr__",
84
+ "__ss__",
85
+ "__su__",
86
+ "__sv__",
87
+ "__sw__",
88
+ "__ta__",
89
+ "__th__",
90
+ "__tl__",
91
+ "__tn__",
92
+ "__tr__",
93
+ "__uk__",
94
+ "__ur__",
95
+ "__uz__",
96
+ "__vi__",
97
+ "__wo__",
98
+ "__xh__",
99
+ "__yi__",
100
+ "__yo__",
101
+ "__zh__",
102
+ "__zu__"
103
+ ],
104
+ "bos_token": "<s>",
105
+ "clean_up_tokenization_spaces": true,
106
+ "eos_token": "</s>",
107
+ "language_codes": "m2m100",
108
+ "model_max_length": 1024,
109
+ "num_madeup_words": 8,
110
+ "pad_token": "<pad>",
111
+ "sep_token": "</s>",
112
+ "sp_model_kwargs": {},
113
+ "src_lang": null,
114
+ "tgt_lang": null,
115
+ "tokenizer_class": "M2M100Tokenizer",
116
+ "tokenizer_file": null,
117
+ "unk_token": "<unk>"
118
+ }