XuYipei commited on
Commit
1bc718a
1 Parent(s): b41d0d6

Upload tokenizer

Browse files
added_tokens.json ADDED
@@ -0,0 +1,103 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "<end>": 49953,
3
+ "<unused_token_0>": 49954,
4
+ "<unused_token_10>": 49964,
5
+ "<unused_token_11>": 49965,
6
+ "<unused_token_12>": 49966,
7
+ "<unused_token_13>": 49967,
8
+ "<unused_token_14>": 49968,
9
+ "<unused_token_15>": 49969,
10
+ "<unused_token_16>": 49970,
11
+ "<unused_token_17>": 49971,
12
+ "<unused_token_18>": 49972,
13
+ "<unused_token_19>": 49973,
14
+ "<unused_token_1>": 49955,
15
+ "<unused_token_20>": 49974,
16
+ "<unused_token_21>": 49975,
17
+ "<unused_token_22>": 49976,
18
+ "<unused_token_23>": 49977,
19
+ "<unused_token_24>": 49978,
20
+ "<unused_token_25>": 49979,
21
+ "<unused_token_26>": 49980,
22
+ "<unused_token_27>": 49981,
23
+ "<unused_token_28>": 49982,
24
+ "<unused_token_29>": 49983,
25
+ "<unused_token_2>": 49956,
26
+ "<unused_token_30>": 49984,
27
+ "<unused_token_31>": 49985,
28
+ "<unused_token_32>": 49986,
29
+ "<unused_token_33>": 49987,
30
+ "<unused_token_34>": 49988,
31
+ "<unused_token_35>": 49989,
32
+ "<unused_token_36>": 49990,
33
+ "<unused_token_37>": 49991,
34
+ "<unused_token_38>": 49992,
35
+ "<unused_token_39>": 49993,
36
+ "<unused_token_3>": 49957,
37
+ "<unused_token_40>": 49994,
38
+ "<unused_token_41>": 49995,
39
+ "<unused_token_42>": 49996,
40
+ "<unused_token_43>": 49997,
41
+ "<unused_token_44>": 49998,
42
+ "<unused_token_45>": 49999,
43
+ "<unused_token_46>": 50000,
44
+ "<unused_token_47>": 50001,
45
+ "<unused_token_48>": 50002,
46
+ "<unused_token_49>": 50003,
47
+ "<unused_token_4>": 49958,
48
+ "<unused_token_50>": 50004,
49
+ "<unused_token_51>": 50005,
50
+ "<unused_token_52>": 50006,
51
+ "<unused_token_53>": 50007,
52
+ "<unused_token_54>": 50008,
53
+ "<unused_token_55>": 50009,
54
+ "<unused_token_56>": 50010,
55
+ "<unused_token_57>": 50011,
56
+ "<unused_token_58>": 50012,
57
+ "<unused_token_59>": 50013,
58
+ "<unused_token_5>": 49959,
59
+ "<unused_token_60>": 50014,
60
+ "<unused_token_61>": 50015,
61
+ "<unused_token_62>": 50016,
62
+ "<unused_token_63>": 50017,
63
+ "<unused_token_64>": 50018,
64
+ "<unused_token_65>": 50019,
65
+ "<unused_token_66>": 50020,
66
+ "<unused_token_67>": 50021,
67
+ "<unused_token_68>": 50022,
68
+ "<unused_token_69>": 50023,
69
+ "<unused_token_6>": 49960,
70
+ "<unused_token_70>": 50024,
71
+ "<unused_token_71>": 50025,
72
+ "<unused_token_72>": 50026,
73
+ "<unused_token_73>": 50027,
74
+ "<unused_token_74>": 50028,
75
+ "<unused_token_75>": 50029,
76
+ "<unused_token_76>": 50030,
77
+ "<unused_token_77>": 50031,
78
+ "<unused_token_78>": 50032,
79
+ "<unused_token_79>": 50033,
80
+ "<unused_token_7>": 49961,
81
+ "<unused_token_80>": 50034,
82
+ "<unused_token_81>": 50035,
83
+ "<unused_token_82>": 50036,
84
+ "<unused_token_83>": 50037,
85
+ "<unused_token_84>": 50038,
86
+ "<unused_token_85>": 50039,
87
+ "<unused_token_86>": 50040,
88
+ "<unused_token_87>": 50041,
89
+ "<unused_token_88>": 50042,
90
+ "<unused_token_89>": 50043,
91
+ "<unused_token_8>": 49962,
92
+ "<unused_token_90>": 50044,
93
+ "<unused_token_91>": 50045,
94
+ "<unused_token_92>": 50046,
95
+ "<unused_token_93>": 50047,
96
+ "<unused_token_94>": 50048,
97
+ "<unused_token_95>": 50049,
98
+ "<unused_token_96>": 50050,
99
+ "<unused_token_97>": 50051,
100
+ "<unused_token_98>": 50052,
101
+ "<unused_token_99>": 50053,
102
+ "<unused_token_9>": 49963
103
+ }
special_tokens_map.json ADDED
@@ -0,0 +1,108 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "additional_special_tokens": [
3
+ "<end>",
4
+ "<unused_token_0>",
5
+ "<unused_token_1>",
6
+ "<unused_token_2>",
7
+ "<unused_token_3>",
8
+ "<unused_token_4>",
9
+ "<unused_token_5>",
10
+ "<unused_token_6>",
11
+ "<unused_token_7>",
12
+ "<unused_token_8>",
13
+ "<unused_token_9>",
14
+ "<unused_token_10>",
15
+ "<unused_token_11>",
16
+ "<unused_token_12>",
17
+ "<unused_token_13>",
18
+ "<unused_token_14>",
19
+ "<unused_token_15>",
20
+ "<unused_token_16>",
21
+ "<unused_token_17>",
22
+ "<unused_token_18>",
23
+ "<unused_token_19>",
24
+ "<unused_token_20>",
25
+ "<unused_token_21>",
26
+ "<unused_token_22>",
27
+ "<unused_token_23>",
28
+ "<unused_token_24>",
29
+ "<unused_token_25>",
30
+ "<unused_token_26>",
31
+ "<unused_token_27>",
32
+ "<unused_token_28>",
33
+ "<unused_token_29>",
34
+ "<unused_token_30>",
35
+ "<unused_token_31>",
36
+ "<unused_token_32>",
37
+ "<unused_token_33>",
38
+ "<unused_token_34>",
39
+ "<unused_token_35>",
40
+ "<unused_token_36>",
41
+ "<unused_token_37>",
42
+ "<unused_token_38>",
43
+ "<unused_token_39>",
44
+ "<unused_token_40>",
45
+ "<unused_token_41>",
46
+ "<unused_token_42>",
47
+ "<unused_token_43>",
48
+ "<unused_token_44>",
49
+ "<unused_token_45>",
50
+ "<unused_token_46>",
51
+ "<unused_token_47>",
52
+ "<unused_token_48>",
53
+ "<unused_token_49>",
54
+ "<unused_token_50>",
55
+ "<unused_token_51>",
56
+ "<unused_token_52>",
57
+ "<unused_token_53>",
58
+ "<unused_token_54>",
59
+ "<unused_token_55>",
60
+ "<unused_token_56>",
61
+ "<unused_token_57>",
62
+ "<unused_token_58>",
63
+ "<unused_token_59>",
64
+ "<unused_token_60>",
65
+ "<unused_token_61>",
66
+ "<unused_token_62>",
67
+ "<unused_token_63>",
68
+ "<unused_token_64>",
69
+ "<unused_token_65>",
70
+ "<unused_token_66>",
71
+ "<unused_token_67>",
72
+ "<unused_token_68>",
73
+ "<unused_token_69>",
74
+ "<unused_token_70>",
75
+ "<unused_token_71>",
76
+ "<unused_token_72>",
77
+ "<unused_token_73>",
78
+ "<unused_token_74>",
79
+ "<unused_token_75>",
80
+ "<unused_token_76>",
81
+ "<unused_token_77>",
82
+ "<unused_token_78>",
83
+ "<unused_token_79>",
84
+ "<unused_token_80>",
85
+ "<unused_token_81>",
86
+ "<unused_token_82>",
87
+ "<unused_token_83>",
88
+ "<unused_token_84>",
89
+ "<unused_token_85>",
90
+ "<unused_token_86>",
91
+ "<unused_token_87>",
92
+ "<unused_token_88>",
93
+ "<unused_token_89>",
94
+ "<unused_token_90>",
95
+ "<unused_token_91>",
96
+ "<unused_token_92>",
97
+ "<unused_token_93>",
98
+ "<unused_token_94>",
99
+ "<unused_token_95>",
100
+ "<unused_token_96>",
101
+ "<unused_token_97>",
102
+ "<unused_token_98>",
103
+ "<unused_token_99>"
104
+ ],
105
+ "bos_token": "<s>",
106
+ "eos_token": "</s>",
107
+ "unk_token": "<unk>"
108
+ }
tokenizer.model ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:e2676d4ca29ca1750f6ff203328d73b189321dc5776ceede037cbd36541d70c0
3
+ size 757958
tokenizer_config.json ADDED
@@ -0,0 +1,33 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "add_bos_token": true,
3
+ "add_eos_token": false,
4
+ "bos_token": {
5
+ "__type": "AddedToken",
6
+ "content": "<s>",
7
+ "lstrip": false,
8
+ "normalized": true,
9
+ "rstrip": false,
10
+ "single_word": false
11
+ },
12
+ "clean_up_tokenization_spaces": false,
13
+ "eos_token": {
14
+ "__type": "AddedToken",
15
+ "content": "</s>",
16
+ "lstrip": false,
17
+ "normalized": true,
18
+ "rstrip": false,
19
+ "single_word": false
20
+ },
21
+ "model_max_length": 1000000000000000019884624838656,
22
+ "pad_token": null,
23
+ "sp_model_kwargs": {},
24
+ "tokenizer_class": "LlamaTokenizer",
25
+ "unk_token": {
26
+ "__type": "AddedToken",
27
+ "content": "<unk>",
28
+ "lstrip": false,
29
+ "normalized": true,
30
+ "rstrip": false,
31
+ "single_word": false
32
+ }
33
+ }