sboshar commited on
Commit
864cc9f
1 Parent(s): 340b3d7

Upload tokenizer

Browse files
Files changed (3) hide show
  1. special_tokens_map.json +6 -0
  2. tokenizer_config.json +6 -0
  3. vocab.txt +75 -0
special_tokens_map.json ADDED
@@ -0,0 +1,6 @@
 
 
 
 
 
 
 
1
+ {
2
+ "cls_token": "<cls>",
3
+ "mask_token": "<mask>",
4
+ "pad_token": "<pad>",
5
+ "unk_token": "<unk>"
6
+ }
tokenizer_config.json ADDED
@@ -0,0 +1,6 @@
 
 
 
 
 
 
 
1
+ {
2
+ "clean_up_tokenization_spaces": true,
3
+ "eos_token": null,
4
+ "model_max_length": 2048,
5
+ "tokenizer_class": "EsmTokenizer"
6
+ }
vocab.txt ADDED
@@ -0,0 +1,75 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ <unk>
2
+ <pad>
3
+ <mask>
4
+ <cls>
5
+ <eos>
6
+ <bos>
7
+ AAA
8
+ AAT
9
+ AAC
10
+ AAG
11
+ ATA
12
+ ATT
13
+ ATC
14
+ ATG
15
+ ACA
16
+ ACT
17
+ ACC
18
+ ACG
19
+ AGA
20
+ AGT
21
+ AGC
22
+ AGG
23
+ TAA
24
+ TAT
25
+ TAC
26
+ TAG
27
+ TTA
28
+ TTT
29
+ TTC
30
+ TTG
31
+ TCA
32
+ TCT
33
+ TCC
34
+ TCG
35
+ TGA
36
+ TGT
37
+ TGC
38
+ TGG
39
+ CAA
40
+ CAT
41
+ CAC
42
+ CAG
43
+ CTA
44
+ CTT
45
+ CTC
46
+ CTG
47
+ CCA
48
+ CCT
49
+ CCC
50
+ CCG
51
+ CGA
52
+ CGT
53
+ CGC
54
+ CGG
55
+ GAA
56
+ GAT
57
+ GAC
58
+ GAG
59
+ GTA
60
+ GTT
61
+ GTC
62
+ GTG
63
+ GCA
64
+ GCT
65
+ GCC
66
+ GCG
67
+ GGA
68
+ GGT
69
+ GGC
70
+ GGG
71
+ A
72
+ T
73
+ C
74
+ G
75
+ N