EVA / EVA_21M /tokenizer_config.json
yanjiehuang's picture
Upload folder using huggingface_hub
8e6c821 verified
{
"tokenizer_class": "LineageRNATokenizer",
"auto_map": {
"AutoTokenizer": [
"lineage_tokenizer.py",
"LineageRNATokenizer"
]
},
"vocab_size": 114,
"pad_token": "<pad>",
"bos_token": "<bos>",
"eos_token": "<eos>",
"unk_token": "<unk>",
"rna_bases": [
"A",
"U",
"G",
"C"
],
"special_tokens": [
"<pad>",
"<bos>",
"<eos>",
"<bos_glm>",
"<eos_span>",
"<unk>"
],
"glm_span_tokens": [
"<span_0>",
"<span_1>",
"<span_2>",
"<span_3>",
"<span_4>",
"<span_5>",
"<span_6>",
"<span_7>",
"<span_8>",
"<span_9>",
"<span_10>",
"<span_11>",
"<span_12>",
"<span_13>",
"<span_14>",
"<span_15>",
"<span_16>",
"<span_17>",
"<span_18>",
"<span_19>",
"<span_20>",
"<span_21>",
"<span_22>",
"<span_23>",
"<span_24>",
"<span_25>",
"<span_26>",
"<span_27>",
"<span_28>",
"<span_29>",
"<span_30>",
"<span_31>",
"<span_32>",
"<span_33>",
"<span_34>",
"<span_35>",
"<span_36>",
"<span_37>",
"<span_38>",
"<span_39>",
"<span_40>",
"<span_41>",
"<span_42>",
"<span_43>",
"<span_44>",
"<span_45>",
"<span_46>",
"<span_47>",
"<span_48>",
"<span_49>"
],
"rna_type_tokens": [
"<rna_mRNA>",
"<rna_rRNA>",
"<rna_tRNA>",
"<rna_sRNA>",
"<rna_lncRNA>",
"<rna_circRNA>",
"<rna_viral_RNA>",
"<rna_miRNA>",
"<rna_snoRNA>",
"<rna_snRNA>",
"<rna_piRNA>",
"<rna_ribozyme>",
"<rna_scaRNA>",
"<rna_Y_RNA>",
"<rna_vault_RNA>"
],
"lineage_level_tokens": [
"d__",
"p__",
"c__",
"o__",
"f__",
"g__",
"s__"
],
"lineage_special_chars": [
";",
"|",
"_",
"-"
],
"mode": "lineage",
"description": "Lineage-based tokenizer without species tokens or task tokens"
}