Spaces:

khairi
/

ProtNLA

Runtime error

App Files Files Community

khairi commited on Mar 25

Commit

a67f37a

•

1 Parent(s): 98f2a54

code tempalte

Browse files

Files changed (11) hide show

app.py +26 -0
data/tokenizers/protein_tokenizer/special_tokens_map.json +37 -0
data/tokenizers/protein_tokenizer/tokenizer.json +0 -0
data/tokenizers/protein_tokenizer/tokenizer_config.json +52 -0
data/tokenizers/term_tokenizer/special_tokens_map.json +5 -0
data/tokenizers/term_tokenizer/tokenizer.json +0 -0
data/tokenizers/term_tokenizer/tokenizer_config.json +69 -0
data/tokenizers/text_tokenizer/special_tokens_map.json +5 -0
data/tokenizers/text_tokenizer/tokenizer.json +0 -0
data/tokenizers/text_tokenizer/tokenizer_config.json +61 -0
inference.py +4 -0

app.py CHANGED Viewed

	@@ -1,3 +1,29 @@
1	import streamlit as st

2

























3

 import streamlit as st
+from transformers import AutoModelForSeq2SeqLM, PreTrainedTokenizerFast
+from io import StringIO
+from Bio import SeqIO
+textarea_placeholder = "Input your sequences in fasta format"
+sample_protein = """"
+"""
+tokenizers_path = ('data/tokenizers/protein_tokenizer', 'data/tokenizers/text_tokenizer')
+model = AutoModelForSeq2SeqLM.from_pretrained("khairi/ProtNLA")
+protein_tokenizer = PreTrainedTokenizerFast.from_pretrained(tokenizers_path[0])
+text_tokenizer = PreTrainedTokenizerFast.from_pretrained(tokenizers_path[1])
+fasta_sequences = st.text_area("Input Sequences:", value=sample_protein, placeholder=textarea_placeholder)
+num_annotations = st.number_input(label="Num Annotations: ", min_value=1, max_value=5)
+predict = st.button(label='Run')
+if predict:
+    fasta_io = StringIO(fasta_sequences)
+    records = SeqIO.parse(fasta_io, "fasta")
+    for record in records:

data/tokenizers/protein_tokenizer/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,37 @@

+{
+  "cls_token": {
+    "content": "<cls>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "<mask>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "<sep>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

data/tokenizers/protein_tokenizer/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

data/tokenizers/protein_tokenizer/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,52 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<cls>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<sep>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "4": {
+      "content": "<mask>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "<cls>",
+  "mask_token": "<mask>",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<pad>",
+  "sep_token": "<sep>",
+  "tokenizer_class": "PreTrainedTokenizerFast",
+  "unk_token": "<unk>"
+}

data/tokenizers/term_tokenizer/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,5 @@

+{
+  "bos_token": "<bos>",
+  "eos_token": "<eos>",
+  "pad_token": "<pad>"
+}

data/tokenizers/term_tokenizer/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

data/tokenizers/term_tokenizer/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,69 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<bos>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<eos>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<molecular_function>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "4": {
+      "content": "<biological_process>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "5": {
+      "content": "<cellular_component>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "6": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<bos>",
+  "bp_token": "<biological_process>",
+  "cc_token": "<cellular_component>",
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "<eos>",
+  "mf_token": "<molecular_function>",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<pad>",
+  "tokenizer_class": "PreTrainedTokenizerFast"
+}

data/tokenizers/text_tokenizer/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,5 @@

+{
+  "bos_token": "<bos>",
+  "eos_token": "<eos>",
+  "pad_token": "<pad>"
+}

data/tokenizers/text_tokenizer/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

data/tokenizers/text_tokenizer/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,61 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<bos>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<eos>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<molecular_function>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "4": {
+      "content": "<biological_process>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "5": {
+      "content": "<cellular_component>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<bos>",
+  "bp_token": "<biological_process>",
+  "cc_token": "<cellular_component>",
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "<eos>",
+  "mf_token": "<molecular_function>",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<pad>",
+  "tokenizer_class": "PreTrainedTokenizerFast"
+}

inference.py ADDED Viewed

	@@ -0,0 +1,4 @@


1	+
2	+
3	+ def run_inference(model, protein_tokenizer, text_tokenizer, protein_sequences):
4	+ pass