Spaces:

NiniCat
/

CRISPRTool

Sleeping

App Files Files Community

supercat666 commited on Jan 22

Commit

ce4236e

•

1 Parent(s): a5afc1a

fixed cas9on

Browse files

Files changed (2) hide show

app.py +37 -2
cas9on.py +97 -14

app.py CHANGED Viewed

@@ -13,7 +13,7 @@ st.divider()
 CRISPR_MODELS = ['Cas9', 'Cas12', 'Cas13d']
 selected_model = st.selectbox('Select CRISPR model:', CRISPR_MODELS, key='selected_model')
 @st.cache_data
 def convert_df(df):
@@ -92,8 +92,43 @@ if selected_model == 'Cas9':
     # Actions based on the selected enzyme
     if target_selection == 'on-target':
-        pass
     elif target_selection == 'off-target':
         ENTRY_METHODS = dict(

 CRISPR_MODELS = ['Cas9', 'Cas12', 'Cas13d']
 selected_model = st.selectbox('Select CRISPR model:', CRISPR_MODELS, key='selected_model')
+cas9on_path = '/cas9_model/on-cla.h5'
 @st.cache_data
 def convert_df(df):
     # Actions based on the selected enzyme
     if target_selection == 'on-target':
+        # app initialization for Cas9 on-target
+        if 'gene_symbol' not in st.session_state:
+            st.session_state.gene_symbol = None
+        if 'on_target_results' not in st.session_state:
+            st.session_state.on_target_results = None
+        # Gene symbol entry
+        st.text_input(
+            label='Enter a Gene Symbol:',
+            key='gene_symbol_entry',
+            placeholder='e.g., BRCA1'
+        )
+        # prediction button
+        if st.button('Predict on-target'):
+            gene_symbol = st.session_state.gene_symbol_entry
+            if gene_symbol:  # Check if gene_symbol is not empty
+                predictions = cas9on.process_gene(gene_symbol, cas9on_path)
+                st.session_state.on_target_results = predictions[:10]  # Store only first 10 for display
+        # on-target results display
+        on_target_results = st.empty()
+        if st.session_state.on_target_results is not None:
+            with on_target_results.container():
+                if len(st.session_state.on_target_results) > 0:
+                    st.write('On-target predictions:', st.session_state.on_target_results)
+                    full_predictions = cas9on.process_gene(gene_symbol, cas9on_path)  # Get full predictions for download
+                    st.download_button(
+                        label='Download on-target predictions',
+                        data=cas9on.convert_df(full_predictions),
+                        file_name='on_target_results.csv',
+                        mime='text/csv'
+                    )
+                else:
+                    st.write('No significant on-target effects detected!')
+        else:
+            on_target_results.empty()
     elif target_selection == 'off-target':
         ENTRY_METHODS = dict(

cas9on.py CHANGED Viewed

@@ -1,8 +1,11 @@
 import tensorflow as tf
 import pandas as pd
 import numpy as np
 from operator import add
 from functools import reduce
 # configure GPUs
 for gpu in tf.config.list_physical_devices('GPU'):
@@ -18,7 +21,6 @@ ntmap = {'A': (1, 0, 0, 0),
          }
 epimap = {'A': 1, 'N': 0}
 def get_seqcode(seq):
     return np.array(reduce(add, map(lambda c: ntmap[c], seq.upper()))).reshape(
         (1, len(seq), -1))
@@ -54,13 +56,9 @@ class Episgt:
             return x
 from keras.models import load_model
 class DCModelOntar:
     def __init__(self, ontar_model_dir, is_reg=False):
-        if is_reg:
-            self.model = load_model(ontar_model_dir)
-        else:
-            self.model = load_model(ontar_model_dir)
     def ontar_predict(self, x, channel_first=True):
         if channel_first:
@@ -68,11 +66,96 @@ class DCModelOntar:
         yp = self.model.predict(x)
         return yp.ravel()
-def predict():
-    file_path = 'eg_cls_on_target.episgt'
-    input_data = Episgt(file_path, num_epi_features=4, with_y=True)
-    x, y = input_data.get_dataset()
-    x = np.expand_dims(x, axis=2)  # shape(x) = [100, 8, 1, 23]
-    dcModel = DCModelOntar('on-cla.h5')
-    predicted_on_target = dcModel.ontar_predict(x)
-    return predicted_on_target

+import requests
 import tensorflow as tf
 import pandas as pd
 import numpy as np
 from operator import add
 from functools import reduce
+from keras.models import load_model
+import random
 # configure GPUs
 for gpu in tf.config.list_physical_devices('GPU'):
          }
 epimap = {'A': 1, 'N': 0}
 def get_seqcode(seq):
     return np.array(reduce(add, map(lambda c: ntmap[c], seq.upper()))).reshape(
         (1, len(seq), -1))
             return x
 from keras.models import load_model
 class DCModelOntar:
     def __init__(self, ontar_model_dir, is_reg=False):
+        self.model = load_model(ontar_model_dir)
     def ontar_predict(self, x, channel_first=True):
         if channel_first:
         yp = self.model.predict(x)
         return yp.ravel()
+# Function to generate random epigenetic data
+def generate_random_epigenetic_data(length):
+    return ''.join(random.choice('AN') for _ in range(length))
+# Function to predict on-target efficiency and format output
+def format_prediction_output(gRNA_sites, gene_id, model_path):
+    dcModel = DCModelOntar(model_path)
+    formatted_data = []
+    for gRNA in gRNA_sites:
+        # Encode the gRNA sequence
+        encoded_seq = get_seqcode(gRNA).reshape(-1,4,1,23)
+        #encoded_seq = np.expand_dims(encoded_seq, axis=2)  # Adjust the shape for the model
+        # Generate random epigenetic features (as placeholders)
+        ctcf = get_epicode(generate_random_epigenetic_data(len(gRNA))).reshape(-1,1,1,23)
+        dnase = get_epicode(generate_random_epigenetic_data(len(gRNA))).reshape(-1,1,1,23)
+        h3k4me3 = get_epicode(generate_random_epigenetic_data(len(gRNA))).reshape(-1,1,1,23)
+        rrbs = get_epicode(generate_random_epigenetic_data(len(gRNA))).reshape(-1,1,1,23)
+        # Predict on-target efficiency using the model
+        input = np.concatenate((encoded_seq, ctcf, dnase, h3k4me3, rrbs), axis=1)
+        prediction = dcModel.ontar_predict(input)
+        # Format output
+        formatted_data.append([gene_id, "start_pos", "end_pos", "strand", gRNA, ctcf, dnase, h3k4me3, rrbs, prediction[0]])
+    return formatted_data
+def fetch_ensembl_transcripts(gene_symbol):
+    url = f"https://rest.ensembl.org/lookup/symbol/homo_sapiens/{gene_symbol}?expand=1;content-type=application/json"
+    response = requests.get(url)
+    if response.status_code == 200:
+        gene_data = response.json()
+        if 'Transcript' in gene_data:
+            return gene_data['Transcript']
+        else:
+            print("No transcripts found for gene:", gene_symbol)
+            return None
+    else:
+        print(f"Error fetching gene data from Ensembl: {response.text}")
+        return None
+def fetch_ensembl_sequence(transcript_id):
+    url = f"https://rest.ensembl.org/sequence/id/{transcript_id}?content-type=application/json"
+    response = requests.get(url)
+    if response.status_code == 200:
+        sequence_data = response.json()
+        if 'seq' in sequence_data:
+            return sequence_data['seq']
+        else:
+            print("No sequence found for transcript:", transcript_id)
+            return None
+    else:
+        print(f"Error fetching sequence data from Ensembl: {response.text}")
+        return None
+def find_crispr_targets(sequence, pam="NGG", target_length=20):
+    targets = []
+    len_sequence = len(sequence)
+    for i in range(len_sequence - len(pam) + 1):
+        if sequence[i + 1:i + 3] == pam[1:]:
+            if i >= target_length:
+                target_seq = sequence[i - target_length:i + 3]
+                targets.append(target_seq)
+    return targets
+def process_gene(gene_symbol, model_path):
+    transcripts = fetch_ensembl_transcripts(gene_symbol)
+    all_data = []
+    if transcripts:
+        for transcript in transcripts:
+            transcript_id = transcript['id']
+            gene_sequence = fetch_ensembl_sequence(transcript_id)
+            if gene_sequence:
+                gRNA_sites = find_crispr_targets(gene_sequence)
+                if gRNA_sites:
+                    formatted_data = format_prediction_output(gRNA_sites, transcript_id, model_path)
+                    all_data.extend(formatted_data)
+    return all_data
+# Function to save results as CSV
+def save_to_csv(data, filename="crispr_results.csv"):
+    df = pd.DataFrame(data,
+                      columns=["Gene ID", "Start Pos", "End Pos", "Strand", "gRNA", "CTCF", "Dnase", "H3K4me3", "RRBS",
+                               "Prediction"])
+    df.to_csv(filename, index=False)