Spaces:

NiniCat
/

CRISPRTool

Sleeping

App Files Files Community

NiniCat

LfOreVEr commited on Apr 8, 2024

Commit

f174fdf

verified ·

1 Parent(s): f90af69

Update cas9on.py (#4)

Browse files

- Update cas9on.py (bf083c28f7799d4200a4b99c657ad0f124e70a49)

Co-authored-by: Qingyang Liu <LfOreVEr@users.noreply.huggingface.co>

Files changed (1) hide show

cas9on.py +12 -7

cas9on.py CHANGED Viewed

@@ -70,20 +70,24 @@ def fetch_ensembl_sequence(transcript_id):
         print(f"Error fetching sequence data from Ensembl: {response.text}")
         return None
-def find_crispr_targets(sequence, chr, start, strand, transcript_id, exon_id, pam="NGG", target_length=20):
     targets = []
     len_sequence = len(sequence)
-    complement = {'A': 'T', 'T': 'A', 'C': 'G', 'G': 'C'}
     dnatorna = {'A': 'A', 'T': 'U', 'C': 'C', 'G': 'G'}
-    if strand == -1:
-        sequence = ''.join([complement[base] for base in sequence])
     for i in range(len_sequence - len(pam) + 1):
         if sequence[i + 1:i + 3] == pam[1:]:
             if i >= target_length:
                 target_seq = sequence[i - target_length:i + 3]
-                tar_start = start + i - target_length
-                tar_end = start + i + 3 - 1
                 gRNA = ''.join([dnatorna[base] for base in sequence[i - target_length:i]])
                 targets.append([target_seq, gRNA, chr, str(tar_start), str(tar_end), str(strand), transcript_id, exon_id])
@@ -131,9 +135,10 @@ def process_gene(gene_symbol, model_path):
                 if gene_sequence:
                     all_gene_sequences.append(gene_sequence)  # Add this gene sequence to the list
                     start = exon['start']
                     strand = exon['strand']
                     chr = exon['seq_region_name']
-                    targets = find_crispr_targets(gene_sequence, chr, start, strand, transcript_id, exon_id)
                     if targets:
                         # Predict on-target efficiency for each gRNA site
                         formatted_data = format_prediction_output(targets, model_path)

         print(f"Error fetching sequence data from Ensembl: {response.text}")
         return None
+def find_crispr_targets(sequence, chr, start, end, strand, transcript_id, exon_id, pam="NGG", target_length=20):
     targets = []
     len_sequence = len(sequence)
+    #complement = {'A': 'T', 'T': 'A', 'C': 'G', 'G': 'C'}
     dnatorna = {'A': 'A', 'T': 'U', 'C': 'C', 'G': 'G'}
     for i in range(len_sequence - len(pam) + 1):
         if sequence[i + 1:i + 3] == pam[1:]:
             if i >= target_length:
                 target_seq = sequence[i - target_length:i + 3]
+                if strand == -1:
+                    tar_start = end - (i + 2)
+                    tar_end = end - (i - target_length)
+                    #seq_in_ref = ''.join([complement[base] for base in target_seq])[::-1]
+                else:
+                    tar_start = start + i - target_length
+                    tar_end = start + i + 3 - 1
+                    #seq_in_ref = target_seq
                 gRNA = ''.join([dnatorna[base] for base in sequence[i - target_length:i]])
                 targets.append([target_seq, gRNA, chr, str(tar_start), str(tar_end), str(strand), transcript_id, exon_id])
                 if gene_sequence:
                     all_gene_sequences.append(gene_sequence)  # Add this gene sequence to the list
                     start = exon['start']
+                    end = exon['end']
                     strand = exon['strand']
                     chr = exon['seq_region_name']
+                    targets = find_crispr_targets(gene_sequence, chr, start, end, strand, transcript_id, exon_id)
                     if targets:
                         # Predict on-target efficiency for each gRNA site
                         formatted_data = format_prediction_output(targets, model_path)