Spaces:

PharC
/

FasterPrimer

Sleeping

App Files Files Community

PharC commited on Jan 4

Commit

0c0b2b6

verified ·

1 Parent(s): 4bedae3

Update app.py

Browse files

Files changed (1) hide show

app.py +20 -37

app.py CHANGED Viewed

@@ -15,7 +15,7 @@ def get_ready_for_primers(gene_symbol, species="human"):
     Entrez.email = "your_email@example.com"
     try:
-        # 1. 搜索基因
         search_term = f"{gene_symbol}[Gene Name] AND {species}[Organism] AND alive[prop]"
         handle = Entrez.esearch(db="gene", term=search_term)
         record = Entrez.read(handle)
@@ -23,47 +23,28 @@ def get_ready_for_primers(gene_symbol, species="human"):
             return {"error": f"未找到基因: {gene_symbol}"}
         gene_id = record["IdList"][0]
-        # 2. 获取关联序列
-        # 注意：不再使用 term，避免 NCBI 内部过滤器的不确定性
-        link_handle = Entrez.elink(dbfrom="gene", db="nucleotide", id=gene_id)
         link_record = Entrez.read(link_handle)
-        # 3. 筛选高质量的 RefSeq 序列 (NM_ 或 NR_)
-        all_ids = []
-        for link_set in link_record[0].get("LinkSetDb", []):
-            if "nucleotide" in link_set["DbTo"]:
-                all_ids.extend([link["Id"] for link in link_set["Link"]])
-        if not all_ids:
-            return {"error": "找不到关联序列"}
-        # 使用 esummary 批量检查这些 ID 哪个是我们要的 RefSeq 转录本
-        summary_handle = Entrez.esummary(db="nucleotide", id=",".join(all_ids))
-        summaries = Entrez.read(summary_handle)
-        nucl_id = None
-        for summary in summaries:
-            accession = summary.get('Caption', '')
-            # 关键：只选择以 NM_ (编码) 或 NR_ (非编码) 开头的 RefSeq 序列
-            if accession.startswith('NM_') or accession.startswith('NR_'):
-                nucl_id = summary['Id']
-                break
-        # 如果没找到 NM/NR，退而求其次找 XM/XR (预测的转录本)
-        if not nucl_id:
-            for summary in summaries:
-                if summary.get('Caption', '').startswith(('XM_', 'XR_')):
-                    nucl_id = summary['Id']
-                    break
-        if not nucl_id:
-            return {"error": f"基因 {gene_symbol} 找不到标准的 RefSeq 转录本 (NM_/NR_)"}
-        # 4. 下载并解析序列
         handle = Entrez.efetch(db="nucleotide", id=nucl_id, rettype="gb", retmode="text")
         seq_record = SeqIO.read(handle, "genbank")
-        # 5. 提取外显子
         junctions = []
         current_pos = 0
         for feature in seq_record.features:
@@ -72,7 +53,8 @@ def get_ready_for_primers(gene_symbol, species="human"):
                 current_pos += (end - start)
                 junctions.append(int(current_pos))
-        if junctions: junctions.pop()
         return {
             "symbol": gene_symbol,
@@ -81,7 +63,8 @@ def get_ready_for_primers(gene_symbol, species="human"):
             "junctions": junctions
         }
     except Exception as e:
-        return {"error": f"处理出错: {str(e)}"}
 def design_qpcr_primers(gene_data):
     """设计qPCR引物，包含失败重试机制"""

     Entrez.email = "your_email@example.com"
     try:
+        # 1. 搜索基因 ID (保持不变)
         search_term = f"{gene_symbol}[Gene Name] AND {species}[Organism] AND alive[prop]"
         handle = Entrez.esearch(db="gene", term=search_term)
         record = Entrez.read(handle)
             return {"error": f"未找到基因: {gene_symbol}"}
         gene_id = record["IdList"][0]
+        # 2. 获取核苷酸 ID
+        # 核心修复点：使用 "refseq[filter] AND RNA[filter]"
+        # 这会同时命中 NM_ (mRNA) 和 NR_ (ncRNA)，且排除掉染色体大片段
+        link_handle = Entrez.elink(
+            dbfrom="gene",
+            db="nucleotide",
+            id=gene_id,
+            term="refseq[filter] AND RNA[filter]"
+        )
         link_record = Entrez.read(link_handle)
+        # 检查是否有返回结果，防止 list index out of range
+        if not link_record[0]["LinkSetDb"]:
+            return {"error": f"基因 {gene_symbol} 找不到标准的 RefSeq 转录本"}
+        nucl_id = link_record[0]["LinkSetDb"][0]["Link"][0]["Id"]
+        # 3. 下载并解析 (恢复你最开始的版本)
         handle = Entrez.efetch(db="nucleotide", id=nucl_id, rettype="gb", retmode="text")
         seq_record = SeqIO.read(handle, "genbank")
+        # 4. 提取外显子
         junctions = []
         current_pos = 0
         for feature in seq_record.features:
                 current_pos += (end - start)
                 junctions.append(int(current_pos))
+        if junctions:
+            junctions.pop() # 最后一个点不是交界点
         return {
             "symbol": gene_symbol,
             "junctions": junctions
         }
     except Exception as e:
+        # 这里的报错能帮我们准确定位是哪一步出的错
+        return {"error": f"获取 {gene_symbol} 失败: {str(e)}"}
 def design_qpcr_primers(gene_data):
     """设计qPCR引物，包含失败重试机制"""