Spaces:

VyLala
/

mtDNALocation

Running

File size: 16,591 Bytes

from Bio import Entrez, Medline
#import model
import mtdna_classifier
from NER.html import extractHTML
import data_preprocess
import pipeline
import aiohttp
import asyncio
# Setup
def fetch_ncbi(accession_number):
  try:
    Entrez.email = "your.email@example.com" # Required by NCBI, REPLACE WITH YOUR EMAIL
    handle = Entrez.efetch(db="nucleotide", id=str(accession_number), rettype="gb", retmode="xml")
    record = Entrez.read(handle)
    handle.close()
    outputs = {"authors":"unknown",
              "institution":"unknown",
              "isolate":"unknown",
              "definition":"unknown",
              "title":"unknown",
              "seq_comment":"unknown",
              "collection_date":"unknown" } #'GBSeq_update-date': '25-OCT-2023', 'GBSeq_create-date' 
    gb_seq = None
    # Validate record structure: It should be a list with at least one element (a dict)
    if isinstance(record, list) and len(record) > 0:
        if isinstance(record[0], dict):
            gb_seq = record[0]
        else:
            print(f"Warning: record[0] is not a dictionary for {accession_number}. Type: {type(record[0])}")
        # extract collection date  
        if "GBSeq_create-date" in gb_seq and outputs["collection_date"]=="unknown":
          outputs["collection_date"] = gb_seq["GBSeq_create-date"]
        else:
          if "GBSeq_update-date" in gb_seq and outputs["collection_date"]=="unknown":
            outputs["collection_date"] = gb_seq["GBSeq_update-date"]
        # extract definition
        if "GBSeq_definition" in gb_seq and outputs["definition"]=="unknown":
          outputs["definition"] = gb_seq["GBSeq_definition"]
        # extract related-reference things
        if "GBSeq_references" in gb_seq:
          for ref in gb_seq["GBSeq_references"]:
            # extract authors
            if "GBReference_authors" in ref and outputs["authors"]=="unknown":
              outputs["authors"] = "and ".join(ref["GBReference_authors"])
            # extract title
            if "GBReference_title" in ref and outputs["title"]=="unknown":
              outputs["title"] = ref["GBReference_title"]  
            #  extract submitted journal
            if 'GBReference_journal' in ref and outputs["institution"]=="unknown":
              outputs["institution"] = ref['GBReference_journal']
        # extract seq_comment
        if 'GBSeq_comment'in gb_seq and outputs["seq_comment"]=="unknown":
          outputs["seq_comment"] = gb_seq["GBSeq_comment"]
        # extract isolate
        if "GBSeq_feature-table" in gb_seq:
          if 'GBFeature_quals' in gb_seq["GBSeq_feature-table"][0]:
            for ref in gb_seq["GBSeq_feature-table"][0]["GBFeature_quals"]:
              if ref['GBQualifier_name'] == "isolate" and outputs["isolate"]=="unknown":
                outputs["isolate"] = ref["GBQualifier_value"]
    else:
        print(f"Warning: No valid record or empty record list from NCBI for {accession_number}.")

    # If gb_seq is still None, return defaults
    if gb_seq is None:
        return {"authors":"unknown",
              "institution":"unknown",
              "isolate":"unknown",
              "definition":"unknown",
              "title":"unknown",
              "seq_comment":"unknown",
              "collection_date":"unknown" }
    return outputs   
  except:
    print("error in fetching ncbi data")   
    return {"authors":"unknown",
              "institution":"unknown",
              "isolate":"unknown",
              "definition":"unknown",
              "title":"unknown",
              "seq_comment":"unknown",
              "collection_date":"unknown" }
# Fallback if NCBI crashed or cannot find accession on NBCI
def google_accession_search(accession_id):
    """

    Search for metadata by accession ID using Google Custom Search.

    Falls back to known biological databases and archives.

    """
    queries = [
        f"{accession_id}",
        f"{accession_id} site:ncbi.nlm.nih.gov",
        f"{accession_id} site:pubmed.ncbi.nlm.nih.gov",
        f"{accession_id} site:europepmc.org",
        f"{accession_id} site:researchgate.net",
        f"{accession_id} mtDNA",
        f"{accession_id} mitochondrial DNA"
    ]
    
    links = []
    for query in queries:
        search_results = mtdna_classifier.search_google_custom(query, 2)
        for link in search_results:
            if link not in links:
                links.append(link)
    return links
             
# Method 1: Smarter Google
def smart_google_queries(metadata: dict):
    queries = []

    # Extract useful fields
    isolate = metadata.get("isolate")
    author = metadata.get("authors")
    institution = metadata.get("institution")
    title = metadata.get("title")
    combined = []
    # Construct queries
    if isolate and isolate!="unknown" and isolate!="Unpublished":
        queries.append(f'"{isolate}" mitochondrial DNA')
        queries.append(f'"{isolate}" site:ncbi.nlm.nih.gov')
        
    if author and author!="unknown" and author!="Unpublished":
        # try:
        #   author_name = ".".join(author.split(' ')[0].split(".")[:-1])  # Use last name only
        # except:
        #   try:
        #     author_name = author.split(',')[0]  # Use last name only
        #   except:  
        #     author_name = author
        try:
            author_name = author.split(',')[0]  # Use last name only
        except:  
            author_name = author
        queries.append(f'"{author_name}" mitochondrial DNA')
        queries.append(f'"{author_name}" mtDNA site:researchgate.net')
        
    if institution and institution!="unknown" and institution!="Unpublished":
        try:
          short_inst = ",".join(institution.split(',')[:2])  # Take first part of institution
        except:
          try:
            short_inst = institution.split(',')[0]
          except:
            short_inst = institution
        queries.append(f'"{short_inst}" mtDNA sequence')
        #queries.append(f'"{short_inst}" isolate site:nature.com')
    if title and title!='unknown' and title!="Unpublished":
      if title!="Direct Submission":
        queries.append(title)  
          
    return queries

# def filter_links_by_metadata(search_results, saveLinkFolder, accession=None, stop_flag=None):
#     TRUSTED_DOMAINS = [
#     "ncbi.nlm.nih.gov",
#     "pubmed.ncbi.nlm.nih.gov",
#     "pmc.ncbi.nlm.nih.gov",
#     "biorxiv.org",
#     "researchgate.net",
#     "nature.com",
#     "sciencedirect.com"
#     ]
#     if stop_flag is not None and stop_flag.value:
#         print(f"🛑 Stop detected {accession}, aborting early...")
#         return []
#     def is_trusted_link(link):
#       for domain in TRUSTED_DOMAINS:
#         if domain in link:
#           return True
#       return False
#     def is_relevant_title_snippet(link, saveLinkFolder, accession=None):
#       output = []
#       keywords = ["mtDNA", "mitochondrial", "accession", "isolate", "Homo sapiens", "sequence"]
#       if accession:
#         keywords = [accession] + keywords
#       title_snippet = link.lower()
#       print("save link folder inside this filter function: ", saveLinkFolder)  
#       success_process, output_process = pipeline.run_with_timeout(data_preprocess.extract_text,args=(link,saveLinkFolder),timeout=60)
#       if stop_flag is not None and stop_flag.value:
#         print(f"🛑 Stop detected {accession}, aborting early...")
#         return []
#       if success_process:
#           article_text = output_process
#           print("yes succeed for getting article text")
#       else: 
#           print("no suceed, fallback to no link")
#           article_text = ""  
#       #article_text = data_preprocess.extract_text(link,saveLinkFolder)
#       print("article text")
#       #print(article_text)  
#       if stop_flag is not None and stop_flag.value:
#         print(f"🛑 Stop detected {accession}, aborting early...")
#         return []  
#       try:
#         ext = link.split(".")[-1].lower()
#         if ext not in ["pdf", "docx", "xlsx"]:
#             html = extractHTML.HTML("", link)
#             if stop_flag is not None and stop_flag.value:
#                 print(f"🛑 Stop detected {accession}, aborting early...")
#                 return []
#             jsonSM = html.getSupMaterial()
#             if jsonSM:
#                 output += sum((jsonSM[key] for key in jsonSM), [])
#       except Exception:
#         pass  # continue silently
#       for keyword in keywords:
#         if keyword.lower() in article_text.lower():
#           if link not in output:
#             output.append([link,keyword.lower()])
#           print("link and keyword for article text: ", link, keyword)    
#           return output
#         if keyword.lower() in title_snippet.lower():
#           if link not in output:
#             output.append([link,keyword.lower()])
#           print("link and keyword for title: ", link, keyword)    
#           return output
#       return output
    
#     filtered = []
#     better_filter = []
#     if len(search_results) > 0:
#       for link in search_results:
#           # if is_trusted_link(link):
#           #   if link not in filtered:
#           #     filtered.append(link)
#           # else:
#           print(link)
#           if stop_flag is not None and stop_flag.value:
#             print(f"🛑 Stop detected {accession}, aborting early...")
#             return []
#           if link:    
#             output_link = is_relevant_title_snippet(link,saveLinkFolder, accession)
#             print("output link: ")
#             print(output_link)
#             for out_link in output_link:
#               if isinstance(out_link,list) and len(out_link) > 1:
#                 print(out_link)
#                 kw = out_link[1]
#                 print("kw and acc: ", kw, accession.lower())  
#                 if accession and kw == accession.lower():
#                   better_filter.append(out_link[0])
#                 filtered.append(out_link[0])
#               else: filtered.append(out_link)
#           print("done with link and here is filter: ",filtered)      
#     if better_filter:
#       filtered = better_filter      
#     return filtered
async def process_link(session, link, saveLinkFolder, keywords, accession):
    output = []
    title_snippet = link.lower()

    # use async extractor for web, fallback to sync for local files
    if link.startswith("http"):
        article_text = await data_preprocess.async_extract_text(link, saveLinkFolder)
    else:
        article_text = data_preprocess.extract_text(link, saveLinkFolder)

    for keyword in keywords:
        if article_text and keyword.lower() in article_text.lower():
            output.append([link, keyword.lower(), article_text])
            return output
        if keyword.lower() in title_snippet:
            output.append([link, keyword.lower()])
            return output
    return output

async def async_filter_links_by_metadata(search_results, saveLinkFolder, accession=None):
    TRUSTED_DOMAINS = [
        "ncbi.nlm.nih.gov", "pubmed.ncbi.nlm.nih.gov", "pmc.ncbi.nlm.nih.gov",
        "biorxiv.org", "researchgate.net", "nature.com", "sciencedirect.com"
    ]

    keywords = ["mtDNA", "mitochondrial", "accession", "isolate", "Homo sapiens", "sequence"]
    if accession:
        keywords = [accession] + keywords

    filtered, better_filter = {}, {}
    print("before doing session")
    async with aiohttp.ClientSession() as session:
        tasks = []
        for link in search_results:
            if link:
                print("link: ", link)
                tasks.append(process_link(session, link, saveLinkFolder, keywords, accession))
                print("done")
        results = await asyncio.gather(*tasks)
        print("outside session")
    # merge results
    for output_link in results:
        for out_link in output_link:
            if isinstance(out_link, list) and len(out_link) > 1:
                kw = out_link[1]
                if accession and kw == accession.lower():
                    if len(out_link) == 2:
                        better_filter[out_link[0]] = ""
                    elif len(out_link) == 3:
                        better_filter[out_link[0]] = out_link[2]
                if len(out_link) == 2:
                    better_filter[out_link[0]] = ""
                elif len(out_link) == 3:
                    better_filter[out_link[0]] = out_link[2]
            else:
                filtered[out_link] = ""

    return better_filter or filtered

def filter_links_by_metadata(search_results, saveLinkFolder, accession=None):
    TRUSTED_DOMAINS = [
    "ncbi.nlm.nih.gov",
    "pubmed.ncbi.nlm.nih.gov",
    "pmc.ncbi.nlm.nih.gov",
    "biorxiv.org",
    "researchgate.net",
    "nature.com",
    "sciencedirect.com"
    ]
    def is_trusted_link(link):
      for domain in TRUSTED_DOMAINS:
        if domain in link:
          return True
      return False
    def is_relevant_title_snippet(link, saveLinkFolder, accession=None):
      output = []
      keywords = ["mtDNA", "mitochondrial", "Homo sapiens"]
      #keywords = ["mtDNA", "mitochondrial"]
      if accession:
        keywords = [accession] + keywords
      title_snippet = link.lower()
      #print("save link folder inside this filter function: ", saveLinkFolder)  
      article_text = data_preprocess.extract_text(link,saveLinkFolder)
      print("article text done")
      #print(article_text)  
      try:
        ext = link.split(".")[-1].lower()
        if ext not in ["pdf", "docx", "xlsx"]:
            html = extractHTML.HTML("", link)
            jsonSM = html.getSupMaterial()
            if jsonSM:
                output += sum((jsonSM[key] for key in jsonSM), [])
      except Exception:
        pass  # continue silently
      for keyword in keywords:
        if article_text:
          if keyword.lower() in article_text.lower():
            if link not in output:
              output.append([link,keyword.lower(), article_text])
            return output
        if keyword.lower() in title_snippet.lower():
          if link not in output:
            output.append([link,keyword.lower()])
          print("link and keyword for title: ", link, keyword)    
          return output
      return output
    
    filtered = {}
    better_filter = {}
    if len(search_results) > 0:
      print(search_results)
      for link in search_results:
          # if is_trusted_link(link):
          #   if link not in filtered:
          #     filtered.append(link)
          # else:
          print(link)
          if link:    
            output_link = is_relevant_title_snippet(link,saveLinkFolder, accession)
            print("output link: ")
            print(output_link)
            for out_link in output_link:
              if isinstance(out_link,list) and len(out_link) > 1:
                print(out_link)
                kw = out_link[1]
                if accession and kw == accession.lower():
                  if len(out_link) == 2:
                    better_filter[out_link[0]] = ""
                  elif len(out_link) == 3:
                    # save article
                    better_filter[out_link[0]] = out_link[2]
                if len(out_link) == 2:
                  better_filter[out_link[0]] = ""
                elif len(out_link) == 3:
                  # save article
                  better_filter[out_link[0]] = out_link[2]
              else: filtered[out_link] = ""
          print("done with link and here is filter: ",filtered)      
    if better_filter:
      filtered = better_filter                  
    return filtered

def smart_google_search(metadata):
  queries = smart_google_queries(metadata)
  links = []
  for q in queries:
      #print("\n🔍 Query:", q)
      results = mtdna_classifier.search_google_custom(q,2)
      for link in results:
          #print(f"- {link}")
          if link not in links:
              links.append(link)
  #filter_links = filter_links_by_metadata(links)
  return links
# Method 2: Prompt LLM better or better ai search api with all
# the total information from even ncbi and all search