Spaces:

asadAbdullah
/

GeneticDisorder

Sleeping

asadAbdullah commited on 12 days ago

Commit

e0c3387

•

1 Parent(s): 6feb2e4

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -2,7 +2,9 @@
 import os
 import pandas as pd
 import streamlit as st
-from transformers import DistilBertTokenizer, DistilBertForSequenceClassification
 from transformers import pipeline
 from sentence_transformers import SentenceTransformer, util
 import requests
@@ -18,8 +20,28 @@ except FileNotFoundError:
     st.error("Dataset file not found. Please upload it to this directory.")
 # Load DistilBERT Tokenizer and Model
-tokenizer = DistilBertTokenizer.from_pretrained('distilbert-base-uncased')
-model = DistilBertForSequenceClassification.from_pretrained('distilbert-base-uncased')
 # Preprocessing the dataset (if needed)
 if 'combined_description' not in data.columns:

 import os
 import pandas as pd
 import streamlit as st
+# from transformers import DistilBertTokenizer, DistilBertForSequenceClassification
+from transformers import DistilBertTokenizerFast, DistilBertForSequenceClassification
 from transformers import pipeline
 from sentence_transformers import SentenceTransformer, util
 import requests
     st.error("Dataset file not found. Please upload it to this directory.")
 # Load DistilBERT Tokenizer and Model
+# tokenizer = DistilBertTokenizer.from_pretrained('distilbert-base-uncased')
+# model = DistilBertForSequenceClassification.from_pretrained('distilbert-base-uncased')
+# Load DistilBERT tokenizer and model (without classification layer)
+tokenizer = DistilBertTokenizerFast.from_pretrained("distilbert-base-uncased")
+model = DistilBertModel.from_pretrained("distilbert-base-uncased")
+query = "What is fructose-1,6-bisphosphatase deficiency?"
+# Tokenize input
+inputs = tokenizer(query, return_tensors="pt", padding=True, truncation=True)
+# Get model output (embeddings)
+with torch.no_grad():
+    outputs = model(**inputs)
+# Extract embeddings (last hidden state)
+embeddings = outputs.last_hidden_state.mean(dim=1)  # Averaging over token embeddings
+# Use the embeddings for further processing or retrieval
+print(embeddings)
 # Preprocessing the dataset (if needed)
 if 'combined_description' not in data.columns: