Spaces:

thankrandomness
/

mimic-iii-retrieval-matryoshka

Paused

thankrandomness commited on Jun 2

Commit

9f09d69

•

1 Parent(s): f2ca0de

split data

Files changed (2) hide show

app.py CHANGED Viewed

@@ -1,6 +1,6 @@
 import os
 import torch
-from datasets import load_dataset
 from transformers import AutoTokenizer, AutoModel
 import chromadb
 import gradio as gr
@@ -15,6 +15,13 @@ def meanpooling(output, mask):
 # Load the dataset
 dataset = load_dataset("thankrandomness/mimic-iii-sample")
 # Load the model and tokenizer
 tokenizer = AutoTokenizer.from_pretrained("neuml/pubmedbert-base-embeddings-matryoshka")
 model = AutoModel.from_pretrained("neuml/pubmedbert-base-embeddings-matryoshka")

 import os
 import torch
+from datasets import load_dataset, DatasetDict
 from transformers import AutoTokenizer, AutoModel
 import chromadb
 import gradio as gr
 # Load the dataset
 dataset = load_dataset("thankrandomness/mimic-iii-sample")
+# Split the dataset into train and validation sets
+split_dataset = dataset['train'].train_test_split(test_size=0.2, seed=42)
+dataset = DatasetDict({
+    'train': split_dataset['train'],
+    'validation': split_dataset['test']
+})
 # Load the model and tokenizer
 tokenizer = AutoTokenizer.from_pretrained("neuml/pubmedbert-base-embeddings-matryoshka")
 model = AutoModel.from_pretrained("neuml/pubmedbert-base-embeddings-matryoshka")

requirements.txt CHANGED Viewed

@@ -1,5 +1,6 @@
 torch
 transformers
 chromadb
 gradio
 numpy

 torch
 transformers
+datasets
 chromadb
 gradio
 numpy