Spaces:

nbroad
/

voice-queries-clinical-trials

Runtime error

App Files Files Community

nbroad HF staff commited on Jun 7, 2022

Commit

e693db5

•

1 Parent(s): abe434f

first commit

Browse files

Files changed (4) hide show

README.md +30 -6
app.py +93 -0
packages.txt +2 -0
requirements.txt +7 -0

README.md CHANGED Viewed

@@ -1,13 +1,37 @@
 ---
-title: Voice Querires Clinical Trials
-emoji: 💩
 colorFrom: green
-colorTo: blue
 sdk: gradio
-sdk_version: 3.0.12
 app_file: app.py
 pinned: false
-license: apache-2.0
 ---
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

 ---
+title: Voice Queries on Financial Documents
+emoji: 🎙
 colorFrom: green
+colorTo: yellow
 sdk: gradio
 app_file: app.py
 pinned: false
 ---
+# Configuration
+`title`: _string_
+Display title for the Space
+`emoji`: _string_
+Space emoji (emoji-only character allowed)
+`colorFrom`: _string_
+Color for Thumbnail gradient (red, yellow, green, blue, indigo, purple, pink, gray)
+`colorTo`: _string_
+Color for Thumbnail gradient (red, yellow, green, blue, indigo, purple, pink, gray)
+`sdk`: _string_
+Can be either `gradio` or `streamlit`
+`sdk_version` : _string_
+Only applicable for `streamlit` SDK.
+See [doc](https://hf.co/docs/hub/spaces) for more info on supported versions.
+`app_file`: _string_
+Path to your main application file (which contains either `gradio` or `streamlit` Python code).
+Path is relative to the root of the repository.
+`pinned`: _boolean_
+Whether the Space stays on top of your list.

app.py ADDED Viewed

	@@ -0,0 +1,93 @@

+import pickle
+import pandas as pd
+import gradio as gr
+import numpy as np
+from sentence_transformers import SentenceTransformer, util
+from transformers import pipeline, Wav2Vec2ProcessorWithLM
+from librosa import load, resample
+# Constants
+model_name = 'sentence-transformers/msmarco-distilbert-base-v4'
+max_sequence_length = 512
+# Load corpus
+import subprocess
+subprocess.run(["gdown", "1QVpyk_xyqNYrHT3NdUfBxbDV_eyCDa2Q"])
+with open("embeddings.pkl", "rb") as fp:
+    pickled_data = pickle.load(fp)
+    sentences = pickled_data['sentences']
+    corpus_embeddings = pickled_data['embeddings']
+print(f'Number of documents: {len(sentences)}')
+# Load pre-embedded corpus
+print(f'Number of embeddings: {corpus_embeddings.shape[0]}')
+# Load embedding model
+model = SentenceTransformer(model_name)
+model.max_seq_length = max_sequence_length
+# Load speech to text model
+asr_model = "patrickvonplaten/wav2vec2-base-960h-4-gram"
+processor = Wav2Vec2ProcessorWithLM.from_pretrained(asr_model)
+asr = pipeline(
+    "automatic-speech-recognition",
+    model=asr_model,
+    tokenizer=processor.tokenizer,
+    feature_extractor=processor.feature_extractor,
+    decoder=processor.decoder,
+)
+def find_sentences(query, hits):
+    query_embedding = model.encode(query)
+    hits = util.semantic_search(query_embedding, corpus_embeddings, top_k=hits)
+    hits = hits[0]
+    output_texts = []
+    output_scores = []
+    for hit in hits:
+        # Find source document based on sentence index
+        output_texts.append(sentences[hit['corpus_id']])
+        output_scores.append(hit['score'])
+    return pd.DataFrame(data={"Text": output_texts, "Score": output_scores})
+def process(input_selection, query, filepath, hits):
+	if input_selection=='speech':
+		speech, sampling_rate = load(filepath)
+		if sampling_rate != 16000:
+			speech = resample(speech, sampling_rate, 16000)
+		text = asr(speech)['text']
+	else:
+		text = query
+	return text, find_sentences(text, hits)
+# Gradio inputs
+buttons    = gr.inputs.Radio(['text','speech'], type='value', default='speech', label='Input selection')
+text_query = gr.inputs.Textbox(lines=1, label='Text input', default='breast cancer biomarkers')
+mic        = gr.inputs.Audio(source='microphone', type='filepath', label='Speech input', optional=True)
+slider     = gr.inputs.Slider(minimum=1, maximum=10, step=1, default=3, label='Number of hits')
+# Gradio outputs
+speech_query = gr.outputs.Textbox(type='auto', label='Query string')
+results      = gr.outputs.Dataframe(
+				headers=['Text', 'Score'],
+				label='Query results')
+iface = gr.Interface(
+	theme='huggingface',
+	description='This Space lets you query a text corpus containing 50,000 random clinical trial descriptions',
+	fn=process,
+        layout='horizontal',
+	inputs=[buttons,text_query,mic,slider],
+	outputs=[speech_query, results],
+	examples=[
+		['text', "breast cancer biomarkers", 'dummy.wav', 3],
+    ],
+    allow_flagging=False
+)
+iface.launch()

packages.txt ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ libsndfile1
2	+ ffmpeg

requirements.txt ADDED Viewed

	@@ -0,0 +1,7 @@

+torch
+transformers
+pandas
+numpy
+sentence-transformers
+librosa
+gdown