Spaces:

julylun
/

LanThySpace

Runtime error

julylun commited on Nov 27, 2024

Commit

d7df580

1 Parent(s): 2612890

REUPLOAD

Files changed (2) hide show

app.py CHANGED Viewed

@@ -1,28 +1,30 @@
-import gradio as gr
-from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
-# Load model and tokenizer
-model_name = "castorini/monot5-small-msmarco-10k"
-tokenizer = AutoTokenizer.from_pretrained(model_name)
-model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
-# Define reranking function
-def rerank(query, documents):
-    documents = documents.split("\n")  # Split documents by newlines
-    reranked_results = []
-    for doc in documents:
-        # Combine query and document into a single input
-        input_text = f"Query: {query} Document: {doc} Relevant:"
-        inputs = tokenizer(input_text, return_tensors="pt", max_length=512, truncation=True)
-        outputs = model.generate(**inputs)
-        # Decode the output
-        relevance = tokenizer.decode(outputs[0], skip_special_tokens=True)
-        reranked_results.append((doc, relevance))
-    # Sort by relevance (assuming higher is better)
-    reranked_results.sort(key=lambda x: x[1], reverse=True)
-    return "\n".join([f"{doc} (Relevance: {rel})" for doc, rel in reranked_results])
 # Create Gradio interface
 interface = gr.Interface(

+import py_vncorenlp
+from sentence_transformers import CrossEncoder
+py_vncorenlp.download_model(save_dir='/absolute/path/to/vncorenlp')
+rdrsegmenter = py_vncorenlp.VnCoreNLP(annotators=["wseg"], save_dir='/absolute/path/to/vncorenlp')
+def rerank(query,sentences):
+    tokenized_query = rdrsegmenter.word_segment(query)
+    tokenized_sentences = [rdrsegmenter.word_segment(sent) for sent in sentences]
+    tokenized_pairs = [[tokenized_query, sent] for sent in tokenized_sentences]
+    MODEL_ID = 'itdainb/PhoRanker'
+    MAX_LENGTH = 512
+    model = CrossEncoder(MODEL_ID, max_length=MAX_LENGTH)
+    # For fp16 usage
+    model.model.half()
+    scores = model.predict(tokenized_pairs)
+    # 0.982, 0.2444, 0.9253
+    'print(scores)'
+    return scores
 # Create Gradio interface
 interface = gr.Interface(

requirements.txt CHANGED Viewed

@@ -2,3 +2,5 @@ transformers
 gradio
 torch
 tiktoken

 gradio
 torch
 tiktoken
+py_vncorenlp
+sentence-transformers