Spaces:

dell-research-harvard
/

newsdejavu

Sleeping

App Files Files Community

newsdejavu / app.py

tombryan

Inital commit for ndjv app

207077e 4 months ago

raw

history blame

No virus

4.84 kB

	import gradio as gr
	import numpy as np
	import os
	import requests
	from transformers import pipeline, AutoModelForTokenClassification, AutoTokenizer
	from sentence_transformers import SentenceTransformer

	from typing import List

	NER_MODEL_PATH = 'dell-research-harvard/historical_newspaper_ner'
	EMBED_MODEL_PATH = 'dell-research-harvard/same-story'
	AZURE_VM_ALABAMA = os.environ.get('AZURE_VM_ALABAMA')


	def find_sep_token(tokenizer):

	"""
	Returns sep token for given tokenizer
	"""

	if 'eos_token' in tokenizer.special_tokens_map:
	sep = " " + tokenizer.special_tokens_map['eos_token'] + " " + tokenizer.special_tokens_map['sep_token'] + " "
	else:
	sep = " " + tokenizer.special_tokens_map['sep_token'] + " "

	return sep


	def find_mask_token(tokenizer):
	"""
	Returns mask token for given tokenizer

	"""
	mask_tok = tokenizer.special_tokens_map['mask_token']

	return mask_tok


	if gr.NO_RELOAD:
	ner_model=AutoModelForTokenClassification.from_pretrained(NER_MODEL_PATH)
	ner_tokenizer=AutoTokenizer.from_pretrained(NER_MODEL_PATH, return_tensors = "pt",
	max_length=256, truncation = True)
	token_classifier = pipeline(task = "ner",
	model = ner_model, tokenizer = ner_tokenizer,
	ignore_labels = [], aggregation_strategy='max')

	embedding_tokenizer = AutoTokenizer.from_pretrained(EMBED_MODEL_PATH)
	embedding_model = SentenceTransformer(EMBED_MODEL_PATH)
	embed_mask_tok = find_mask_token(embedding_tokenizer)
	embed_sep_tok = find_sep_token(embedding_tokenizer)

	# with open(REF_INDEX_PATH, 'r') as f:
	# news_paths = [l.strip() for l in f.readlines()]


	def handle_punctuation_for_generic_mask(word):
	"""If punctuation comes before the word, return it before the mask, ow return it after the mask"""

	if word[0] in [".",",","!","?"]:
	return word[0] + " [MASK]"
	elif word[-1] in [".",",","!","?"]:
	return "[MASK]" + word[-1]
	else:
	return "[MASK]"

	def handle_punctuation_for_entity_mask(word,entity_group):
	"""If punctuation comes before the word, return it before the mask, ow return it after the mask - this is for specific entity masks"""

	if word[0] in [".",",","!","?"]:
	return word[0]+" "+entity_group
	elif word[-1] in [".",",","!","?"]:
	return entity_group+word[-1]
	else:
	return entity_group


	def replace_words_with_entity_tokens(ner_output_dict: List[dict],
	desired_labels: List[str] = ['PER', 'ORG', 'LOC', 'MISC'],
	all_masks_same: bool = True) -> str:

	if not all_masks_same:
	new_word_list=[subdict["word"] if subdict["entity_group"] not in desired_labels else handle_punctuation_for_entity_mask(subdict["word"],subdict["entity_group"]) for subdict in ner_output_dict]
	else:
	new_word_list=[subdict["word"] if subdict["entity_group"] not in desired_labels else handle_punctuation_for_generic_mask(subdict["word"]) for subdict in ner_output_dict]

	return " ".join(new_word_list)

	def mask(ner_output_list: List[List[dict]], desired_labels: List[str] = ['PER', 'ORG', 'LOC', 'MISC'],
	all_masks_same: bool = True) -> List[str]:

	return replace_words_with_entity_tokens(ner_output_list, desired_labels, all_masks_same)


	def ner(text: List[str]) -> List[str]:
	results = token_classifier(text)
	return results[0]

	def ner_and_mask(text: List[str], labels_to_mask: List[str] = ['PER', 'ORG', 'LOC', 'MISC'], all_masks_same: bool = True) -> List[str]:
	ner_output_list = ner(text)

	return mask(ner_output_list, labels_to_mask, all_masks_same)


	def embed(text: str) -> List[str]:
	data = []
	# Correct [MASK] token for tokenizer
	text = text.replace('[MASK]', embed_mask_tok)
	text = text.replace('[SEP]', embed_sep_tok)
	data.append(text)

	embedding = embedding_model.encode(data, show_progress_bar = False, batch_size = 1)
	embedding = embedding / np.linalg.norm(embedding, axis = 1, keepdims = True)

	return embedding

	def query(sentence: str) -> List[str]:
	mask_results = ner_and_mask([sentence])
	embedding = embed(mask_results)

	assert embedding.shape == (1, 768)
	embedding = embedding[0].astype(np.float64)
	req = {"vector": list(embedding), 'nn': 5}

	# Send embedding to Azure VM
	response = requests.post(f"http://{AZURE_VM_ALABAMA}/retrieve", json = req)
	doc = response.json()
	article = doc['bboxes'][doc['article_id']]
	return article['raw_text']


	if __name__ == "__main__":
	demo = gr.Interface(
	fn=query,
	inputs=["text"],
	outputs=["text"],
	)

	demo.launch()