Spaces:

feragru
/

ai4foia_streamlit

Sleeping

Fer Aguirre

Initial commit

998cded over 2 years ago

2.5 kB

	import streamlit as st
	import pandas as pd
	from datasets import Dataset
	from sentence_transformers import SentenceTransformer
	from sentence_transformers.util import semantic_search
	import torch

	model = SentenceTransformer("sentence-transformers/gtr-t5-large")


	# Read files
	url = "https://gist.githubusercontent.com/fer-aguirre/b6bdcf59ecae41f84765f72114de9fd1/raw/b4e029fe236c1f38275621686429b2c7aaa3d18b/embeddings.csv"

	df_emb = pd.read_csv(url, index_col=0)

	df = pd.read_csv('./foia_sample.csv')

	dataset = Dataset.from_pandas(df_emb)

	dataset_embeddings = torch.from_numpy(dataset.to_pandas().to_numpy()).to(torch.float)

	st.markdown("Inserta una solicitud de información para generar recomendaciones de dependencias")

	if request := st.text_area("", value=""):

	output = model.encode(request)

	query_embeddings = torch.FloatTensor(output)

	hits = semantic_search(query_embeddings, dataset_embeddings, top_k=3)

	id1 = hits[0][0]['corpus_id']
	id2 = hits[0][1]['corpus_id']
	id3 = hits[0][2]['corpus_id']

	rec1 = df.iloc[id1].str.split(pat="/")[0]
	rec2 = df.iloc[id2].str.split(pat="/")[0]
	rec3 = df.iloc[id3].str.split(pat="/")[0]

	list_rec = [rec1, rec2, rec3]
	unique_list = []
	for string in list_rec:
	if string not in unique_list:
	unique_list.append(string)
	st.markdown(f'Recomendaciones:')
	for rec in unique_list:
	st.markdown(f':green[{rec[0]}]')

	st.markdown("""---""")

	if st.button('Genera un ejemplo random'):

	test_example = df['combined'].sample(n=1)
	index = test_example.index
	idx = index[0]

	original = df.iloc[idx].str.split(pat="/")[0]

	request = test_example.to_string(index=False)

	st.text(f'{idx}, {request}')

	output = model.encode(request)

	query_embeddings = torch.FloatTensor(output)

	hits = semantic_search(query_embeddings, dataset_embeddings, top_k=3)

	id1 = hits[0][0]['corpus_id']
	id2 = hits[0][1]['corpus_id']
	id3 = hits[0][2]['corpus_id']

	rec1 = df.iloc[id1].str.split(pat="/")[0]
	rec2 = df.iloc[id2].str.split(pat="/")[0]
	rec3 = df.iloc[id3].str.split(pat="/")[0]

	list_rec = [rec1, rec2, rec3]
	unique_list = []
	for string in list_rec:
	if string not in unique_list:
	unique_list.append(string)
	st.markdown(f'Recomendaciones:')
	for rec in unique_list:
	st.markdown(f':green[{rec[0]}]')
	st.markdown(f'Dependencia original:')
	st.markdown(f':red[{original[0]}]')