Spaces:

Unggi
/

kor_keybert_demo

Runtime error

App Files Files Community

kor_keybert_demo / app.py

Unggi

Update app.py

2a014dc over 1 year ago

raw history blame contribute delete

No virus

2.92 kB



	import numpy as np
	#import itertools

	from konlpy.tag import Okt
	from sklearn.feature_extraction.text import CountVectorizer
	from sklearn.metrics.pairwise import cosine_similarity
	import gradio as gr

	import pandas as pd

	# make function using import pip to install torch
	import pip
	#pip.main(['install', 'torch'])
	#pip.main(['install', 'transformers'])

	import torch
	import transformers

	from transformers import BertTokenizerFast
	from transformers import AutoModel

	def make_candiadte(prompt):
	okt = Okt()
	tokenized_doc = okt.pos(prompt)
	tokenized_nouns = ' '.join([word[0] for word in tokenized_doc if word[1] == 'Noun'])

	n_gram_range = (2, 3)

	count = CountVectorizer(ngram_range=n_gram_range).fit([tokenized_nouns])
	candidates = count.get_feature_names_out()

	return candidates


	# saved_model
	def load_model():

	pretrained_model_name = "kykim/bert-kor-base"

	tokenizer = BertTokenizerFast.from_pretrained(pretrained_model_name)
	model = AutoModel.from_pretrained("./bertmodel/")

	return model, tokenizer


	# main
	def inference(prompt):

	candidates = make_candiadte(prompt)

	model, tokenizer = load_model()

	input_ids = tokenizer.encode(prompt)
	input_ids = torch.tensor(input_ids).unsqueeze(0)

	doc_embedding = model(input_ids)["pooler_output"]

	top_n = 5

	words = []
	distances = []

	for word in candidates:
	input_ids = tokenizer.encode(word)
	input_ids = torch.tensor(input_ids).unsqueeze(0)
	word_embedding = model(input_ids)["pooler_output"]

	distance = torch.cosine_similarity(doc_embedding, word_embedding, dim=1).item()

	words.append(word)
	distances.append(distance)

	#print(word, torch.cosine_similarity(doc_embedding, word_embedding, dim=1).item())

	cos_df = pd.DataFrame({'word':words, 'distance':distances})

	# sort by distance
	cos_df = cos_df.sort_values(by='distance', ascending=False)

	# top n
	cos_df = cos_df[:top_n]

	cos_df["word"].values

	# 명사만 추출
	outputs = []
	for word in cos_df["word"].values:
	okt = Okt()
	tokenized_doc = okt.pos(word)
	tokenized_nouns = ' '.join([word[0] for word in tokenized_doc if word[1] == 'Noun'])
	outputs.append("#" + tokenized_nouns)

	outputs = " ".join(outputs)

	return outputs


	demo = gr.Interface(
	fn=inference,
	inputs="text",
	outputs="text", #return 값
	examples=[
	"지난해 국내 클래식계 최고 스타로 떠오른 피아니스트 임윤찬이 미국 밴 클라이번 국제콩쿠르 결선에서 연주한 라흐마니노프 피아노 협주곡 제3번 영상이 유튜브에서 조회수 1000만회를 넘겼다. 라흐마니노프 3번 연주 영상 중 단연 최고 조회수다."
	]
	).launch() # launch(share=True)를 설정하면 외부에서 접속 가능한 링크가 생성됨

	demo.launch()