Spaces:

wldmr
/

tubifier

Sleeping

tubifier / lexrank.py

app file

837fdb6 almost 2 years ago

No virus

890 Bytes

	#import nltk
	#nltk.download('punkt')

	from sumy.parsers.html import HtmlParser
	from sumy.parsers.plaintext import PlaintextParser
	from sumy.nlp.tokenizers import Tokenizer
	from sumy.summarizers.lex_rank import LexRankSummarizer
	from sumy.nlp.stemmers import Stemmer
	from sumy.utils import get_stop_words

	def getSummary(text, nr_sentences):
	summary=[]
	LANGUAGE = "english"
	SENTENCES_COUNT = nr_sentences
	#parser = PlaintextParser.from_file("/Users/hujo/Downloads/Channel_Summaries/wholesaleted.srt.pnct.txt", Tokenizer(LANGUAGE))
	parser = PlaintextParser.from_string(text, Tokenizer(LANGUAGE))
	#print(parser.document)
	stemmer = Stemmer(LANGUAGE)
	summarizer = LexRankSummarizer(stemmer)
	summarizer.stop_words = get_stop_words(LANGUAGE)
	for sentence in summarizer(parser.document, SENTENCES_COUNT):
	summary.append(sentence)

	return summary