Anjaan-Khadka
/

Nepali-Summarization

text2text-generation

Inference Endpoints

text-generation-inference

Model card Files Files and versions Community

Nepali-Summarization / README.md

Anjaan-Khadka's picture

Upload 6 files

07a2071 over 1 year ago

|

raw history blame contribute delete

No virus

2.9 kB

	---
	tags:
	- summarization
	- mT5
	datasets:
	- csebuetnlp/xlsum
	language:
	- ne
	widget:
	- text: तीन नगरपालिकालाई समेटेर भेरी किनारमा बन्न थालेको आधुनिक नमुना सहरको काम तीव्र गतिमा अघि बढेको छ । भेरीगंगा, गुर्भाकोट र लेकबेंसी नगरपालिकामा बन्न थालेको भेरीगंगा उपत्यका नमुना आधुनिक सहर निर्माण हुन लागेको हो । यसले नदी वारि र पारिको ४ सय ६० वर्ग किलोमिटर क्षेत्रलाई समेट्नेछ ।
	model-index:
	- name: Anjaan-Khadka/summarization_nepali
	results:
	- task:
	type: summarization
	name: Summarization
	dataset:
	name: xsum
	type: xsum
	config: default
	split: test
	metrics:
	- name: ROUGE-1
	type: rouge
	value: 36.5002
	verified: false

	---

	# adaptation of mT5-multilingual-XLSum for Nepali Lnaguage

	This repository contains adapted version of mT5-multilinguag-XLSum for Single Language (Nepali). View original [mT5-multilinguag-XLSum model](https://huggingface.co/csebuetnlp/mT5_multilingual_XLSum)

	## Using this model in `transformers` (tested on 4.11.0.dev0)

	```python
	import re
	from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

	article_text = " तीन नगरपालिकालाई समेटेर भेरी किनारमा बन्न थालेको आधुनिक नमुना सहरको काम तीव्र गतिमा अघि बढेको छ । भेरीगंगा, गुर्भाकोट र लेकबेंसी नगरपालिकामा बन्न थालेको भेरीगंगा उपत्यका नमुना आधुनिक सहर निर्माण हुन लागेको हो । यसले नदी वारि र पारिको ४ सय ६० वर्ग किलोमिटर क्षेत्रलाई समेट्नेछ ।"

	model_name = "Anjaan-Khadka/summarization_nepali"
	tokenizer = AutoTokenizer.from_pretrained(model_name)
	model = AutoModelForSeq2SeqLM.from_pretrained(model_name)

	input_ids = tokenizer(
	(article_text),
	return_tensors="pt",
	padding="max_length",
	truncation=True,
	max_length=512
	)["input_ids"]

	output_ids = model.generate(
	input_ids=input_ids,
	max_length=84,
	no_repeat_ngram_size=2,
	num_beams=4
	)[0]

	summary = tokenizer.decode(
	output_ids,
	skip_special_tokens=True,
	clean_up_tokenization_spaces=False
	)

	print(summary)

	```