metadata
base_model: facebook/mbart-large-50
library_name: peft
license: mit
tags:
- generated_from_trainer
model-index:
- name: mbart-large-50_Nepali_News_Summarization_QLoRA_8bit
results: []
mbart-large-50_Nepali_News_Summarization_QLoRA_8bit
This model is a fine-tuned version of facebook/mbart-large-50 on an unknown dataset. It achieves the following results on the evaluation set:
- Loss: 1.3724
- Rouge-1 R: 0.3809
- Rouge-1 P: 0.3877
- Rouge-1 F: 0.3745
- Rouge-2 R: 0.2144
- Rouge-2 P: 0.2176
- Rouge-2 F: 0.2093
- Rouge-l R: 0.3702
- Rouge-l P: 0.3766
- Rouge-l F: 0.364
- Gen Len: 14.0747
Model description
More information needed
Intended uses & limitations
More information needed
Training and evaluation data
More information needed
How to use?
from transformers import MBartForConditionalGeneration, MBart50TokenizerFast
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
from peft import get_peft_model, PeftModel
import torch
model_name = 'caspro/mbart-large-50_Nepali_News_Summarization_QLoRA_4bit'
base_model = MBartForConditionalGeneration.from_pretrained("facebook/mbart-large-50", load_in_8bit=True)
# Load the tokenizer and model from the Hugging Face Hub
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
prefix = "सारांशमा: "
def preprocess_function(examples):
inputs = [prefix + doc for doc in examples["text"]]
model_inputs = tokenizer(inputs, max_length=1024, truncation=True)
#tokenizer.set_tgt_lang_special_tokens('ne_NP')
labels = tokenizer(text_target=examples["title"], max_length=20, truncation=True)
model_inputs["labels"] = labels["input_ids"]
return model_inputs
text = 'सारांशमा: नेपालमा उपलब्ध कुल विद्युतको एक चौथाइभन्दा बढी विद्युत प्राविधिक र अप्राविधिक रुपमा चुहावट हुने तथ्यका माझ त्यसलाई नियन्त्रण गर्न प्राधिकरणले एउटा समिति बनाएर अनुसन्धान पनि थालेको थियो। \n\nमहानगरीय प्रहरी अपराध महाशाखाका अनुसार नेपाल विद्युत प्राधिकरणका कतिपय कर्मचारीको टोलीले गाडीमा आवश्यक सबै उपकरणहरु बोकेर ग्राहकको घरघरमा पुगेर विद्युत चोर्नमा सघाउने गरेको भेटिएको हो। \n\nकडाइ\n\nआइतबार प्राधिकरणका वर्तमान र पूर्व कर्मचारी गरी १२ जना तथा चारजना व्यापारीलाई पक्राउ गरेको प्रहरी अपराध महाशाखाले प्रारम्भिक अनुसन्धानमा चोरीको गिरोहको आकार अझ ठूलो हुन सक्ने जनाएको छ। \n\nमहाशाखाका प्रमुख सर्वेन्द्र खनालले भने, "अहिलेसम्मको प्रारम्भिक अनुसन्धानमा केही कलकारखाना, केही उद्योगहरु पनि चोरीमा संलग्न भएको देखिन्छ। यसभन्दा बाहेक बाँकी अरुपनि छन्। तिनीहरुलाई हामी जतिसक्दो चाँडो कानुनको दायरामा ल्याउँछौं।" \n\nनेपाल विद्युत प्राधिकरणका अनुसार नेपालमा हाल उपलब्ध कुल विद्युतको करिब २६ प्रतिशत विद्युत चुहावट हुने गर्दछ। \n\nत्यसमा १२ प्रतिशत प्राविधिक तथा १४ प्रतिशत भन्दा बढी अप्राविधिक हुने गरेको छ। \n\nकमसल खालको विद्युतीय सामाग्री गर्दा हुने चुहावट प्राविधिक हो।\n\nमिटरमा कम खपत देखाउने गरी विद्युत चोरी भए त्यो चाहिँ अप्राविधिक चुहावटमा पर्छ। \n\nप्रयास\n\nचोरी नियन्त्रण गर्न उर्जा मन्त्रालयले छुट्टै समिति पनि गठन गरिएको छ। \n\nचोरी नियन्त्रणको अहिले थालिएको अभियानमा नेपाल विद्युत प्राधिकरण र उर्जा मन्त्रालयले सघाएको पनि प्रहरीले जनाएको छ। \n\nपक्राउ गरिएकाहरुलाई ठगी मुद्दा लगाइएको छ।\n\nतर उनीहरुलाई विद्युत चोरी ऐन जस्ता आवश्यक ऐन अन्तर्गत कारबाही अगाडि बढाउन सक्ने महाशाखा प्रमुख तथा एसएसपी खनाल बताउँछन्। \n\nउनले भने, "यसमा धेरै पक्षको संलग्नता भएकोले एकैथरी कानुनबाट सम्बोधन नहुन सक्छ। तर सबैजना ठगीसँग सम्बन्धित हुने भएकोले यो कानुनले समेट्छ। त्यही अनुरुप नै हामीले अनुसन्धान शुरु गरेका छौं"। \n\nविद्युत चोरी गर्नेमा सर्वसाधारण उद्योगीहरु र व्यापारीहरु रहेको बताइएको छ।\n\nविद्युतको चोरी र चुहावट रोक्ने भनिदैं आएपनि हालसम्म त्यो प्रभावकारी देखिएको छैन। \n\n'
lora_model = PeftModel.from_pretrained(base_model, model_name)
# Assuming you have a GPU available, move the model to the GPU
if torch.cuda.is_available():
device = torch.device("cuda")
lora_model.to(device)
def generate_summary(text):
inputs = tokenizer(text, return_tensors="pt", max_length=1024, truncation=True)
# Move the input tensors to the same device as the model
if torch.cuda.is_available():
inputs = inputs.to(device)
summary_ids = lora_model.generate(inputs['input_ids'], num_beams=4, max_length=128, early_stopping=True)
summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
return summary
summary = generate_summary(prefix + text)
summary
Training procedure
Training hyperparameters
The following hyperparameters were used during training:
- learning_rate: 0.0005
- train_batch_size: 5
- eval_batch_size: 5
- seed: 42
- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
- lr_scheduler_type: linear
- num_epochs: 3
- mixed_precision_training: Native AMP
Training results
Training Loss | Epoch | Step | Validation Loss | Rouge-1 R | Rouge-1 P | Rouge-1 F | Rouge-2 R | Rouge-2 P | Rouge-2 F | Rouge-l R | Rouge-l P | Rouge-l F | Gen Len |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1.5604 | 1.0 | 10191 | 1.5916 | 0.3605 | 0.3694 | 0.3536 | 0.1948 | 0.2008 | 0.19 | 0.3501 | 0.3586 | 0.3433 | 14.7262 |
1.5482 | 2.0 | 20382 | 1.3992 | 0.3673 | 0.3879 | 0.3672 | 0.2034 | 0.2149 | 0.202 | 0.3577 | 0.3775 | 0.3575 | 13.7928 |
1.2397 | 3.0 | 30573 | 1.3724 | 0.3809 | 0.3877 | 0.3745 | 0.2144 | 0.2176 | 0.2093 | 0.3702 | 0.3766 | 0.364 | 14.0747 |
Framework versions
- PEFT 0.11.1
- Transformers 4.42.3
- Pytorch 2.1.2
- Datasets 2.20.0
- Tokenizers 0.19.1