Angeldahal404
commited on
Commit
•
410f66a
1
Parent(s):
d8dcdf9
Create README.md
Browse files
README.md
ADDED
@@ -0,0 +1,51 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
---
|
2 |
+
datasets:
|
3 |
+
- Someman/news_nepali
|
4 |
+
language:
|
5 |
+
- ne
|
6 |
+
- en
|
7 |
+
metrics:
|
8 |
+
- rouge
|
9 |
+
library_name: transformers
|
10 |
+
pipeline_tag: summarization
|
11 |
+
---
|
12 |
+
## Model Summary
|
13 |
+
net5-news-summ is a mt5 based summarization model. The model is trained on the [Someman/news_nepali](https://huggingface.co/datasets/Someman/news_nepali). The model is finetuned from [net5-base](https://huggingface.co/Angeldahal404/net5-base) model
|
14 |
+
|
15 |
+
## How to use
|
16 |
+
```
|
17 |
+
import torch
|
18 |
+
from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
|
19 |
+
|
20 |
+
device = "cuda" if torch.cuda.is_available() else "cpu"
|
21 |
+
|
22 |
+
model = AutoModelForSeq2SeqLM.from_pretrained("Angeldahal404/net5-news-summ").to(device)
|
23 |
+
tokenizer = AutoTokenizer.from_pretrained("Angeldahal404/net5-news-summ").to(device)
|
24 |
+
|
25 |
+
prefix = "संक्षेप गर्नुहोस्: "
|
26 |
+
text = prefix + "काठमाडौं, भदौ २२ : नेपाली काँग्रेसका केन्द्रीय कार्यसमितिका सदस्य डा शशांक कोइरालाले संविधानको रक्षाका लागि आगामी प्रतिनिधिसभा र प्रदेशसभा निर्वाचनमा सत्तारुढ दलहरुबीच चुनावी तालमेल आवश्यक रहेको बताउनुभएको छ । आज काठमाडौंमा सञ्चारकर्मीसँग कुरा गर्दै कोइरालाले कांग्रेस एक्लै चुनाव लड्न सक्ने भए पनि संविधानको रक्षा, विकास र स्थायित्वका लागि अन्य दलसँग समन्वय गर्नुपर्ने बताए ।“सरकार पनि गठबन्धनको हो । गठबन्धनबाट चुनावमा जान सजिलो हुन्छ,’ उनले आगामी निर्वाचनमा कांग्रेसले सय सिट पाउनु पर्ने बताउँदै भने ।’ कोइरालाले चुनावी गठबन्धनमा के हुन्छ भन्न नसकिने बताए । उनले भने, ‘एमालेसँग प्रतिस्पर्धा गर्न हामी एक हुनुपर्छ । ‘अहिलेको अवस्थामा प्रत्येक दलले चुनावमा अन्य दलसँग समन्वय गर्ने प्रयास गर्नेछन् ।"
|
27 |
+
|
28 |
+
input_ids = tokenizer(text, return_tensors="pt", max_length=1024, padding= "max_length", truncation=True, add_special_tokens=True)
|
29 |
+
|
30 |
+
generation = model.generate(
|
31 |
+
input_ids = inputs['input_ids'].to(device),
|
32 |
+
attention_mask=inputs['attention_mask'].to(device),
|
33 |
+
num_beams=10,
|
34 |
+
num_return_sequences=1,
|
35 |
+
no_repeat_ngram_size=3,
|
36 |
+
repetition_penalty=2.0,
|
37 |
+
min_length=128,
|
38 |
+
max_length=256,
|
39 |
+
length_penalty=1.5,
|
40 |
+
early_stopping=True
|
41 |
+
)
|
42 |
+
|
43 |
+
output = tokenizer.decode(generation[0], skip_special_tokens=True, clean_up_tokenization_spaces=True)
|
44 |
+
|
45 |
+
tokens = output.split(" ")
|
46 |
+
filtered_tokens = [token for token in tokens if not token.startswith("<extra_id_")]
|
47 |
+
print(' '.join(filtered_tokens))
|
48 |
+
|
49 |
+
# श्रम रोजगार तथा समाजिक सुरक्षा मन्त्रालय वैदेशिक रोजगारीमा जानेहरुले लिनुपर्ने अभिमुखीकरण तालिम सञ्चालनबारेको पछिल्लो निर्णयबाट पछि नहट्ने देखिएको छ । श्रममन्त्री शरतसिंह भण्डारीले सीमित स्वार्थ समूहबाट प्रभावित भएर श्रमिकमाथि ठूलो आर्थिक भार थोपरेको भन्दै आलोचना भएपछि प्रधानमन्त्री पुष्पकमल दाहाल प्रचण्डले नै यसबारे चासो देखाएका थिए ।
|
50 |
+
```
|
51 |
+
|