sagorsarker
commited on
Commit
•
4389fda
1
Parent(s):
7afbb01
Update README.md
Browse files
README.md
CHANGED
@@ -2,10 +2,46 @@
|
|
2 |
license: mit
|
3 |
---
|
4 |
|
5 |
-
News
|
|
|
|
|
|
|
6 |
|
7 |
## Training details
|
8 |
-
-
|
9 |
-
-
|
10 |
-
|
11 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2 |
license: mit
|
3 |
---
|
4 |
|
5 |
+
# Bangla News Article Doc2Vec model
|
6 |
+
Bengali News Article doc2vec model trained on [this](https://www.kaggle.com/datasets/ebiswas/bangla-largest-newspaper-dataset) datasets with 8 JSONS and vector size 100.
|
7 |
+
|
8 |
+
This model is trained for the [bnlp](https://github.com/sagorbrur/bnlp) library.
|
9 |
|
10 |
## Training details
|
11 |
+
- Total news articles: 400013
|
12 |
+
- Hyper-parameter: `epochs: 40, min_count=2, vector_size=100`
|
13 |
+
|
14 |
+
## Usage
|
15 |
+
- Get document vector from input document
|
16 |
+
|
17 |
+
```py
|
18 |
+
from bnlp import BengaliDoc2vec
|
19 |
+
|
20 |
+
bn_doc2vec = BengaliDoc2vec()
|
21 |
+
|
22 |
+
model_path = "bangla_news_article_doc2vec.model" # keep other .npy model files also in same folder
|
23 |
+
document = "রাষ্ট্রবিরোধী ও উসকানিমূলক বক্তব্য দেওয়ার অভিযোগে গাজীপুরের গাছা থানায় ডিজিটাল নিরাপত্তা আইনে করা মামলায় আলোচিত ‘শিশুবক্তা’ রফিকুল ইসলামের বিরুদ্ধে অভিযোগ গঠন করেছেন আদালত। ফলে মামলার আনুষ্ঠানিক বিচার শুরু হলো। আজ বুধবার (২৬ জানুয়ারি) ঢাকার সাইবার ট্রাইব্যুনালের বিচারক আসসামছ জগলুল হোসেন এ অভিযোগ গঠন করেন। এর আগে, রফিকুল ইসলামকে কারাগার থেকে আদালতে হাজির করা হয়। এরপর তাকে নির্দোষ দাবি করে তার আইনজীবী শোহেল মো. ফজলে রাব্বি অব্যাহতি চেয়ে আবেদন করেন। অন্যদিকে, রাষ্ট্রপক্ষ অভিযোগ গঠনের পক্ষে শুনানি করেন। উভয় পক্ষের শুনানি শেষে আদালত অব্যাহতির আবেদন খারিজ করে অভিযোগ গঠনের মাধ্যমে বিচার শুরুর আদেশ দেন। একইসঙ্গে সাক্ষ্যগ্রহণের জন্য আগামী ২২ ফেব্রুয়ারি দিন ধার্য করেন আদালত।"
|
24 |
+
|
25 |
+
vector = bn_doc2vec.get_document_vector(model_path, text)
|
26 |
+
print(vector)
|
27 |
+
```
|
28 |
+
|
29 |
+
- Find document similarity between two document
|
30 |
+
|
31 |
+
```py
|
32 |
+
from bnlp import BengaliDoc2vec
|
33 |
+
|
34 |
+
bn_doc2vec = BengaliDoc2vec()
|
35 |
+
|
36 |
+
model_path = "bangla_news_article_doc2vec.model" # keep other .npy model files also in same folder
|
37 |
+
article_1 = "রাষ্ট্রবিরোধী ও উসকানিমূলক বক্তব্য দেওয়ার অভিযোগে গাজীপুরের গাছা থানায় ডিজিটাল নিরাপত্তা আইনে করা মামলায় আলোচিত ‘শিশুবক্তা’ রফিকুল ইসলামের বিরুদ্ধে অভিযোগ গঠন করেছেন আদালত। ফলে মামলার আনুষ্ঠানিক বিচার শুরু হলো। আজ বুধবার (২৬ জানুয়ারি) ঢাকার সাইবার ট্রাইব্যুনালের বিচারক আসসামছ জগলুল হোসেন এ অভিযোগ গঠন করেন। এর আগে, রফিকুল ইসলামকে কারাগার থেকে আদালতে হাজির করা হয়। এরপর তাকে নির্দোষ দাবি করে তার আইনজীবী শোহেল মো. ফজলে রাব্বি অব্যাহতি চেয়ে আবেদন করেন। অন্যদিকে, রাষ্ট্রপক্ষ অভিযোগ গঠনের পক্ষে শুনানি করেন। উভয় পক্ষের শুনানি শেষে আদালত অব্যাহতির আবেদন খারিজ করে অভিযোগ গঠনের মাধ্যমে বিচার শুরুর আদেশ দেন। একইসঙ্গে সাক্ষ্যগ্রহণের জন্য আগামী ২২ ফেব্রুয়ারি দিন ধার্য করেন আদালত।"
|
38 |
+
article_2 = "রাষ্ট্রবিরোধী ও ��সকানিমূলক বক্তব্য দেওয়ার অভিযোগে গাজীপুরের গাছা থানায় ডিজিটাল নিরাপত্তা আইনে করা মামলায় আলোচিত ‘শিশুবক্তা’ রফিকুল ইসলামের বিরুদ্ধে অভিযোগ গঠন করেছেন আদালত। ফলে মামলার আনুষ্ঠানিক বিচার শুরু হলো। আজ বুধবার (২৬ জানুয়ারি) ঢাকার সাইবার ট্রাইব্যুনালের বিচারক আসসামছ জগলুল হোসেন এ অভিযোগ গঠন করেন। এর আগে, রফিকুল ইসলামকে কারাগার থেকে আদালতে হাজির করা হয়। এরপর তাকে নির্দোষ দাবি করে তার আইনজীবী শোহেল মো. ফজলে রাব্বি অব্যাহতি চেয়ে আবেদন করেন। অন্যদিকে, রাষ্ট্রপক্ষ অভিযোগ গঠনের পক্ষে শুনানি করেন। উভয় পক্ষের শুনানি শেষে আদালত অব্যাহতির আবেদন খারিজ করে অভিযোগ গঠনের মাধ্যমে বিচার শুরুর আদেশ দেন। একইসঙ্গে সাক্ষ্যগ্রহণের জন্য আগামী ২২ ফেব্রুয়ারি দিন ধার্য করেন আদালত।"
|
39 |
+
|
40 |
+
similarity = bn_doc2vec.get_document_similarity(
|
41 |
+
model_path,
|
42 |
+
article_1,
|
43 |
+
article_2
|
44 |
+
)
|
45 |
+
print(similarity)
|
46 |
+
|
47 |
+
```
|