Update README.md
Browse files
README.md
CHANGED
@@ -1,18 +1,22 @@
|
|
1 |
---
|
2 |
license: afl-3.0
|
3 |
---
|
|
|
|
|
|
|
|
|
4 |
# T5情緒面向分類多任務
|
5 |
|
6 |
目前初步先使用"Langboat/mengzi-t5-base"簡體中文預訓練模型加以微調,
|
7 |
|
8 |
資料集蒐集自線上訂房網站的顧客留言,目前有30150筆(資料由本實驗室成員張易筠蒐集)。
|
9 |
由"Langboat/mengzi-t5-base"官網資訊得知是由簡體中文語料所訓練,因此繁體中文留言先轉成簡體中文再進行微調訓練。
|
10 |
-
s
|
11 |
-
使用Google colab Tesla T4 GPU進行3epochs訓練,費時55分鐘,val_loss約為0.0315,初步實驗,仍有很大的改善空間。
|
12 |
|
13 |
-
|
14 |
|
|
|
15 |
|
|
|
16 |
#pip install simplet5
|
17 |
from simplet5 import SimpleT5
|
18 |
model = SimpleT5()
|
@@ -33,7 +37,7 @@ s
|
|
33 |
model.predict(text)
|
34 |
#['设施面向的负面情绪']
|
35 |
|
36 |
-
#
|
37 |
from opencc import OpenCC
|
38 |
t2s = OpenCC('t2s') # convert from Traditional Chinese to Simplified Chinese
|
39 |
s2t = OpenCC('s2t') # convert from Simplified Chinese to Traditional Chinese
|
|
|
1 |
---
|
2 |
license: afl-3.0
|
3 |
---
|
4 |
+
# Hotel review multi-aspect sentiment classification using T5
|
5 |
+
|
6 |
+
We fine tune a T5 pretrained model to generate multi-aspect sentiment classes. The outputs are whole sentiment, aspect, and aspect+sentiment.
|
7 |
+
|
8 |
# T5情緒面向分類多任務
|
9 |
|
10 |
目前初步先使用"Langboat/mengzi-t5-base"簡體中文預訓練模型加以微調,
|
11 |
|
12 |
資料集蒐集自線上訂房網站的顧客留言,目前有30150筆(資料由本實驗室成員張易筠蒐集)。
|
13 |
由"Langboat/mengzi-t5-base"官網資訊得知是由簡體中文語料所訓練,因此繁體中文留言先轉成簡體中文再進行微調訓練。
|
|
|
|
|
14 |
|
15 |
+
使用Google colab Tesla T4 GPU進行了3 epochs訓練,費時55分鐘,val_loss約為0.0315,初步實驗,仍有很大的改善空間。
|
16 |
|
17 |
+
下一階段會進行數據增強(由於蒐集的語料是不平衡),以及使用Google的mt5繁體簡體中文預訓練模型加以微調。
|
18 |
|
19 |
+
# 載入模型(使用的是simplet5套件)
|
20 |
#pip install simplet5
|
21 |
from simplet5 import SimpleT5
|
22 |
model = SimpleT5()
|
|
|
37 |
model.predict(text)
|
38 |
#['设施面向的负面情绪']
|
39 |
|
40 |
+
# 輸入輸出改成是正體中文,輸出三項分類任務資訊
|
41 |
from opencc import OpenCC
|
42 |
t2s = OpenCC('t2s') # convert from Traditional Chinese to Simplified Chinese
|
43 |
s2t = OpenCC('s2t') # convert from Simplified Chinese to Traditional Chinese
|