Update README.md
Browse files
README.md
CHANGED
@@ -43,13 +43,13 @@ We fine tune a T5 pretrained model to generate multi-aspect sentiment classes. T
|
|
43 |
|
44 |
預訓練模型:
|
45 |
目前初步先使用"Langboat/mengzi-t5-base"簡體中文預訓練模型加以微調。
|
46 |
-
由"Langboat/mengzi-t5-base"
|
47 |
|
48 |
訓練平台: 使用Google colab Tesla T4 GPU進行了3 epochs訓練,費時55分鐘,val_loss約為0.0315,初步實驗,仍有很大的改善空間。
|
49 |
|
50 |
-
未來改善工作:下一階段會進行數據增強(由於蒐集的語料是不平衡),以及使用Google的mt5
|
51 |
|
52 |
-
使用範例:
|
53 |
|
54 |
# 載入模型(使用的是simplet5套件)
|
55 |
#pip install simplet5
|
@@ -72,7 +72,7 @@ We fine tune a T5 pretrained model to generate multi-aspect sentiment classes. T
|
|
72 |
model.predict(text)
|
73 |
#['设施面向的负面情绪']
|
74 |
|
75 |
-
#
|
76 |
from opencc import OpenCC
|
77 |
t2s = OpenCC('t2s') # convert from Traditional Chinese to Simplified Chinese
|
78 |
s2t = OpenCC('s2t') # convert from Simplified Chinese to Traditional Chinese
|
|
|
43 |
|
44 |
預訓練模型:
|
45 |
目前初步先使用"Langboat/mengzi-t5-base"簡體中文預訓練模型加以微調。
|
46 |
+
由"Langboat/mengzi-t5-base"官網資訊得知是由簡體中文語料所訓練,因此我們將繁體中文留言先轉成簡體中文,再進行微調訓練。
|
47 |
|
48 |
訓練平台: 使用Google colab Tesla T4 GPU進行了3 epochs訓練,費時55分鐘,val_loss約為0.0315,初步實驗,仍有很大的改善空間。
|
49 |
|
50 |
+
未來改善工作:下一階段會進行數據增強(由於蒐集的語料是不平衡),以及使用Google的mt5繁體簡體中文預訓練模型加以微調,微調語料就可直接使用繁體中文。
|
51 |
|
52 |
+
使用範例:(輸入繁體中文需先將文字轉為簡體中文,再丟給模型產出輸出文字)
|
53 |
|
54 |
# 載入模型(使用的是simplet5套件)
|
55 |
#pip install simplet5
|
|
|
72 |
model.predict(text)
|
73 |
#['设施面向的负面情绪']
|
74 |
|
75 |
+
# 輸入輸出改成是繁(正)體中文,輸出三項分類任務資訊
|
76 |
from opencc import OpenCC
|
77 |
t2s = OpenCC('t2s') # convert from Traditional Chinese to Simplified Chinese
|
78 |
s2t = OpenCC('s2t') # convert from Simplified Chinese to Traditional Chinese
|