clhuang commited on
Commit
4d30297
1 Parent(s): 35acc23

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +8 -4
README.md CHANGED
@@ -1,18 +1,22 @@
1
  ---
2
  license: afl-3.0
3
  ---
 
 
 
 
4
  # T5情緒面向分類多任務
5
 
6
  目前初步先使用"Langboat/mengzi-t5-base"簡體中文預訓練模型加以微調,
7
 
8
  資料集蒐集自線上訂房網站的顧客留言,目前有30150筆(資料由本實驗室成員張易筠蒐集)。
9
  由"Langboat/mengzi-t5-base"官網資訊得知是由簡體中文語料所訓練,因此繁體中文留言先轉成簡體中文再進行微調訓練。
10
- s
11
- 使用Google colab Tesla T4 GPU進行3epochs訓練,費時55分鐘,val_loss約為0.0315,初步實驗,仍有很大的改善空間。
12
 
13
- 下一階段會進行數據增強(由於蒐集的語料是不平衡),以及使用Google的mt5繁體簡體中文預訓練模型加以微調。
14
 
 
15
 
 
16
  #pip install simplet5
17
  from simplet5 import SimpleT5
18
  model = SimpleT5()
@@ -33,7 +37,7 @@ s
33
  model.predict(text)
34
  #['设施面向的负面情绪']
35
 
36
- # 輸入輸出改成是正體中文
37
  from opencc import OpenCC
38
  t2s = OpenCC('t2s') # convert from Traditional Chinese to Simplified Chinese
39
  s2t = OpenCC('s2t') # convert from Simplified Chinese to Traditional Chinese
 
1
  ---
2
  license: afl-3.0
3
  ---
4
+ # Hotel review multi-aspect sentiment classification using T5
5
+
6
+ We fine tune a T5 pretrained model to generate multi-aspect sentiment classes. The outputs are whole sentiment, aspect, and aspect+sentiment.
7
+
8
  # T5情緒面向分類多任務
9
 
10
  目前初步先使用"Langboat/mengzi-t5-base"簡體中文預訓練模型加以微調,
11
 
12
  資料集蒐集自線上訂房網站的顧客留言,目前有30150筆(資料由本實驗室成員張易筠蒐集)。
13
  由"Langboat/mengzi-t5-base"官網資訊得知是由簡體中文語料所訓練,因此繁體中文留言先轉成簡體中文再進行微調訓練。
 
 
14
 
15
+ 使用Google colab Tesla T4 GPU進行了3 epochs訓練,費時55分鐘,val_loss約為0.0315,初步實驗,仍有很大的改善空間。
16
 
17
+ 下一階段會進行數據增強(由於蒐集的語料是不平衡),以及使用Google的mt5繁體簡體中文預訓練模型加以微調。
18
 
19
+ # 載入模型(使用的是simplet5套件)
20
  #pip install simplet5
21
  from simplet5 import SimpleT5
22
  model = SimpleT5()
 
37
  model.predict(text)
38
  #['设施面向的负面情绪']
39
 
40
+ # 輸入輸出改成是正體中文,輸出三項分類任務資訊
41
  from opencc import OpenCC
42
  t2s = OpenCC('t2s') # convert from Traditional Chinese to Simplified Chinese
43
  s2t = OpenCC('s2t') # convert from Simplified Chinese to Traditional Chinese