clhuang commited on
Commit
3bbb67b
1 Parent(s): 881c27d

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +4 -4
README.md CHANGED
@@ -43,13 +43,13 @@ We fine tune a T5 pretrained model to generate multi-aspect sentiment classes. T
43
 
44
  預訓練模型:
45
  目前初步先使用"Langboat/mengzi-t5-base"簡體中文預訓練模型加以微調。
46
- 由"Langboat/mengzi-t5-base"官網資訊得知是由簡體中文語料所訓練,因此繁體中文留言先轉成簡體中文再進行微調訓練。
47
 
48
  訓練平台: 使用Google colab Tesla T4 GPU進行了3 epochs訓練,費時55分鐘,val_loss約為0.0315,初步實驗,仍有很大的改善空間。
49
 
50
- 未來改善工作:下一階段會進行數據增強(由於蒐集的語料是不平衡),以及使用Google的mt5繁體簡體中文預訓練模型加以微調。
51
 
52
- 使用範例:
53
 
54
  # 載入模型(使用的是simplet5套件)
55
  #pip install simplet5
@@ -72,7 +72,7 @@ We fine tune a T5 pretrained model to generate multi-aspect sentiment classes. T
72
  model.predict(text)
73
  #['设施面向的负面情绪']
74
 
75
- # 輸入輸出改成是正體中文,輸出三項分類任務資訊
76
  from opencc import OpenCC
77
  t2s = OpenCC('t2s') # convert from Traditional Chinese to Simplified Chinese
78
  s2t = OpenCC('s2t') # convert from Simplified Chinese to Traditional Chinese
 
43
 
44
  預訓練模型:
45
  目前初步先使用"Langboat/mengzi-t5-base"簡體中文預訓練模型加以微調。
46
+ 由"Langboat/mengzi-t5-base"官網資訊得知是由簡體中文語料所訓練,因此我們將繁體中文留言先轉成簡體中文,再進行微調訓練。
47
 
48
  訓練平台: 使用Google colab Tesla T4 GPU進行了3 epochs訓練,費時55分鐘,val_loss約為0.0315,初步實驗,仍有很大的改善空間。
49
 
50
+ 未來改善工作:下一階段會進行數據增強(由於蒐集的語料是不平衡),以及使用Google的mt5繁體簡體中文預訓練模型加以微調,微調語料就可直接使用繁體中文。
51
 
52
+ 使用範例:(輸入繁體中文需先將文字轉為簡體中文,再丟給模型產出輸出文字)
53
 
54
  # 載入模型(使用的是simplet5套件)
55
  #pip install simplet5
 
72
  model.predict(text)
73
  #['设施面向的负面情绪']
74
 
75
+ # 輸入輸出改成是繁(正)體中文,輸出三項分類任務資訊
76
  from opencc import OpenCC
77
  t2s = OpenCC('t2s') # convert from Traditional Chinese to Simplified Chinese
78
  s2t = OpenCC('s2t') # convert from Simplified Chinese to Traditional Chinese