clhuang
/

t5-hotel-review-sentiment

Text2Text Generation

Inference Endpoints

text-generation-inference

Model card Files Files and versions Community

clhuang commited on Jun 4, 2022

Commit

3bbb67b

•

1 Parent(s): 881c27d

Update README.md

Files changed (1) hide show

README.md +4 -4

README.md CHANGED Viewed

@@ -43,13 +43,13 @@ We fine tune a T5 pretrained model to generate multi-aspect sentiment classes. T
 預訓練模型:
 目前初步先使用"Langboat/mengzi-t5-base"簡體中文預訓練模型加以微調。
-由"Langboat/mengzi-t5-base"官網資訊得知是由簡體中文語料所訓練，因此繁體中文留言先轉成簡體中文再進行微調訓練。
 訓練平台: 使用Google colab Tesla T4 GPU進行了3 epochs訓練，費時55分鐘，val_loss約為0.0315，初步實驗，仍有很大的改善空間。
-未來改善工作:下一階段會進行數據增強(由於蒐集的語料是不平衡),以及使用Google的mt5繁體簡體中文預訓練模型加以微調。
-使用範例:
 # 載入模型(使用的是simplet5套件)
     #pip install simplet5
@@ -72,7 +72,7 @@ We fine tune a T5 pretrained model to generate multi-aspect sentiment classes. T
     model.predict(text)
     #['设施面向的负面情绪']
-# 輸入輸出改成是正體中文，輸出三項分類任務資訊
     from opencc import OpenCC
     t2s = OpenCC('t2s')  # convert from Traditional Chinese to Simplified Chinese
     s2t = OpenCC('s2t')  # convert from Simplified Chinese to Traditional Chinese

 預訓練模型:
 目前初步先使用"Langboat/mengzi-t5-base"簡體中文預訓練模型加以微調。
+由"Langboat/mengzi-t5-base"官網資訊得知是由簡體中文語料所訓練，因此我們將繁體中文留言先轉成簡體中文，再進行微調訓練。
 訓練平台: 使用Google colab Tesla T4 GPU進行了3 epochs訓練，費時55分鐘，val_loss約為0.0315，初步實驗，仍有很大的改善空間。
+未來改善工作:下一階段會進行數據增強(由於蒐集的語料是不平衡),以及使用Google的mt5繁體簡體中文預訓練模型加以微調，微調語料就可直接使用繁體中文。
+使用範例:(輸入繁體中文需先將文字轉為簡體中文，再丟給模型產出輸出文字)
 # 載入模型(使用的是simplet5套件)
     #pip install simplet5
     model.predict(text)
     #['设施面向的负面情绪']
+# 輸入輸出改成是繁(正)體中文，輸出三項分類任務資訊
     from opencc import OpenCC
     t2s = OpenCC('t2s')  # convert from Traditional Chinese to Simplified Chinese
     s2t = OpenCC('s2t')  # convert from Simplified Chinese to Traditional Chinese