File size: 4,803 Bytes
e9d841a
5892cee
 
 
 
e9d841a
 
5892cee
4d30297
 
 
 
5892cee
35acc23
5892cee
c734fa0
 
 
 
 
 
 
 
 
d88cd28
5892cee
d88cd28
c734fa0
 
d88cd28
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
3bbb67b
35acc23
d88cd28
 
3bbb67b
35acc23
3bbb67b
6b2f5d9
4d30297
660c817
 
 
444c329
6b2f5d9
 
660c817
 
 
 
6b2f5d9
660c817
 
 
 
 
 
 
 
6b2f5d9
3bbb67b
660c817
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
---
language: 
  - tw
tags:
  - t5
license: afl-3.0
---

# Hotel review multi-aspect sentiment classification using T5

We fine tune a T5 pretrained model to generate multi-aspect sentiment classes. The outputs are whole sentiment, aspect, and aspect+sentiment.  

T5情緒面向分類多任務,依據中文簡體孟子T5預訓練模型微調,訓練資料集只有3萬筆,做NLP研究與課程的範例模型用途。

# 如何測試
在右側測試區輸入不同的任務文字

        範例1:
        面向::早餐可以吃的饱,但是东西没了,不一定会补
        範例2:
        面向情绪::房间空调系统有烟味,可考虑做调整
        範例3:
        整体情绪::位置离逢甲很近

資料集:
資料集蒐集自線上訂房網站的顧客留言10050筆,整理成3項任務,總筆數變成為3倍,共有30150筆(資料由本實驗室成員YYChang蒐集)。

輸入與輸出格式:有三個種類任務分別為:

'整体情绪::'
'面向::',
'面向情绪::'

        舉例如下:
        整体情绪::因为防疫期间早餐要在房内用餐,但房内电视下的平台有点窄,有点不方便,负面情绪
        整体情绪::只是隔音有点不好,负面情绪
        整体情绪::订的是豪华家庭房,空间还算大,正面情绪
        整体情绪::床大,正面情绪
        
        面向::房间有奇怪的味道,"整洁舒适面向,设施面向"
        面向::干净、舒适、亲切,价钱好~,"整洁舒适面向,性价比面向"
        面向::位置便利,可以在附近悠闲散步,至市区也不远,又临近大海,住得十分舒服。,"整洁舒适面向,地点面向"
        
        面向情绪::反应无效,服务面向的负面情绪
        面向情绪::床其实还蛮好睡,枕头床被还算干净,至少不会让皮肤痒。离火车站市场闹区近。,"整洁舒适面向的正面情绪,设施面向的正面情绪,地点面向的正面情绪"
        面向情绪::设备真的太旧了,灯光太暗了。,设施面向的负面情绪
        面向情绪::住四天,没人打扫清洁,第一天有盥洗用品,其余就没补充,热水供应不正常,交通尚可。,"整洁舒适面向的负面情绪,设施面向的负面情绪,地点面向的正面情绪"
        面向情绪::饭店太过老旧,房内桌子衣橱近乎溃烂,浴室有用过未清的毛巾,排水孔有近半垃圾未清,马桶肮脏,未提供浴巾,莲蓬头只能手持无法挂著墙上使用,空调无法控制,壁纸剥落,走道昏暗,近车站。,"整洁舒适面向的负面情绪,设施面向的负面情绪,地点面向的正面情绪"

預訓練模型: 
目前初步先使用"Langboat/mengzi-t5-base"簡體中文預訓練模型加以微調。
由"Langboat/mengzi-t5-base"官網資訊得知是由簡體中文語料所訓練,因此我們將繁體中文留言先轉成簡體中文,再進行微調訓練。

訓練平台: 使用Google colab Tesla T4 GPU進行了3 epochs訓練,費時55分鐘,val_loss約為0.0315,初步實驗,仍有很大的改善空間。

未來改善工作:下一階段會進行數據增強(由於蒐集的語料是不平衡),以及使用Google的mt5繁體簡體中文預訓練模型加以微調,微調語料就可直接使用繁體中文。

使用範例:(輸入繁體中文需先將文字轉為簡體中文,再丟給模型產出輸出文字)

# 載入模型(使用的是simplet5套件)
    #pip install simplet5
    from simplet5 import SimpleT5
    model = SimpleT5()
    model.load_model("t5","clhuang/t5-hotel-review-sentiment", use_gpu=False)

# 整體情緒分類任務
    text="整体情绪::位置离逢甲很近"
    model.predict(text)
    #['正面情绪']

# 面向分類任務
    text="面向::早餐可以吃的饱,但是东西没了,不一定会补"
    model.predict(text)
    #['服务面向']

# 面向分類+情绪分類任務
    text='面向情绪::房间空调系统有烟味,可考虑做调整'
    model.predict(text)
    #['设施面向的负面情绪']

# 輸入輸出改成是繁(正)體中文,輸出三項分類任務資訊
    from opencc import OpenCC
    t2s = OpenCC('t2s')  # convert from Traditional Chinese to Simplified Chinese
    s2t = OpenCC('s2t')  # convert from Simplified Chinese to Traditional Chinese
    class_types = ['整体情绪::','面向::','面向情绪::']
    def predict(text):
        text = t2s.convert(text)
        response=[]
        for prefix  in class_types:
            response.append(s2t.convert(model.predict(prefix+text)[0]))
        return response
    
    text='位置近市區,人員親切,食物好吃'
    predict(text)
    #['正面情緒', '服務面向,地點面向', '服務面向的正面情緒,地點面向的正面情緒']