qgyd2021 commited on
Commit
455f9b2
1 Parent(s): 147e44c

[update]add model

Browse files
Files changed (25) hide show
  1. .gitignore +0 -2
  2. trained_models/telemarketing_intent_classification_cn/config.json +79 -0
  3. trained_models/telemarketing_intent_classification_cn/hierarchical_labels.pkl +3 -0
  4. trained_models/telemarketing_intent_classification_cn/vocabulary/labels.txt +99 -0
  5. trained_models/telemarketing_intent_classification_cn/vocabulary/non_padded_namespaces.txt +2 -0
  6. trained_models/telemarketing_intent_classification_cn/vocabulary/tokens.txt +0 -0
  7. trained_models/telemarketing_intent_classification_cn/weights.th +3 -0
  8. trained_models/telemarketing_intent_classification_en/config.json +79 -0
  9. trained_models/telemarketing_intent_classification_en/hierarchical_labels.pkl +3 -0
  10. trained_models/telemarketing_intent_classification_en/vocabulary/labels.txt +114 -0
  11. trained_models/telemarketing_intent_classification_en/vocabulary/non_padded_namespaces.txt +2 -0
  12. trained_models/telemarketing_intent_classification_en/vocabulary/tokens.txt +0 -0
  13. trained_models/telemarketing_intent_classification_en/weights.th +3 -0
  14. trained_models/telemarketing_intent_classification_jp/config.json +79 -0
  15. trained_models/telemarketing_intent_classification_jp/hierarchical_labels.pkl +3 -0
  16. trained_models/telemarketing_intent_classification_jp/vocabulary/labels.txt +89 -0
  17. trained_models/telemarketing_intent_classification_jp/vocabulary/non_padded_namespaces.txt +2 -0
  18. trained_models/telemarketing_intent_classification_jp/vocabulary/tokens.txt +0 -0
  19. trained_models/telemarketing_intent_classification_jp/weights.th +3 -0
  20. trained_models/telemarketing_intent_classification_vi/config.json +79 -0
  21. trained_models/telemarketing_intent_classification_vi/hierarchical_labels.pkl +3 -0
  22. trained_models/telemarketing_intent_classification_vi/vocabulary/labels.txt +94 -0
  23. trained_models/telemarketing_intent_classification_vi/vocabulary/non_padded_namespaces.txt +2 -0
  24. trained_models/telemarketing_intent_classification_vi/vocabulary/tokens.txt +0 -0
  25. trained_models/telemarketing_intent_classification_vi/weights.th +3 -0
.gitignore CHANGED
@@ -4,5 +4,3 @@
4
 
5
  **/flagged/
6
  **/__pycache__/
7
-
8
- trained_models/
 
4
 
5
  **/flagged/
6
  **/__pycache__/
 
 
trained_models/telemarketing_intent_classification_cn/config.json ADDED
@@ -0,0 +1,79 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "dataset_reader": {
3
+ "type": "hierarchical_classification_json",
4
+ "token_indexers": {
5
+ "tokens": {
6
+ "type": "single_id",
7
+ "namespace": "tokens",
8
+ "lowercase_tokens": true,
9
+ "token_min_padding_length": 5
10
+ }
11
+ },
12
+ "tokenizer": {
13
+ "type": "pretrained_transformer",
14
+ "model_name": "pretrained_models/chinese-bert-wwm-ext"
15
+ }
16
+ },
17
+ "train_data_path": "train.json",
18
+ "validation_data_path": "valid.json",
19
+ "vocabulary": {
20
+ "directory_path": "vocabulary"
21
+ },
22
+ "model": {
23
+ "type": "hierarchical_classifier",
24
+ "hierarchical_labels_pkl": "trained_models/telemarketing_intent_classification_cn/hierarchical_labels.pkl",
25
+ "text_field_embedder": {
26
+ "token_embedders": {
27
+ "tokens": {
28
+ "type": "embedding",
29
+ "num_embeddings": 21128,
30
+ "embedding_dim": 128
31
+ }
32
+ }
33
+ },
34
+ "seq2seq_encoder": {
35
+ "type": "stacked_self_attention",
36
+ "input_dim": 128,
37
+ "hidden_dim": 128,
38
+ "projection_dim": 128,
39
+ "feedforward_hidden_dim": 128,
40
+ "num_layers": 2,
41
+ "num_attention_heads": 4,
42
+ "use_positional_encoding": false
43
+ },
44
+ "seq2vec_encoder": {
45
+ "type": "cnn",
46
+ "embedding_dim": 128,
47
+ "num_filters": 32,
48
+ "ngram_filter_sizes": [
49
+ 2,
50
+ 3,
51
+ 4,
52
+ 5
53
+ ]
54
+ }
55
+ },
56
+ "data_loader": {
57
+ "type": "multiprocess",
58
+ "batch_size": 64,
59
+ "shuffle": true
60
+ },
61
+ "trainer": {
62
+ "type": "gradient_descent",
63
+ "cuda_device": -1,
64
+ "optimizer": {
65
+ "type": "bert_adam",
66
+ "lr": 5e-05,
67
+ "warmup": 0.1,
68
+ "t_total": 50000,
69
+ "schedule": "warmup_linear"
70
+ },
71
+ "checkpointer": {
72
+ "serialization_dir": "serialization_dir2",
73
+ "keep_most_recent_by_count": 10
74
+ },
75
+ "patience": 5,
76
+ "validation_metric": "+accuracy",
77
+ "num_epochs": 200
78
+ }
79
+ }
trained_models/telemarketing_intent_classification_cn/hierarchical_labels.pkl ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:6a65f076d3b0a1a04987dcd302a655bf35f8850ca918613c8b985a74c879fb2c
3
+ size 1669
trained_models/telemarketing_intent_classification_cn/vocabulary/labels.txt ADDED
@@ -0,0 +1,99 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ 相关领域_考虑一下
2
+ 相关领域_实体(地址)
3
+ 相关领域_遭遇不幸
4
+ 相关领域_污言秽语
5
+ 相关领域_实体(人名)
6
+ 相关领域_资金困难
7
+ 相关领域_答非所问
8
+ 相关领域_做自我介绍
9
+ 相关领域_礼貌用语
10
+ 相关领域_请讲重点
11
+ 相关领域_肯定(可以)
12
+ 相关领域_肯定(是的)
13
+ 相关领域_答数值
14
+ 相关领域_招呼用语
15
+ 相关领域_查收费方式
16
+ 相关领域_否定(不需要)
17
+ 相关领域_政治敏感
18
+ 相关领域_祝福用语
19
+ 相关领域_查详细信息
20
+ 相关领域_肯定(嗯嗯)
21
+ 相关领域_答时间
22
+ 相关领域_要求复述
23
+ 相关领域_改天再谈
24
+ 相关领域_否定(没有)
25
+ 相关领域_查操作流程
26
+ 相关领域_肯定(好的)
27
+ 相关领域_语气词
28
+ 相关领域_赞美用语
29
+ 相关领域_是否机器人
30
+ 相关领域_查自我介绍
31
+ 相关领域_不信任
32
+ 相关领域_否定(不方便)
33
+ 相关领域_疑问(数值)
34
+ 相关领域_肯定(知道了)
35
+ 相关领域_否定(不用了)
36
+ 相关领域_价格太高
37
+ 相关领域_肯定(需要)
38
+ 相关领域_肯定(有)
39
+ 相关领域_用户正忙
40
+ 相关领域_否定答复
41
+ 相关领域_否定(不是)
42
+ 相关领域_实体(时长)
43
+ 相关领域_骚扰电话
44
+ 相关领域_疑问(地址)
45
+ 相关领域_查公司介绍
46
+ 相关领域_未能理解
47
+ 相关领域_已完成
48
+ 相关领域_否定(没时间)
49
+ 相关领域_问意图
50
+ 相关领域_答状态
51
+ 相关领域_会按时处理
52
+ 相关领域_请讲
53
+ 相关领域_否定(不知道)
54
+ 相关领域_加快速度
55
+ 相关领域_查联系方式
56
+ 相关领域_实体(组织)
57
+ 相关领域_疑问(姓名)
58
+ 相关领域_结束用语
59
+ 相关领域_听不清楚
60
+ 相关领域_语音信箱
61
+ 相关领域_打错电话
62
+ 相关领域_否定(不想要)
63
+ 相关领域_否定(取消)
64
+ 相关领域_你还在吗
65
+ 相关领域_请求谅解
66
+ 相关领域_听我说话
67
+ 相关领域_投诉警告
68
+ 相关领域_号码来源
69
+ 相关领域_否定(不可以)
70
+ 相关领域_肯定(正确)
71
+ 相关领域_质疑来电号码
72
+ 相关领域_肯定(没问题)
73
+ 相关领域_转人工客服
74
+ 相关领域_祝贺用语
75
+ 相关领域_肯定(好了)
76
+ 相关领域_疑问(时间)
77
+ 相关领域_查物品信息
78
+ 相关领域_查优惠政策
79
+ 相关领域_请等一等
80
+ 相关领域_否定(没兴趣)
81
+ 相关领域_我在
82
+ 相关领域_否定(错误)
83
+ 相关领域_太少太低
84
+ 相关领域_重复一次
85
+ 相关领域_肯定答复
86
+ 相关领域_时间推迟
87
+ 相关领域_否定(不能)
88
+ 相关领域_疑问(时长)
89
+ 相关领域_无所谓
90
+ 相关领域_已经购买
91
+ 相关领域_否定(不清楚)
92
+ 相关领域_资金充足
93
+ 相关领域_质疑隐私安全
94
+ 相关领域_会帮忙转告
95
+ 相关领域_信号不好
96
+ 相关领域_已经记录
97
+ 相关领域_不是本人
98
+ 相关领域_疑问(能否)
99
+ 无关领域_无关领域
trained_models/telemarketing_intent_classification_cn/vocabulary/non_padded_namespaces.txt ADDED
@@ -0,0 +1,2 @@
 
 
 
1
+ tokens
2
+ labels
trained_models/telemarketing_intent_classification_cn/vocabulary/tokens.txt ADDED
The diff for this file is too large to render. See raw diff
 
trained_models/telemarketing_intent_classification_cn/weights.th ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:e3febb06866a702b4e21b1f01eeb28eb3a49c5b0b25f22b649508441066a56a1
3
+ size 11910896
trained_models/telemarketing_intent_classification_en/config.json ADDED
@@ -0,0 +1,79 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "dataset_reader": {
3
+ "type": "hierarchical_classification_json",
4
+ "token_indexers": {
5
+ "tokens": {
6
+ "type": "single_id",
7
+ "namespace": "tokens",
8
+ "lowercase_tokens": true,
9
+ "token_min_padding_length": 5
10
+ }
11
+ },
12
+ "tokenizer": {
13
+ "type": "pretrained_transformer",
14
+ "model_name": "pretrained_models/bert-base-uncased"
15
+ }
16
+ },
17
+ "train_data_path": "train.json",
18
+ "validation_data_path": "valid.json",
19
+ "vocabulary": {
20
+ "directory_path": "vocabulary"
21
+ },
22
+ "model": {
23
+ "type": "hierarchical_classifier",
24
+ "hierarchical_labels_pkl": "trained_models/telemarketing_intent_classification_en/hierarchical_labels.pkl",
25
+ "text_field_embedder": {
26
+ "token_embedders": {
27
+ "tokens": {
28
+ "type": "embedding",
29
+ "num_embeddings": 30522,
30
+ "embedding_dim": 128
31
+ }
32
+ }
33
+ },
34
+ "seq2seq_encoder": {
35
+ "type": "stacked_self_attention",
36
+ "input_dim": 128,
37
+ "hidden_dim": 128,
38
+ "projection_dim": 128,
39
+ "feedforward_hidden_dim": 128,
40
+ "num_layers": 2,
41
+ "num_attention_heads": 4,
42
+ "use_positional_encoding": false
43
+ },
44
+ "seq2vec_encoder": {
45
+ "type": "cnn",
46
+ "embedding_dim": 128,
47
+ "num_filters": 32,
48
+ "ngram_filter_sizes": [
49
+ 2,
50
+ 3,
51
+ 4,
52
+ 5
53
+ ]
54
+ }
55
+ },
56
+ "data_loader": {
57
+ "type": "multiprocess",
58
+ "batch_size": 64,
59
+ "shuffle": true
60
+ },
61
+ "trainer": {
62
+ "type": "gradient_descent",
63
+ "cuda_device": -1,
64
+ "optimizer": {
65
+ "type": "bert_adam",
66
+ "lr": 5e-05,
67
+ "warmup": 0.1,
68
+ "t_total": 50000,
69
+ "schedule": "warmup_linear"
70
+ },
71
+ "checkpointer": {
72
+ "serialization_dir": "serialization_dir2",
73
+ "keep_most_recent_by_count": 10
74
+ },
75
+ "patience": 5,
76
+ "validation_metric": "+accuracy",
77
+ "num_epochs": 200
78
+ }
79
+ }
trained_models/telemarketing_intent_classification_en/hierarchical_labels.pkl ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:2f36f59c1d25e3e84be037ceedfa257c069f9ec9357b4236aa05963a4881af10
3
+ size 1843
trained_models/telemarketing_intent_classification_en/vocabulary/labels.txt ADDED
@@ -0,0 +1,114 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ 相关领域_做自我介绍
2
+ 相关领域_资金困难
3
+ 相关领域_否定(not)
4
+ 相关领域_否定(no)
5
+ 相关领域_已经拥有
6
+ 相关领域_遭遇不幸
7
+ 相关领域_否定(not need)
8
+ 相关领域_许下愿望
9
+ 相关领域_资金充足
10
+ 相关领域_号码来源
11
+ 相关领域_质疑来电号码
12
+ 相关领域_不信任
13
+ 相关领域_否定句
14
+ 相关领域_招呼用语
15
+ 相关领域_答时间
16
+ 相关领域_语气词
17
+ 相关领域_查自我介绍
18
+ 相关领域_疑问(地址)
19
+ 相关领域_你还在吗
20
+ 相关领域_问意图
21
+ 相关领域_我在
22
+ 相关领域_实体(人名)
23
+ 相关领域_答状态
24
+ 相关领域_赞美用语
25
+ 相关领域_语音信箱
26
+ 相关领域_用户正忙
27
+ 相关领域_结束用语
28
+ 相关领域_疑问
29
+ 相关领域_疑问(时间)
30
+ 相关领域_疑问(姓名)
31
+ 相关领域_疑问(数值)
32
+ 相关领域_查收费方式
33
+ 相关领域_肯定(why not)
34
+ 相关领域_肯定(sure)
35
+ 相关领域_查物品信息
36
+ 相关领域_要求复述
37
+ 相关领域_未能理解
38
+ 相关领域_请求谅解
39
+ 相关领域_听我说话
40
+ 相关领域_肯定(yes)
41
+ 相关领域_转账完成
42
+ 相关领域_骚扰电话
43
+ 相关领域_消极情绪
44
+ 相关领域_无所谓
45
+ 相关领域_污言秽语
46
+ 相关领域_投诉警告
47
+ 相关领域_听不清楚
48
+ 相关领域_否定(dont want)
49
+ 相关领域_肯定(alright)
50
+ 相关领域_肯定(ok)
51
+ 相关领域_太少太低
52
+ 相关领域_是否机器人
53
+ 相关领域_请讲
54
+ 相关领域_请等一等
55
+ 相关领域_贫穷词汇
56
+ 相关领域_答非所问
57
+ 相关领域_无关领域
58
+ 相关领域_礼貌用语
59
+ 相关领域_已完成
60
+ 相关领域_肯定(yes I do)
61
+ 相关领域_会按时处理
62
+ 相关领域_肯定(no problem)
63
+ 相关领域_肯定(姓名)
64
+ 相关领域_正在进行
65
+ 相关领域_肯定(agree)
66
+ 相关领域_肯定(understand)
67
+ 相关领域_肯定(correct)
68
+ 相关领域_肯定(I see)
69
+ 相关领域_肯定(i can)
70
+ 相关领域_别担心
71
+ 相关领域_否定(dont know)
72
+ 相关领域_太多太高
73
+ 相关领域_肯定(go ahead)
74
+ 相关领域_肯定(interested)
75
+ 相关领域_价格太高
76
+ 相关领域_改天再谈
77
+ 相关领域_否定(dont have)
78
+ 相关领域_否定(not sure)
79
+ 相关领域_否定(cant)
80
+ 相关领域_否定(wrong)
81
+ 相关领域_否定(not interested)
82
+ 相关领域_打错电话
83
+ 相关领域_查详细信息
84
+ 相关领域_疑问(长度)
85
+ 相关领域_查公司介绍
86
+ 相关领域_暴力敏感
87
+ 相关领域_实体(数值)
88
+ 相关领域_疑问(金额)
89
+ 相关领域_考虑一下
90
+ 相关领域_查操作流程
91
+ 相关领域_祝福用语
92
+ 相关领域_答地址
93
+ 相关领域_太迟了
94
+ 相关领域_加快速度
95
+ 相关领域_鼓励用语
96
+ 相关领域_肯定(i know)
97
+ 相关领域_否定(refuse)
98
+ 相关领域_解释原因
99
+ 相关领域_疑问(whats up)
100
+ 相关领域_肯定(need)
101
+ 相关领域_否定(nothing)
102
+ 相关领域_否定(not enough)
103
+ 相关领域_重复一次
104
+ 相关领域_提出建议
105
+ 相关领域_色情敏感
106
+ 相关领域_政治敏感
107
+ 相关领域_肯定(i want)
108
+ 相关领域_否定(not available)
109
+ 相关领域_陈述(ready)
110
+ 相关领域_陈述(forget)
111
+ 相关领域_否定(no time)
112
+ 无关领域_无关领域
113
+ 无关领域_实体(数值)
114
+ 无关领域_疑问
trained_models/telemarketing_intent_classification_en/vocabulary/non_padded_namespaces.txt ADDED
@@ -0,0 +1,2 @@
 
 
 
1
+ tokens
2
+ labels
trained_models/telemarketing_intent_classification_en/vocabulary/tokens.txt ADDED
The diff for this file is too large to render. See raw diff
 
trained_models/telemarketing_intent_classification_en/weights.th ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:5979cf94a7a26071b81789b32c1027e4281529d9844343b0ef50b698949c2f35
3
+ size 16728304
trained_models/telemarketing_intent_classification_jp/config.json ADDED
@@ -0,0 +1,79 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "dataset_reader": {
3
+ "type": "hierarchical_classification_json",
4
+ "token_indexers": {
5
+ "tokens": {
6
+ "type": "single_id",
7
+ "namespace": "tokens",
8
+ "lowercase_tokens": true,
9
+ "token_min_padding_length": 5
10
+ }
11
+ },
12
+ "tokenizer": {
13
+ "type": "pretrained_transformer",
14
+ "model_name": "pretrained_models/bert-base-japanese"
15
+ }
16
+ },
17
+ "train_data_path": "train.json",
18
+ "validation_data_path": "valid.json",
19
+ "vocabulary": {
20
+ "directory_path": "vocabulary"
21
+ },
22
+ "model": {
23
+ "type": "hierarchical_classifier",
24
+ "hierarchical_labels_pkl": "trained_models/telemarketing_intent_classification_jp/hierarchical_labels.pkl",
25
+ "text_field_embedder": {
26
+ "token_embedders": {
27
+ "tokens": {
28
+ "type": "embedding",
29
+ "num_embeddings": 32000,
30
+ "embedding_dim": 128
31
+ }
32
+ }
33
+ },
34
+ "seq2seq_encoder": {
35
+ "type": "stacked_self_attention",
36
+ "input_dim": 128,
37
+ "hidden_dim": 128,
38
+ "projection_dim": 128,
39
+ "feedforward_hidden_dim": 128,
40
+ "num_layers": 2,
41
+ "num_attention_heads": 4,
42
+ "use_positional_encoding": false
43
+ },
44
+ "seq2vec_encoder": {
45
+ "type": "cnn",
46
+ "embedding_dim": 128,
47
+ "num_filters": 32,
48
+ "ngram_filter_sizes": [
49
+ 2,
50
+ 3,
51
+ 4,
52
+ 5
53
+ ]
54
+ }
55
+ },
56
+ "data_loader": {
57
+ "type": "multiprocess",
58
+ "batch_size": 64,
59
+ "shuffle": true
60
+ },
61
+ "trainer": {
62
+ "type": "gradient_descent",
63
+ "cuda_device": -1,
64
+ "optimizer": {
65
+ "type": "bert_adam",
66
+ "lr": 5e-05,
67
+ "warmup": 0.1,
68
+ "t_total": 50000,
69
+ "schedule": "warmup_linear"
70
+ },
71
+ "checkpointer": {
72
+ "serialization_dir": "serialization_dir2",
73
+ "keep_most_recent_by_count": 10
74
+ },
75
+ "patience": 5,
76
+ "validation_metric": "+accuracy",
77
+ "num_epochs": 200
78
+ }
79
+ }
trained_models/telemarketing_intent_classification_jp/hierarchical_labels.pkl ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:2a88bbcef6186c4c4cea96e847bbcde9f62a7773970ae6c35dfaf1e515f14469
3
+ size 1519
trained_models/telemarketing_intent_classification_jp/vocabulary/labels.txt ADDED
@@ -0,0 +1,89 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ 相关领域_语气词
2
+ 相关领域_赞美用语
3
+ 相关领域_语音信箱
4
+ 相关领域_实体(人名)
5
+ 相关领域_肯定(はい)
6
+ 相关领域_查自我介绍
7
+ 相关领域_否定(ない)
8
+ 相关领域_未能理解
9
+ 相关领域_查物品信息
10
+ 相关领域_招呼用语
11
+ 相关领域_否定(ません)
12
+ 相关领域_肯定答复
13
+ 相关领域_是否机器人
14
+ 相关领域_否定(いいえ)
15
+ 相关领域_否定(不知道)
16
+ 相关领域_否定答复
17
+ 相关领域_重复一次
18
+ 相关领域_请等一等
19
+ 相关领域_礼貌用语
20
+ 相关领域_请求谅解
21
+ 相关领域_否定(できません)
22
+ 相关领域_做自我介绍
23
+ 相关领域_否定(没有)
24
+ 相关领域_答数值
25
+ 相关领域_肯定(そう)
26
+ 相关领域_否定(いらない)
27
+ 相关领域_实体(时间)
28
+ 相关领域_实体(地址)
29
+ 相关领域_用户正忙
30
+ 相关领域_疑问(原因)
31
+ 相关领域_结束用语
32
+ 相关领域_否定(いや)
33
+ 相关领域_污言秽语
34
+ 相关领域_无所谓
35
+ 相关领域_语气助词
36
+ 相关领域_疑问(地址)
37
+ 相关领域_请讲
38
+ 相关领域_听不清楚
39
+ 相关领域_已经完成
40
+ 相关领域_听我说话
41
+ 相关领域_否定(不记得)
42
+ 相关领域_不信任
43
+ 相关领域_肯定(正确)
44
+ 相关领域_疑问(哪个)
45
+ 相关领域_疑问(助词)
46
+ 相关领域_否定(結構)
47
+ 相关领域_你还在吗
48
+ 相关领域_查公司介绍
49
+ 相关领域_疑问(时间)
50
+ 相关领域_肯定(好的)
51
+ 相关领域_骚扰电话
52
+ 相关领域_要求复述
53
+ 相关领域_查联系方式
54
+ 相关领域_肯定(能够)
55
+ 相关领域_否定(取消)
56
+ 相关领域_否定(错误)
57
+ 相关领域_我在
58
+ 相关领域_查收费方式
59
+ 相关领域_疑问(时长)
60
+ 相关领域_否定(dont)
61
+ 相关领域_问意图
62
+ 相关领域_肯定(可以)
63
+ 相关领域_肯定(いい)
64
+ 相关领域_投诉警告
65
+ 相关领域_回播(かけ直す)
66
+ 相关领域_查详细信息
67
+ 相关领域_疑问(如何)
68
+ 相关领域_否定(没兴趣)
69
+ 相关领域_否定(いらね)
70
+ 相关领域_否定(不能)
71
+ 相关领域_否定(不可以)
72
+ 相关领域_暴力敏感
73
+ 相关领域_否定(拒绝)
74
+ 相关领域_别担心
75
+ 相关领域_肯定(是的)
76
+ 相关领域_肯定(知道了)
77
+ 相关领域_消极情绪
78
+ 相关领域_无关领域
79
+ 相关领域_考虑一下
80
+ 相关领域_疑问(数值)
81
+ 相关领域_资金困难
82
+ 相关领域_太多了
83
+ 相关领域_肯定(有)
84
+ 相关领域_实体(物品)
85
+ 相关领域_查操作流程
86
+ 相关领域_打错电话
87
+ 相关领域_否定(没时间)
88
+ 相关领域_肯定(没问题)
89
+ 无关领域_无关领域
trained_models/telemarketing_intent_classification_jp/vocabulary/non_padded_namespaces.txt ADDED
@@ -0,0 +1,2 @@
 
 
 
1
+ tokens
2
+ labels
trained_models/telemarketing_intent_classification_jp/vocabulary/tokens.txt ADDED
The diff for this file is too large to render. See raw diff
 
trained_models/telemarketing_intent_classification_jp/weights.th ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:3d68f67c7d9a5f7fa905c9761ffb068d1a0fec2c9ae5287c88a95b858e334e7e
3
+ size 17472176
trained_models/telemarketing_intent_classification_vi/config.json ADDED
@@ -0,0 +1,79 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "dataset_reader": {
3
+ "type": "hierarchical_classification_json",
4
+ "token_indexers": {
5
+ "tokens": {
6
+ "type": "single_id",
7
+ "namespace": "tokens",
8
+ "lowercase_tokens": true,
9
+ "token_min_padding_length": 5
10
+ }
11
+ },
12
+ "tokenizer": {
13
+ "type": "pretrained_transformer",
14
+ "model_name": "pretrained_models/bert-base-vietnamese-uncased"
15
+ }
16
+ },
17
+ "train_data_path": "train.json",
18
+ "validation_data_path": "valid.json",
19
+ "vocabulary": {
20
+ "directory_path": "vocabulary"
21
+ },
22
+ "model": {
23
+ "type": "hierarchical_classifier",
24
+ "hierarchical_labels_pkl": "trained_models/telemarketing_intent_classification_vi/hierarchical_labels.pkl",
25
+ "text_field_embedder": {
26
+ "token_embedders": {
27
+ "tokens": {
28
+ "type": "embedding",
29
+ "num_embeddings": 32000,
30
+ "embedding_dim": 128
31
+ }
32
+ }
33
+ },
34
+ "seq2seq_encoder": {
35
+ "type": "stacked_self_attention",
36
+ "input_dim": 128,
37
+ "hidden_dim": 128,
38
+ "projection_dim": 128,
39
+ "feedforward_hidden_dim": 128,
40
+ "num_layers": 2,
41
+ "num_attention_heads": 4,
42
+ "use_positional_encoding": false
43
+ },
44
+ "seq2vec_encoder": {
45
+ "type": "cnn",
46
+ "embedding_dim": 128,
47
+ "num_filters": 32,
48
+ "ngram_filter_sizes": [
49
+ 2,
50
+ 3,
51
+ 4,
52
+ 5
53
+ ]
54
+ }
55
+ },
56
+ "data_loader": {
57
+ "type": "multiprocess",
58
+ "batch_size": 64,
59
+ "shuffle": true
60
+ },
61
+ "trainer": {
62
+ "type": "gradient_descent",
63
+ "cuda_device": -1,
64
+ "optimizer": {
65
+ "type": "bert_adam",
66
+ "lr": 5e-05,
67
+ "warmup": 0.1,
68
+ "t_total": 50000,
69
+ "schedule": "warmup_linear"
70
+ },
71
+ "checkpointer": {
72
+ "serialization_dir": "serialization_dir2",
73
+ "keep_most_recent_by_count": 10
74
+ },
75
+ "patience": 5,
76
+ "validation_metric": "+accuracy",
77
+ "num_epochs": 200
78
+ }
79
+ }
trained_models/telemarketing_intent_classification_vi/hierarchical_labels.pkl ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:ba4048e3df814b67e1243edf7a3219f8d357b4b6868db1f486ac93e4d7c92602
3
+ size 1705
trained_models/telemarketing_intent_classification_vi/vocabulary/labels.txt ADDED
@@ -0,0 +1,94 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ 无关领域_无关领域
2
+ 相关领域_肯定(好的)
3
+ 相关领域_肯定(可以)
4
+ 相关领域_答时间
5
+ 相关领域_否定(không cần)
6
+ 相关领域_不信任
7
+ 相关领域_肯定(知道了)
8
+ 相关领域_肯定(ừ)
9
+ 相关领域_肯定(có thể)
10
+ 相关领域_疑问(时间)
11
+ 相关领域_赞美用语
12
+ 相关领域_请等一等
13
+ 相关领域_已经记录
14
+ 相关领域_语气词
15
+ 相关领域_要求复述
16
+ 相关领域_否定(chưa)
17
+ 相关领域_打错电话
18
+ 相关领域_查物品信息
19
+ 相关领域_礼貌用语
20
+ 相关领域_实体(地址)
21
+ 相关领域_肯定(đúng rồi)
22
+ 相关领域_招呼用语
23
+ 相关领域_祝福用语
24
+ 相关领域_查自我介绍
25
+ 相关领域_问意图
26
+ 相关领域_疑问(地址)
27
+ 相关领域_我在
28
+ 相关领域_肯定(vang)
29
+ 相关领域_肯定(chắc chắn)
30
+ 相关领域_会按时处理
31
+ 相关领域_肯定(有兴趣)
32
+ 相关领域_肯定(phải)
33
+ 相关领域_否定(không biết)
34
+ 相关领域_陈述句
35
+ 相关领域_肯定(是的)
36
+ 相关领域_未能理解
37
+ 相关领域_已完成
38
+ 相关领域_肯定(có)
39
+ 相关领域_请讲
40
+ 相关领域_肯定(biết)
41
+ 相关领域_肯定(không sao)
42
+ 相关领域_否定(không)
43
+ 相关领域_否定(không có)
44
+ 相关领域_否定(không tham gia)
45
+ 相关领域_否定(nhầm rồi)
46
+ 相关领域_否定(không nhớ)
47
+ 相关领域_否定(không phải)
48
+ 相关领域_否定(không có rảnh)
49
+ 相关领域_语音信箱
50
+ 相关领域_是否机器人
51
+ 相关领域_否定(không bao)
52
+ 相关领域_听不清楚
53
+ 相关领域_投诉警告
54
+ 相关领域_质疑来电号码
55
+ 相关领域_做自我介绍
56
+ 相关领域_非本人会转告
57
+ 相关领域_新办手机号
58
+ 相关领域_消极情绪
59
+ 相关领域_遭遇不幸
60
+ 相关领域_贫穷词汇
61
+ 相关领域_资金困难
62
+ 相关领域_骚扰电话
63
+ 相关领域_否定(chưa làm)
64
+ 相关领域_疑问(数值)
65
+ 相关领域_肯定(dạ)
66
+ 相关领域_肯定(有需要)
67
+ 相关领域_用户答非所问
68
+ 相关领域_否定(không được)
69
+ 相关领域_查收费方式
70
+ 相关领域_听我说话
71
+ 相关领域_查时间
72
+ 相关领域_答数值
73
+ 相关领域_查操作流程
74
+ 相关领域_否定(thôi)
75
+ 相关领域_肯定(同意)
76
+ 相关领域_别担心
77
+ 相关领域_请求谅解
78
+ 相关领域_用户正忙
79
+ 相关领域_质疑隐私安全
80
+ 相关领域_查公司介绍
81
+ 相关领域_你还在吗
82
+ 相关领域_肯定(có nhu)
83
+ 相关领域_否定(không có nhu)
84
+ 相关领域_否定(chưa có nhu)
85
+ 相关领域_否定(không quan tâm)
86
+ 相关领域_疑问(姓名)
87
+ 相关领域_答非所问
88
+ 相关领域_否定(không hiểu)
89
+ 相关领域_资金充足
90
+ 相关领域_疑问(时长)
91
+ 相关领域_否定答复
92
+ 相关领域_查详细信息
93
+ 相关领域_疑问(什么)
94
+ 相关领域_请讲重点
trained_models/telemarketing_intent_classification_vi/vocabulary/non_padded_namespaces.txt ADDED
@@ -0,0 +1,2 @@
 
 
 
1
+ labels
2
+ tokens
trained_models/telemarketing_intent_classification_vi/vocabulary/tokens.txt ADDED
The diff for this file is too large to render. See raw diff
 
trained_models/telemarketing_intent_classification_vi/weights.th ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:2a618e9c6b9c0c4c41b8ff7a3c9563dd36573a75a9a2e49e12383fa918170213
3
+ size 17474736