[update]add model
Browse files- .gitignore +0 -2
- trained_models/telemarketing_intent_classification_cn/config.json +79 -0
- trained_models/telemarketing_intent_classification_cn/hierarchical_labels.pkl +3 -0
- trained_models/telemarketing_intent_classification_cn/vocabulary/labels.txt +99 -0
- trained_models/telemarketing_intent_classification_cn/vocabulary/non_padded_namespaces.txt +2 -0
- trained_models/telemarketing_intent_classification_cn/vocabulary/tokens.txt +0 -0
- trained_models/telemarketing_intent_classification_cn/weights.th +3 -0
- trained_models/telemarketing_intent_classification_en/config.json +79 -0
- trained_models/telemarketing_intent_classification_en/hierarchical_labels.pkl +3 -0
- trained_models/telemarketing_intent_classification_en/vocabulary/labels.txt +114 -0
- trained_models/telemarketing_intent_classification_en/vocabulary/non_padded_namespaces.txt +2 -0
- trained_models/telemarketing_intent_classification_en/vocabulary/tokens.txt +0 -0
- trained_models/telemarketing_intent_classification_en/weights.th +3 -0
- trained_models/telemarketing_intent_classification_jp/config.json +79 -0
- trained_models/telemarketing_intent_classification_jp/hierarchical_labels.pkl +3 -0
- trained_models/telemarketing_intent_classification_jp/vocabulary/labels.txt +89 -0
- trained_models/telemarketing_intent_classification_jp/vocabulary/non_padded_namespaces.txt +2 -0
- trained_models/telemarketing_intent_classification_jp/vocabulary/tokens.txt +0 -0
- trained_models/telemarketing_intent_classification_jp/weights.th +3 -0
- trained_models/telemarketing_intent_classification_vi/config.json +79 -0
- trained_models/telemarketing_intent_classification_vi/hierarchical_labels.pkl +3 -0
- trained_models/telemarketing_intent_classification_vi/vocabulary/labels.txt +94 -0
- trained_models/telemarketing_intent_classification_vi/vocabulary/non_padded_namespaces.txt +2 -0
- trained_models/telemarketing_intent_classification_vi/vocabulary/tokens.txt +0 -0
- trained_models/telemarketing_intent_classification_vi/weights.th +3 -0
.gitignore
CHANGED
@@ -4,5 +4,3 @@
|
|
4 |
|
5 |
**/flagged/
|
6 |
**/__pycache__/
|
7 |
-
|
8 |
-
trained_models/
|
|
|
4 |
|
5 |
**/flagged/
|
6 |
**/__pycache__/
|
|
|
|
trained_models/telemarketing_intent_classification_cn/config.json
ADDED
@@ -0,0 +1,79 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"dataset_reader": {
|
3 |
+
"type": "hierarchical_classification_json",
|
4 |
+
"token_indexers": {
|
5 |
+
"tokens": {
|
6 |
+
"type": "single_id",
|
7 |
+
"namespace": "tokens",
|
8 |
+
"lowercase_tokens": true,
|
9 |
+
"token_min_padding_length": 5
|
10 |
+
}
|
11 |
+
},
|
12 |
+
"tokenizer": {
|
13 |
+
"type": "pretrained_transformer",
|
14 |
+
"model_name": "pretrained_models/chinese-bert-wwm-ext"
|
15 |
+
}
|
16 |
+
},
|
17 |
+
"train_data_path": "train.json",
|
18 |
+
"validation_data_path": "valid.json",
|
19 |
+
"vocabulary": {
|
20 |
+
"directory_path": "vocabulary"
|
21 |
+
},
|
22 |
+
"model": {
|
23 |
+
"type": "hierarchical_classifier",
|
24 |
+
"hierarchical_labels_pkl": "trained_models/telemarketing_intent_classification_cn/hierarchical_labels.pkl",
|
25 |
+
"text_field_embedder": {
|
26 |
+
"token_embedders": {
|
27 |
+
"tokens": {
|
28 |
+
"type": "embedding",
|
29 |
+
"num_embeddings": 21128,
|
30 |
+
"embedding_dim": 128
|
31 |
+
}
|
32 |
+
}
|
33 |
+
},
|
34 |
+
"seq2seq_encoder": {
|
35 |
+
"type": "stacked_self_attention",
|
36 |
+
"input_dim": 128,
|
37 |
+
"hidden_dim": 128,
|
38 |
+
"projection_dim": 128,
|
39 |
+
"feedforward_hidden_dim": 128,
|
40 |
+
"num_layers": 2,
|
41 |
+
"num_attention_heads": 4,
|
42 |
+
"use_positional_encoding": false
|
43 |
+
},
|
44 |
+
"seq2vec_encoder": {
|
45 |
+
"type": "cnn",
|
46 |
+
"embedding_dim": 128,
|
47 |
+
"num_filters": 32,
|
48 |
+
"ngram_filter_sizes": [
|
49 |
+
2,
|
50 |
+
3,
|
51 |
+
4,
|
52 |
+
5
|
53 |
+
]
|
54 |
+
}
|
55 |
+
},
|
56 |
+
"data_loader": {
|
57 |
+
"type": "multiprocess",
|
58 |
+
"batch_size": 64,
|
59 |
+
"shuffle": true
|
60 |
+
},
|
61 |
+
"trainer": {
|
62 |
+
"type": "gradient_descent",
|
63 |
+
"cuda_device": -1,
|
64 |
+
"optimizer": {
|
65 |
+
"type": "bert_adam",
|
66 |
+
"lr": 5e-05,
|
67 |
+
"warmup": 0.1,
|
68 |
+
"t_total": 50000,
|
69 |
+
"schedule": "warmup_linear"
|
70 |
+
},
|
71 |
+
"checkpointer": {
|
72 |
+
"serialization_dir": "serialization_dir2",
|
73 |
+
"keep_most_recent_by_count": 10
|
74 |
+
},
|
75 |
+
"patience": 5,
|
76 |
+
"validation_metric": "+accuracy",
|
77 |
+
"num_epochs": 200
|
78 |
+
}
|
79 |
+
}
|
trained_models/telemarketing_intent_classification_cn/hierarchical_labels.pkl
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:6a65f076d3b0a1a04987dcd302a655bf35f8850ca918613c8b985a74c879fb2c
|
3 |
+
size 1669
|
trained_models/telemarketing_intent_classification_cn/vocabulary/labels.txt
ADDED
@@ -0,0 +1,99 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
相关领域_考虑一下
|
2 |
+
相关领域_实体(地址)
|
3 |
+
相关领域_遭遇不幸
|
4 |
+
相关领域_污言秽语
|
5 |
+
相关领域_实体(人名)
|
6 |
+
相关领域_资金困难
|
7 |
+
相关领域_答非所问
|
8 |
+
相关领域_做自我介绍
|
9 |
+
相关领域_礼貌用语
|
10 |
+
相关领域_请讲重点
|
11 |
+
相关领域_肯定(可以)
|
12 |
+
相关领域_肯定(是的)
|
13 |
+
相关领域_答数值
|
14 |
+
相关领域_招呼用语
|
15 |
+
相关领域_查收费方式
|
16 |
+
相关领域_否定(不需要)
|
17 |
+
相关领域_政治敏感
|
18 |
+
相关领域_祝福用语
|
19 |
+
相关领域_查详细信息
|
20 |
+
相关领域_肯定(嗯嗯)
|
21 |
+
相关领域_答时间
|
22 |
+
相关领域_要求复述
|
23 |
+
相关领域_改天再谈
|
24 |
+
相关领域_否定(没有)
|
25 |
+
相关领域_查操作流程
|
26 |
+
相关领域_肯定(好的)
|
27 |
+
相关领域_语气词
|
28 |
+
相关领域_赞美用语
|
29 |
+
相关领域_是否机器人
|
30 |
+
相关领域_查自我介绍
|
31 |
+
相关领域_不信任
|
32 |
+
相关领域_否定(不方便)
|
33 |
+
相关领域_疑问(数值)
|
34 |
+
相关领域_肯定(知道了)
|
35 |
+
相关领域_否定(不用了)
|
36 |
+
相关领域_价格太高
|
37 |
+
相关领域_肯定(需要)
|
38 |
+
相关领域_肯定(有)
|
39 |
+
相关领域_用户正忙
|
40 |
+
相关领域_否定答复
|
41 |
+
相关领域_否定(不是)
|
42 |
+
相关领域_实体(时长)
|
43 |
+
相关领域_骚扰电话
|
44 |
+
相关领域_疑问(地址)
|
45 |
+
相关领域_查公司介绍
|
46 |
+
相关领域_未能理解
|
47 |
+
相关领域_已完成
|
48 |
+
相关领域_否定(没时间)
|
49 |
+
相关领域_问意图
|
50 |
+
相关领域_答状态
|
51 |
+
相关领域_会按时处理
|
52 |
+
相关领域_请讲
|
53 |
+
相关领域_否定(不知道)
|
54 |
+
相关领域_加快速度
|
55 |
+
相关领域_查联系方式
|
56 |
+
相关领域_实体(组织)
|
57 |
+
相关领域_疑问(姓名)
|
58 |
+
相关领域_结束用语
|
59 |
+
相关领域_听不清楚
|
60 |
+
相关领域_语音信箱
|
61 |
+
相关领域_打错电话
|
62 |
+
相关领域_否定(不想要)
|
63 |
+
相关领域_否定(取消)
|
64 |
+
相关领域_你还在吗
|
65 |
+
相关领域_请求谅解
|
66 |
+
相关领域_听我说话
|
67 |
+
相关领域_投诉警告
|
68 |
+
相关领域_号码来源
|
69 |
+
相关领域_否定(不可以)
|
70 |
+
相关领域_肯定(正确)
|
71 |
+
相关领域_质疑来电号码
|
72 |
+
相关领域_肯定(没问题)
|
73 |
+
相关领域_转人工客服
|
74 |
+
相关领域_祝贺用语
|
75 |
+
相关领域_肯定(好了)
|
76 |
+
相关领域_疑问(时间)
|
77 |
+
相关领域_查物品信息
|
78 |
+
相关领域_查优惠政策
|
79 |
+
相关领域_请等一等
|
80 |
+
相关领域_否定(没兴趣)
|
81 |
+
相关领域_我在
|
82 |
+
相关领域_否定(错误)
|
83 |
+
相关领域_太少太低
|
84 |
+
相关领域_重复一次
|
85 |
+
相关领域_肯定答复
|
86 |
+
相关领域_时间推迟
|
87 |
+
相关领域_否定(不能)
|
88 |
+
相关领域_疑问(时长)
|
89 |
+
相关领域_无所谓
|
90 |
+
相关领域_已经购买
|
91 |
+
相关领域_否定(不清楚)
|
92 |
+
相关领域_资金充足
|
93 |
+
相关领域_质疑隐私安全
|
94 |
+
相关领域_会帮忙转告
|
95 |
+
相关领域_信号不好
|
96 |
+
相关领域_已经记录
|
97 |
+
相关领域_不是本人
|
98 |
+
相关领域_疑问(能否)
|
99 |
+
无关领域_无关领域
|
trained_models/telemarketing_intent_classification_cn/vocabulary/non_padded_namespaces.txt
ADDED
@@ -0,0 +1,2 @@
|
|
|
|
|
|
|
1 |
+
tokens
|
2 |
+
labels
|
trained_models/telemarketing_intent_classification_cn/vocabulary/tokens.txt
ADDED
The diff for this file is too large to render.
See raw diff
|
|
trained_models/telemarketing_intent_classification_cn/weights.th
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:e3febb06866a702b4e21b1f01eeb28eb3a49c5b0b25f22b649508441066a56a1
|
3 |
+
size 11910896
|
trained_models/telemarketing_intent_classification_en/config.json
ADDED
@@ -0,0 +1,79 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"dataset_reader": {
|
3 |
+
"type": "hierarchical_classification_json",
|
4 |
+
"token_indexers": {
|
5 |
+
"tokens": {
|
6 |
+
"type": "single_id",
|
7 |
+
"namespace": "tokens",
|
8 |
+
"lowercase_tokens": true,
|
9 |
+
"token_min_padding_length": 5
|
10 |
+
}
|
11 |
+
},
|
12 |
+
"tokenizer": {
|
13 |
+
"type": "pretrained_transformer",
|
14 |
+
"model_name": "pretrained_models/bert-base-uncased"
|
15 |
+
}
|
16 |
+
},
|
17 |
+
"train_data_path": "train.json",
|
18 |
+
"validation_data_path": "valid.json",
|
19 |
+
"vocabulary": {
|
20 |
+
"directory_path": "vocabulary"
|
21 |
+
},
|
22 |
+
"model": {
|
23 |
+
"type": "hierarchical_classifier",
|
24 |
+
"hierarchical_labels_pkl": "trained_models/telemarketing_intent_classification_en/hierarchical_labels.pkl",
|
25 |
+
"text_field_embedder": {
|
26 |
+
"token_embedders": {
|
27 |
+
"tokens": {
|
28 |
+
"type": "embedding",
|
29 |
+
"num_embeddings": 30522,
|
30 |
+
"embedding_dim": 128
|
31 |
+
}
|
32 |
+
}
|
33 |
+
},
|
34 |
+
"seq2seq_encoder": {
|
35 |
+
"type": "stacked_self_attention",
|
36 |
+
"input_dim": 128,
|
37 |
+
"hidden_dim": 128,
|
38 |
+
"projection_dim": 128,
|
39 |
+
"feedforward_hidden_dim": 128,
|
40 |
+
"num_layers": 2,
|
41 |
+
"num_attention_heads": 4,
|
42 |
+
"use_positional_encoding": false
|
43 |
+
},
|
44 |
+
"seq2vec_encoder": {
|
45 |
+
"type": "cnn",
|
46 |
+
"embedding_dim": 128,
|
47 |
+
"num_filters": 32,
|
48 |
+
"ngram_filter_sizes": [
|
49 |
+
2,
|
50 |
+
3,
|
51 |
+
4,
|
52 |
+
5
|
53 |
+
]
|
54 |
+
}
|
55 |
+
},
|
56 |
+
"data_loader": {
|
57 |
+
"type": "multiprocess",
|
58 |
+
"batch_size": 64,
|
59 |
+
"shuffle": true
|
60 |
+
},
|
61 |
+
"trainer": {
|
62 |
+
"type": "gradient_descent",
|
63 |
+
"cuda_device": -1,
|
64 |
+
"optimizer": {
|
65 |
+
"type": "bert_adam",
|
66 |
+
"lr": 5e-05,
|
67 |
+
"warmup": 0.1,
|
68 |
+
"t_total": 50000,
|
69 |
+
"schedule": "warmup_linear"
|
70 |
+
},
|
71 |
+
"checkpointer": {
|
72 |
+
"serialization_dir": "serialization_dir2",
|
73 |
+
"keep_most_recent_by_count": 10
|
74 |
+
},
|
75 |
+
"patience": 5,
|
76 |
+
"validation_metric": "+accuracy",
|
77 |
+
"num_epochs": 200
|
78 |
+
}
|
79 |
+
}
|
trained_models/telemarketing_intent_classification_en/hierarchical_labels.pkl
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:2f36f59c1d25e3e84be037ceedfa257c069f9ec9357b4236aa05963a4881af10
|
3 |
+
size 1843
|
trained_models/telemarketing_intent_classification_en/vocabulary/labels.txt
ADDED
@@ -0,0 +1,114 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
相关领域_做自我介绍
|
2 |
+
相关领域_资金困难
|
3 |
+
相关领域_否定(not)
|
4 |
+
相关领域_否定(no)
|
5 |
+
相关领域_已经拥有
|
6 |
+
相关领域_遭遇不幸
|
7 |
+
相关领域_否定(not need)
|
8 |
+
相关领域_许下愿望
|
9 |
+
相关领域_资金充足
|
10 |
+
相关领域_号码来源
|
11 |
+
相关领域_质疑来电号码
|
12 |
+
相关领域_不信任
|
13 |
+
相关领域_否定句
|
14 |
+
相关领域_招呼用语
|
15 |
+
相关领域_答时间
|
16 |
+
相关领域_语气词
|
17 |
+
相关领域_查自我介绍
|
18 |
+
相关领域_疑问(地址)
|
19 |
+
相关领域_你还在吗
|
20 |
+
相关领域_问意图
|
21 |
+
相关领域_我在
|
22 |
+
相关领域_实体(人名)
|
23 |
+
相关领域_答状态
|
24 |
+
相关领域_赞美用语
|
25 |
+
相关领域_语音信箱
|
26 |
+
相关领域_用户正忙
|
27 |
+
相关领域_结束用语
|
28 |
+
相关领域_疑问
|
29 |
+
相关领域_疑问(时间)
|
30 |
+
相关领域_疑问(姓名)
|
31 |
+
相关领域_疑问(数值)
|
32 |
+
相关领域_查收费方式
|
33 |
+
相关领域_肯定(why not)
|
34 |
+
相关领域_肯定(sure)
|
35 |
+
相关领域_查物品信息
|
36 |
+
相关领域_要求复述
|
37 |
+
相关领域_未能理解
|
38 |
+
相关领域_请求谅解
|
39 |
+
相关领域_听我说话
|
40 |
+
相关领域_肯定(yes)
|
41 |
+
相关领域_转账完成
|
42 |
+
相关领域_骚扰电话
|
43 |
+
相关领域_消极情绪
|
44 |
+
相关领域_无所谓
|
45 |
+
相关领域_污言秽语
|
46 |
+
相关领域_投诉警告
|
47 |
+
相关领域_听不清楚
|
48 |
+
相关领域_否定(dont want)
|
49 |
+
相关领域_肯定(alright)
|
50 |
+
相关领域_肯定(ok)
|
51 |
+
相关领域_太少太低
|
52 |
+
相关领域_是否机器人
|
53 |
+
相关领域_请讲
|
54 |
+
相关领域_请等一等
|
55 |
+
相关领域_贫穷词汇
|
56 |
+
相关领域_答非所问
|
57 |
+
相关领域_无关领域
|
58 |
+
相关领域_礼貌用语
|
59 |
+
相关领域_已完成
|
60 |
+
相关领域_肯定(yes I do)
|
61 |
+
相关领域_会按时处理
|
62 |
+
相关领域_肯定(no problem)
|
63 |
+
相关领域_肯定(姓名)
|
64 |
+
相关领域_正在进行
|
65 |
+
相关领域_肯定(agree)
|
66 |
+
相关领域_肯定(understand)
|
67 |
+
相关领域_肯定(correct)
|
68 |
+
相关领域_肯定(I see)
|
69 |
+
相关领域_肯定(i can)
|
70 |
+
相关领域_别担心
|
71 |
+
相关领域_否定(dont know)
|
72 |
+
相关领域_太多太高
|
73 |
+
相关领域_肯定(go ahead)
|
74 |
+
相关领域_肯定(interested)
|
75 |
+
相关领域_价格太高
|
76 |
+
相关领域_改天再谈
|
77 |
+
相关领域_否定(dont have)
|
78 |
+
相关领域_否定(not sure)
|
79 |
+
相关领域_否定(cant)
|
80 |
+
相关领域_否定(wrong)
|
81 |
+
相关领域_否定(not interested)
|
82 |
+
相关领域_打错电话
|
83 |
+
相关领域_查详细信息
|
84 |
+
相关领域_疑问(长度)
|
85 |
+
相关领域_查公司介绍
|
86 |
+
相关领域_暴力敏感
|
87 |
+
相关领域_实体(数值)
|
88 |
+
相关领域_疑问(金额)
|
89 |
+
相关领域_考虑一下
|
90 |
+
相关领域_查操作流程
|
91 |
+
相关领域_祝福用语
|
92 |
+
相关领域_答地址
|
93 |
+
相关领域_太迟了
|
94 |
+
相关领域_加快速度
|
95 |
+
相关领域_鼓励用语
|
96 |
+
相关领域_肯定(i know)
|
97 |
+
相关领域_否定(refuse)
|
98 |
+
相关领域_解释原因
|
99 |
+
相关领域_疑问(whats up)
|
100 |
+
相关领域_肯定(need)
|
101 |
+
相关领域_否定(nothing)
|
102 |
+
相关领域_否定(not enough)
|
103 |
+
相关领域_重复一次
|
104 |
+
相关领域_提出建议
|
105 |
+
相关领域_色情敏感
|
106 |
+
相关领域_政治敏感
|
107 |
+
相关领域_肯定(i want)
|
108 |
+
相关领域_否定(not available)
|
109 |
+
相关领域_陈述(ready)
|
110 |
+
相关领域_陈述(forget)
|
111 |
+
相关领域_否定(no time)
|
112 |
+
无关领域_无关领域
|
113 |
+
无关领域_实体(数值)
|
114 |
+
无关领域_疑问
|
trained_models/telemarketing_intent_classification_en/vocabulary/non_padded_namespaces.txt
ADDED
@@ -0,0 +1,2 @@
|
|
|
|
|
|
|
1 |
+
tokens
|
2 |
+
labels
|
trained_models/telemarketing_intent_classification_en/vocabulary/tokens.txt
ADDED
The diff for this file is too large to render.
See raw diff
|
|
trained_models/telemarketing_intent_classification_en/weights.th
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:5979cf94a7a26071b81789b32c1027e4281529d9844343b0ef50b698949c2f35
|
3 |
+
size 16728304
|
trained_models/telemarketing_intent_classification_jp/config.json
ADDED
@@ -0,0 +1,79 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"dataset_reader": {
|
3 |
+
"type": "hierarchical_classification_json",
|
4 |
+
"token_indexers": {
|
5 |
+
"tokens": {
|
6 |
+
"type": "single_id",
|
7 |
+
"namespace": "tokens",
|
8 |
+
"lowercase_tokens": true,
|
9 |
+
"token_min_padding_length": 5
|
10 |
+
}
|
11 |
+
},
|
12 |
+
"tokenizer": {
|
13 |
+
"type": "pretrained_transformer",
|
14 |
+
"model_name": "pretrained_models/bert-base-japanese"
|
15 |
+
}
|
16 |
+
},
|
17 |
+
"train_data_path": "train.json",
|
18 |
+
"validation_data_path": "valid.json",
|
19 |
+
"vocabulary": {
|
20 |
+
"directory_path": "vocabulary"
|
21 |
+
},
|
22 |
+
"model": {
|
23 |
+
"type": "hierarchical_classifier",
|
24 |
+
"hierarchical_labels_pkl": "trained_models/telemarketing_intent_classification_jp/hierarchical_labels.pkl",
|
25 |
+
"text_field_embedder": {
|
26 |
+
"token_embedders": {
|
27 |
+
"tokens": {
|
28 |
+
"type": "embedding",
|
29 |
+
"num_embeddings": 32000,
|
30 |
+
"embedding_dim": 128
|
31 |
+
}
|
32 |
+
}
|
33 |
+
},
|
34 |
+
"seq2seq_encoder": {
|
35 |
+
"type": "stacked_self_attention",
|
36 |
+
"input_dim": 128,
|
37 |
+
"hidden_dim": 128,
|
38 |
+
"projection_dim": 128,
|
39 |
+
"feedforward_hidden_dim": 128,
|
40 |
+
"num_layers": 2,
|
41 |
+
"num_attention_heads": 4,
|
42 |
+
"use_positional_encoding": false
|
43 |
+
},
|
44 |
+
"seq2vec_encoder": {
|
45 |
+
"type": "cnn",
|
46 |
+
"embedding_dim": 128,
|
47 |
+
"num_filters": 32,
|
48 |
+
"ngram_filter_sizes": [
|
49 |
+
2,
|
50 |
+
3,
|
51 |
+
4,
|
52 |
+
5
|
53 |
+
]
|
54 |
+
}
|
55 |
+
},
|
56 |
+
"data_loader": {
|
57 |
+
"type": "multiprocess",
|
58 |
+
"batch_size": 64,
|
59 |
+
"shuffle": true
|
60 |
+
},
|
61 |
+
"trainer": {
|
62 |
+
"type": "gradient_descent",
|
63 |
+
"cuda_device": -1,
|
64 |
+
"optimizer": {
|
65 |
+
"type": "bert_adam",
|
66 |
+
"lr": 5e-05,
|
67 |
+
"warmup": 0.1,
|
68 |
+
"t_total": 50000,
|
69 |
+
"schedule": "warmup_linear"
|
70 |
+
},
|
71 |
+
"checkpointer": {
|
72 |
+
"serialization_dir": "serialization_dir2",
|
73 |
+
"keep_most_recent_by_count": 10
|
74 |
+
},
|
75 |
+
"patience": 5,
|
76 |
+
"validation_metric": "+accuracy",
|
77 |
+
"num_epochs": 200
|
78 |
+
}
|
79 |
+
}
|
trained_models/telemarketing_intent_classification_jp/hierarchical_labels.pkl
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:2a88bbcef6186c4c4cea96e847bbcde9f62a7773970ae6c35dfaf1e515f14469
|
3 |
+
size 1519
|
trained_models/telemarketing_intent_classification_jp/vocabulary/labels.txt
ADDED
@@ -0,0 +1,89 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
相关领域_语气词
|
2 |
+
相关领域_赞美用语
|
3 |
+
相关领域_语音信箱
|
4 |
+
相关领域_实体(人名)
|
5 |
+
相关领域_肯定(はい)
|
6 |
+
相关领域_查自我介绍
|
7 |
+
相关领域_否定(ない)
|
8 |
+
相关领域_未能理解
|
9 |
+
相关领域_查物品信息
|
10 |
+
相关领域_招呼用语
|
11 |
+
相关领域_否定(ません)
|
12 |
+
相关领域_肯定答复
|
13 |
+
相关领域_是否机器人
|
14 |
+
相关领域_否定(いいえ)
|
15 |
+
相关领域_否定(不知道)
|
16 |
+
相关领域_否定答复
|
17 |
+
相关领域_重复一次
|
18 |
+
相关领域_请等一等
|
19 |
+
相关领域_礼貌用语
|
20 |
+
相关领域_请求谅解
|
21 |
+
相关领域_否定(できません)
|
22 |
+
相关领域_做自我介绍
|
23 |
+
相关领域_否定(没有)
|
24 |
+
相关领域_答数值
|
25 |
+
相关领域_肯定(そう)
|
26 |
+
相关领域_否定(いらない)
|
27 |
+
相关领域_实体(时间)
|
28 |
+
相关领域_实体(地址)
|
29 |
+
相关领域_用户正忙
|
30 |
+
相关领域_疑问(原因)
|
31 |
+
相关领域_结束用语
|
32 |
+
相关领域_否定(いや)
|
33 |
+
相关领域_污言秽语
|
34 |
+
相关领域_无所谓
|
35 |
+
相关领域_语气助词
|
36 |
+
相关领域_疑问(地址)
|
37 |
+
相关领域_请讲
|
38 |
+
相关领域_听不清楚
|
39 |
+
相关领域_已经完成
|
40 |
+
相关领域_听我说话
|
41 |
+
相关领域_否定(不记得)
|
42 |
+
相关领域_不信任
|
43 |
+
相关领域_肯定(正确)
|
44 |
+
相关领域_疑问(哪个)
|
45 |
+
相关领域_疑问(助词)
|
46 |
+
相关领域_否定(結構)
|
47 |
+
相关领域_你还在吗
|
48 |
+
相关领域_查公司介绍
|
49 |
+
相关领域_疑问(时间)
|
50 |
+
相关领域_肯定(好的)
|
51 |
+
相关领域_骚扰电话
|
52 |
+
相关领域_要求复述
|
53 |
+
相关领域_查联系方式
|
54 |
+
相关领域_肯定(能够)
|
55 |
+
相关领域_否定(取消)
|
56 |
+
相关领域_否定(错误)
|
57 |
+
相关领域_我在
|
58 |
+
相关领域_查收费方式
|
59 |
+
相关领域_疑问(时长)
|
60 |
+
相关领域_否定(dont)
|
61 |
+
相关领域_问意图
|
62 |
+
相关领域_肯定(可以)
|
63 |
+
相关领域_肯定(いい)
|
64 |
+
相关领域_投诉警告
|
65 |
+
相关领域_回播(かけ直す)
|
66 |
+
相关领域_查详细信息
|
67 |
+
相关领域_疑问(如何)
|
68 |
+
相关领域_否定(没兴趣)
|
69 |
+
相关领域_否定(いらね)
|
70 |
+
相关领域_否定(不能)
|
71 |
+
相关领域_否定(不可以)
|
72 |
+
相关领域_暴力敏感
|
73 |
+
相关领域_否定(拒绝)
|
74 |
+
相关领域_别担心
|
75 |
+
相关领域_肯定(是的)
|
76 |
+
相关领域_肯定(知道了)
|
77 |
+
相关领域_消极情绪
|
78 |
+
相关领域_无关领域
|
79 |
+
相关领域_考虑一下
|
80 |
+
相关领域_疑问(数值)
|
81 |
+
相关领域_资金困难
|
82 |
+
相关领域_太多了
|
83 |
+
相关领域_肯定(有)
|
84 |
+
相关领域_实体(物品)
|
85 |
+
相关领域_查操作流程
|
86 |
+
相关领域_打错电话
|
87 |
+
相关领域_否定(没时间)
|
88 |
+
相关领域_肯定(没问题)
|
89 |
+
无关领域_无关领域
|
trained_models/telemarketing_intent_classification_jp/vocabulary/non_padded_namespaces.txt
ADDED
@@ -0,0 +1,2 @@
|
|
|
|
|
|
|
1 |
+
tokens
|
2 |
+
labels
|
trained_models/telemarketing_intent_classification_jp/vocabulary/tokens.txt
ADDED
The diff for this file is too large to render.
See raw diff
|
|
trained_models/telemarketing_intent_classification_jp/weights.th
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:3d68f67c7d9a5f7fa905c9761ffb068d1a0fec2c9ae5287c88a95b858e334e7e
|
3 |
+
size 17472176
|
trained_models/telemarketing_intent_classification_vi/config.json
ADDED
@@ -0,0 +1,79 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"dataset_reader": {
|
3 |
+
"type": "hierarchical_classification_json",
|
4 |
+
"token_indexers": {
|
5 |
+
"tokens": {
|
6 |
+
"type": "single_id",
|
7 |
+
"namespace": "tokens",
|
8 |
+
"lowercase_tokens": true,
|
9 |
+
"token_min_padding_length": 5
|
10 |
+
}
|
11 |
+
},
|
12 |
+
"tokenizer": {
|
13 |
+
"type": "pretrained_transformer",
|
14 |
+
"model_name": "pretrained_models/bert-base-vietnamese-uncased"
|
15 |
+
}
|
16 |
+
},
|
17 |
+
"train_data_path": "train.json",
|
18 |
+
"validation_data_path": "valid.json",
|
19 |
+
"vocabulary": {
|
20 |
+
"directory_path": "vocabulary"
|
21 |
+
},
|
22 |
+
"model": {
|
23 |
+
"type": "hierarchical_classifier",
|
24 |
+
"hierarchical_labels_pkl": "trained_models/telemarketing_intent_classification_vi/hierarchical_labels.pkl",
|
25 |
+
"text_field_embedder": {
|
26 |
+
"token_embedders": {
|
27 |
+
"tokens": {
|
28 |
+
"type": "embedding",
|
29 |
+
"num_embeddings": 32000,
|
30 |
+
"embedding_dim": 128
|
31 |
+
}
|
32 |
+
}
|
33 |
+
},
|
34 |
+
"seq2seq_encoder": {
|
35 |
+
"type": "stacked_self_attention",
|
36 |
+
"input_dim": 128,
|
37 |
+
"hidden_dim": 128,
|
38 |
+
"projection_dim": 128,
|
39 |
+
"feedforward_hidden_dim": 128,
|
40 |
+
"num_layers": 2,
|
41 |
+
"num_attention_heads": 4,
|
42 |
+
"use_positional_encoding": false
|
43 |
+
},
|
44 |
+
"seq2vec_encoder": {
|
45 |
+
"type": "cnn",
|
46 |
+
"embedding_dim": 128,
|
47 |
+
"num_filters": 32,
|
48 |
+
"ngram_filter_sizes": [
|
49 |
+
2,
|
50 |
+
3,
|
51 |
+
4,
|
52 |
+
5
|
53 |
+
]
|
54 |
+
}
|
55 |
+
},
|
56 |
+
"data_loader": {
|
57 |
+
"type": "multiprocess",
|
58 |
+
"batch_size": 64,
|
59 |
+
"shuffle": true
|
60 |
+
},
|
61 |
+
"trainer": {
|
62 |
+
"type": "gradient_descent",
|
63 |
+
"cuda_device": -1,
|
64 |
+
"optimizer": {
|
65 |
+
"type": "bert_adam",
|
66 |
+
"lr": 5e-05,
|
67 |
+
"warmup": 0.1,
|
68 |
+
"t_total": 50000,
|
69 |
+
"schedule": "warmup_linear"
|
70 |
+
},
|
71 |
+
"checkpointer": {
|
72 |
+
"serialization_dir": "serialization_dir2",
|
73 |
+
"keep_most_recent_by_count": 10
|
74 |
+
},
|
75 |
+
"patience": 5,
|
76 |
+
"validation_metric": "+accuracy",
|
77 |
+
"num_epochs": 200
|
78 |
+
}
|
79 |
+
}
|
trained_models/telemarketing_intent_classification_vi/hierarchical_labels.pkl
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:ba4048e3df814b67e1243edf7a3219f8d357b4b6868db1f486ac93e4d7c92602
|
3 |
+
size 1705
|
trained_models/telemarketing_intent_classification_vi/vocabulary/labels.txt
ADDED
@@ -0,0 +1,94 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
无关领域_无关领域
|
2 |
+
相关领域_肯定(好的)
|
3 |
+
相关领域_肯定(可以)
|
4 |
+
相关领域_答时间
|
5 |
+
相关领域_否定(không cần)
|
6 |
+
相关领域_不信任
|
7 |
+
相关领域_肯定(知道了)
|
8 |
+
相关领域_肯定(ừ)
|
9 |
+
相关领域_肯定(có thể)
|
10 |
+
相关领域_疑问(时间)
|
11 |
+
相关领域_赞美用语
|
12 |
+
相关领域_请等一等
|
13 |
+
相关领域_已经记录
|
14 |
+
相关领域_语气词
|
15 |
+
相关领域_要求复述
|
16 |
+
相关领域_否定(chưa)
|
17 |
+
相关领域_打错电话
|
18 |
+
相关领域_查物品信息
|
19 |
+
相关领域_礼貌用语
|
20 |
+
相关领域_实体(地址)
|
21 |
+
相关领域_肯定(đúng rồi)
|
22 |
+
相关领域_招呼用语
|
23 |
+
相关领域_祝福用语
|
24 |
+
相关领域_查自我介绍
|
25 |
+
相关领域_问意图
|
26 |
+
相关领域_疑问(地址)
|
27 |
+
相关领域_我在
|
28 |
+
相关领域_肯定(vang)
|
29 |
+
相关领域_肯定(chắc chắn)
|
30 |
+
相关领域_会按时处理
|
31 |
+
相关领域_肯定(有兴趣)
|
32 |
+
相关领域_肯定(phải)
|
33 |
+
相关领域_否定(không biết)
|
34 |
+
相关领域_陈述句
|
35 |
+
相关领域_肯定(是的)
|
36 |
+
相关领域_未能理解
|
37 |
+
相关领域_已完成
|
38 |
+
相关领域_肯定(có)
|
39 |
+
相关领域_请讲
|
40 |
+
相关领域_肯定(biết)
|
41 |
+
相关领域_肯定(không sao)
|
42 |
+
相关领域_否定(không)
|
43 |
+
相关领域_否定(không có)
|
44 |
+
相关领域_否定(không tham gia)
|
45 |
+
相关领域_否定(nhầm rồi)
|
46 |
+
相关领域_否定(không nhớ)
|
47 |
+
相关领域_否定(không phải)
|
48 |
+
相关领域_否定(không có rảnh)
|
49 |
+
相关领域_语音信箱
|
50 |
+
相关领域_是否机器人
|
51 |
+
相关领域_否定(không bao)
|
52 |
+
相关领域_听不清楚
|
53 |
+
相关领域_投诉警告
|
54 |
+
相关领域_质疑来电号码
|
55 |
+
相关领域_做自我介绍
|
56 |
+
相关领域_非本人会转告
|
57 |
+
相关领域_新办手机号
|
58 |
+
相关领域_消极情绪
|
59 |
+
相关领域_遭遇不幸
|
60 |
+
相关领域_贫穷词汇
|
61 |
+
相关领域_资金困难
|
62 |
+
相关领域_骚扰电话
|
63 |
+
相关领域_否定(chưa làm)
|
64 |
+
相关领域_疑问(数值)
|
65 |
+
相关领域_肯定(dạ)
|
66 |
+
相关领域_肯定(有需要)
|
67 |
+
相关领域_用户答非所问
|
68 |
+
相关领域_否定(không được)
|
69 |
+
相关领域_查收费方式
|
70 |
+
相关领域_听我说话
|
71 |
+
相关领域_查时间
|
72 |
+
相关领域_答数值
|
73 |
+
相关领域_查操作流程
|
74 |
+
相关领域_否定(thôi)
|
75 |
+
相关领域_肯定(同意)
|
76 |
+
相关领域_别担心
|
77 |
+
相关领域_请求谅解
|
78 |
+
相关领域_用户正忙
|
79 |
+
相关领域_质疑隐私安全
|
80 |
+
相关领域_查公司介绍
|
81 |
+
相关领域_你还在吗
|
82 |
+
相关领域_肯定(có nhu)
|
83 |
+
相关领域_否定(không có nhu)
|
84 |
+
相关领域_否定(chưa có nhu)
|
85 |
+
相关领域_否定(không quan tâm)
|
86 |
+
相关领域_疑问(姓名)
|
87 |
+
相关领域_答非所问
|
88 |
+
相关领域_否定(không hiểu)
|
89 |
+
相关领域_资金充足
|
90 |
+
相关领域_疑问(时长)
|
91 |
+
相关领域_否定答复
|
92 |
+
相关领域_查详细信息
|
93 |
+
相关领域_疑问(什么)
|
94 |
+
相关领域_请讲重点
|
trained_models/telemarketing_intent_classification_vi/vocabulary/non_padded_namespaces.txt
ADDED
@@ -0,0 +1,2 @@
|
|
|
|
|
|
|
1 |
+
labels
|
2 |
+
tokens
|
trained_models/telemarketing_intent_classification_vi/vocabulary/tokens.txt
ADDED
The diff for this file is too large to render.
See raw diff
|
|
trained_models/telemarketing_intent_classification_vi/weights.th
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:2a618e9c6b9c0c4c41b8ff7a3c9563dd36573a75a9a2e49e12383fa918170213
|
3 |
+
size 17474736
|