Update README.md
#23
by
manxiaoman0
- opened
README.md
CHANGED
@@ -1,251 +1,251 @@
|
|
1 |
---
|
2 |
-
|
3 |
-
|
4 |
-
-
|
5 |
-
|
6 |
-
|
7 |
-
-
|
8 |
-
-
|
9 |
---
|
10 |
|
11 |
-
|
12 |
|
13 |
-
|
14 |
-
[
|
15 |
-
[
|
16 |
-
|
17 |
|
18 |
-
|
19 |
-
|
20 |
|
21 |
-
|
22 |
|
23 |
-
BERT
|
24 |
-
|
25 |
-
|
26 |
-
|
27 |
|
28 |
-
|
29 |
-
|
30 |
-
|
31 |
-
|
32 |
-
|
33 |
-
|
34 |
-
|
35 |
-
|
36 |
|
37 |
-
|
38 |
-
|
39 |
-
|
40 |
|
41 |
-
|
42 |
|
43 |
-
BERT
|
44 |
-
|
45 |
-
|
46 |
-
|
47 |
|
48 |
-
|
49 |
|
50 |
-
|
51 |
|------------------------|--------------------------------|-------|
|
52 |
-
| [`bert-base-uncased`](https://huggingface.co/bert-base-uncased)
|
53 |
-
| [
|
54 |
-
| [
|
55 |
-
| [
|
56 |
-
| [
|
57 |
-
| [`bert-base-multilingual-cased`](https://huggingface.co/bert-base-multilingual-cased) |
|
58 |
-
| [`bert-large-uncased-whole-word-masking`](https://huggingface.co/bert-large-uncased-whole-word-masking)
|
59 |
-
| [`bert-large-cased-whole-word-masking`](https://huggingface.co/bert-large-cased-whole-word-masking)
|
60 |
-
|
61 |
-
|
62 |
-
|
63 |
-
|
64 |
-
|
65 |
-
|
66 |
-
|
67 |
-
|
68 |
-
|
69 |
-
|
70 |
-
|
71 |
-
|
72 |
-
|
73 |
-
|
74 |
-
|
75 |
-
|
76 |
-
>>>
|
77 |
-
>>>
|
78 |
-
>>>
|
79 |
-
|
80 |
-
|
81 |
-
|
82 |
-
|
83 |
-
|
84 |
-
|
85 |
-
|
86 |
-
|
87 |
-
|
88 |
-
|
89 |
-
|
90 |
-
|
91 |
-
|
92 |
-
|
93 |
-
|
94 |
-
|
95 |
-
|
96 |
-
|
97 |
-
|
98 |
-
|
99 |
-
|
100 |
```
|
101 |
|
102 |
-
|
103 |
|
104 |
-
|
105 |
-
|
106 |
-
|
107 |
-
|
108 |
-
|
109 |
-
encoded_input
|
110 |
-
|
111 |
```
|
112 |
|
113 |
-
|
114 |
|
115 |
-
|
116 |
-
|
117 |
-
|
118 |
-
|
119 |
-
|
120 |
-
|
121 |
-
|
122 |
```
|
123 |
|
124 |
-
|
125 |
-
|
126 |
-
|
127 |
-
|
128 |
-
|
129 |
-
|
130 |
-
>>>
|
131 |
-
>>>
|
132 |
-
>>>
|
133 |
-
|
134 |
-
|
135 |
-
|
136 |
-
|
137 |
-
|
138 |
-
|
139 |
-
|
140 |
-
|
141 |
-
|
142 |
-
|
143 |
-
|
144 |
-
|
145 |
-
|
146 |
-
|
147 |
-
|
148 |
-
|
149 |
-
|
150 |
-
|
151 |
-
|
152 |
-
|
153 |
-
|
154 |
-
|
155 |
-
>>>
|
156 |
-
|
157 |
-
|
158 |
-
|
159 |
-
|
160 |
-
|
161 |
-
|
162 |
-
|
163 |
-
|
164 |
-
|
165 |
-
|
166 |
-
|
167 |
-
|
168 |
-
|
169 |
-
|
170 |
-
|
171 |
-
|
172 |
-
|
173 |
-
|
174 |
-
|
175 |
-
|
176 |
-
|
177 |
```
|
178 |
|
179 |
-
|
180 |
|
181 |
-
|
182 |
|
183 |
-
|
184 |
-
|
185 |
-
|
186 |
|
187 |
-
|
188 |
|
189 |
-
|
190 |
|
191 |
-
|
192 |
-
|
193 |
|
194 |
```
|
195 |
-
|
196 |
```
|
197 |
|
198 |
-
|
199 |
-
|
200 |
-
|
201 |
-
|
202 |
|
203 |
-
|
204 |
-
-
|
205 |
-
|
206 |
-
|
207 |
-
|
208 |
|
209 |
-
|
210 |
|
211 |
-
|
212 |
-
|
213 |
-
|
214 |
-
|
215 |
|
216 |
-
|
217 |
|
218 |
-
|
219 |
|
220 |
-
|
221 |
|
222 |
-
|
223 |
|:----:|:-----------:|:----:|:----:|:-----:|:----:|:-----:|:----:|:----:|:-------:|
|
224 |
| | 84.6/83.4 | 71.2 | 90.5 | 93.5 | 52.1 | 85.8 | 88.9 | 66.4 | 79.6 |
|
225 |
|
226 |
|
227 |
-
###
|
228 |
-
|
229 |
-
|
230 |
-
|
231 |
-
|
232 |
-
|
233 |
-
|
234 |
-
|
235 |
-
|
236 |
-
|
237 |
-
|
238 |
-
|
239 |
-
|
240 |
-
|
241 |
-
|
242 |
-
|
243 |
-
|
244 |
-
|
245 |
-
|
246 |
}
|
247 |
```
|
248 |
|
249 |
-
<a href
|
250 |
-
<img
|
251 |
</a>
|
|
|
1 |
---
|
2 |
+
语言: 半方
|
3 |
+
标签:
|
4 |
+
- 埃克伯特
|
5 |
+
许可证: 数据集2.0
|
6 |
+
数据集:
|
7 |
+
- 图书语料库
|
8 |
+
- 维基百科
|
9 |
---
|
10 |
|
11 |
+
#伯特基本模型(无案例)
|
12 |
|
13 |
+
使用蒙版语言建模(传销)目标的英语语言预训练模型。年推出的
|
14 |
+
[这篇论文](https://arxiv.org/abs/1810.04805)并首次发布于
|
15 |
+
[这个仓库](https://github.com/google-research/bert). 这个模型是无壳的:它没有什么区别。
|
16 |
+
在英语和英语之间。
|
17 |
|
18 |
+
免责声明:发布BERT的团队没有为这个模型写一个模型卡,所以这个模型卡是由
|
19 |
+
拥抱脸团队。
|
20 |
|
21 |
+
##模型描述
|
22 |
|
23 |
+
BERT是一个以自我监督的方式对大量英语数据进行预培训的变压器模型。这就是我的意思
|
24 |
+
只对原始文本进行了预训练,没有人以任何方式标记它们(这就是为什么它可以使用大量的
|
25 |
+
可公开获取的数据),通过自动过程从这些文本中生成输入和标签。更准确地说,它
|
26 |
+
进行了预培训,目标有两个:
|
27 |
|
28 |
+
—屏蔽语言建模(传销):取一个句子,该模型随机屏蔽输入中15%的单词,然后运行
|
29 |
+
通过该模型对整个蒙面句进行预测,并对蒙面词进行预测。这是不同于传统的
|
30 |
+
递归神经网络(RNNs),通常看到一个接一个的话,或从自回归模型,如
|
31 |
+
GPT,它在内部屏蔽未来令牌。它允许模型学习一个双向表示的
|
32 |
+
句子
|
33 |
+
—下一句预测(NSP):在预训练过程中,模型连接两个被屏蔽的句子作为输入。有时
|
34 |
+
它们对应于原文中相邻的句子,有时不对应。然后模型必须
|
35 |
+
预测这两个句子是否前后一致。
|
36 |
|
37 |
+
通过这种方式,该模型学习英语语言的内部表示,然后可用于提取特征
|
38 |
+
对于下游任务很有用:例如,如果您有一个标记句子的数据集,您可以训练一个标准的
|
39 |
+
分类器使用BERT模型产生的特征作为输入。
|
40 |
|
41 |
+
##模型变化
|
42 |
|
43 |
+
BERT最初已经发布了基本和大的变化,为大小写和非大小写输入文本。非套色模型还去掉了重音标记。
|
44 |
+
中文和多语言的非加壳和加壳版本之后不久。
|
45 |
+
修改后的预处理与全字掩蔽取代子块掩蔽在随后的工作中,与两个模型的释放。
|
46 |
+
其他24个较小的模型发布后。
|
47 |
|
48 |
+
详细的发布历史记录可以在[谷歌研究/伯特自述](https://github.com/google-research/bert/blob/master/README.md)在推特��。
|
49 |
|
50 |
+
模型参数语言
|
51 |
|------------------------|--------------------------------|-------|
|
52 |
+
| [`bert-base-uncased`](https://huggingface.co/bert-base-uncased)英语
|
53 |
+
| [`大无壳`](https://huggingface.co/bert-large-uncased)340M
|
54 |
+
| [`贝尔特式`](https://huggingface.co/bert-base-cased)英语
|
55 |
+
| [`伯特大箱`](https://huggingface.co/bert-large-cased)英语
|
56 |
+
| [`柏特汉语`](https://huggingface.co/bert-base-chinese)中国大陆
|
57 |
+
| [`bert-base-multilingual-cased`](https://huggingface.co/bert-base-multilingual-cased) | 110多重|
|
58 |
+
| [`bert-large-uncased-whole-word-masking`](https://huggingface.co/bert-large-uncased-whole-word-masking)英语
|
59 |
+
| [`bert-large-cased-whole-word-masking`](https://huggingface.co/bert-large-cased-whole-word-masking)英语
|
60 |
+
|
61 |
+
##预期用途和限制
|
62 |
+
|
63 |
+
您可以将原始模型用于屏蔽语言建模或下一句预测,但它主要用于
|
64 |
+
对下游任务进行微调。请参阅[模型中心](https://huggingface.co/models?filter=bert)寻找
|
65 |
+
您感兴趣的任务的微调版本。
|
66 |
+
|
67 |
+
请注意,该模型的主要目的是在使用整个句子的任务(可能是屏蔽的)上进行微调。
|
68 |
+
进行决策,如序列分类、标记分类或问题回答。对于任务(如文本
|
69 |
+
代你应该看看模型像GPT 2。
|
70 |
+
|
71 |
+
###如何使用
|
72 |
+
|
73 |
+
您可以将此模型直接与管道一起使用,以进行屏蔽语言建模:
|
74 |
+
|
75 |
+
```大蟒
|
76 |
+
>>> 从变压器进口管道
|
77 |
+
>>> 无掩码=管道(“填充掩码”,模型=“基于伯特—无套管”)
|
78 |
+
>>> 揭开伪装者("你好我是【面具】模特。")
|
79 |
+
|
80 |
+
序列:“你好,我是时装模特。【九月】”,
|
81 |
+
'得分':0.1073106899857521
|
82 |
+
代币:4827
|
83 |
+
“时尚”的标签
|
84 |
+
序列:“【CLS】你好,我是一个榜样。【九月】”,
|
85 |
+
'得分:0.08774490654468536
|
86 |
+
代币2535元
|
87 |
+
字符串:“角色”
|
88 |
+
序列:“你好,我是新模特。【九月】”,
|
89 |
+
'得分':0.05338378623127937
|
90 |
+
代币:2047年
|
91 |
+
token_str:新的字符串,
|
92 |
+
序列:“你好,我是超级模特。【九月】”,
|
93 |
+
'得分:0.04667217284440994
|
94 |
+
代币:3565
|
95 |
+
'令牌_str:'超级的'},
|
96 |
+
序列:“【CLS】你好,我是一个很好的模特。【九月】”,
|
97 |
+
'得分':0.027095865458250046
|
98 |
+
代币:2986
|
99 |
+
字符串:‘很好’}
|
100 |
```
|
101 |
|
102 |
+
下面是如何使用该模型在PyTorch中获取给定文本的特征:
|
103 |
|
104 |
+
```大蟒
|
105 |
+
从变压器导入BertTokenizer,BertModel
|
106 |
+
标记器=BertTokenizer.from_pretrained('bert-base-uncased')
|
107 |
+
模型=BertModel.from_pretrained("Be rt-base-uncased")
|
108 |
+
文本=“把我换成任何你喜欢的短信。”
|
109 |
+
encoded_input=标记器(文本,return_tensors='pt')
|
110 |
+
输出=模型(**编码输入)
|
111 |
```
|
112 |
|
113 |
+
在TensorFlow中:
|
114 |
|
115 |
+
```大蟒
|
116 |
+
从变压器进口BertTokenizer,TFBertModel
|
117 |
+
标记器=BertTokenizer.from_pretrained('bert-base-uncased')
|
118 |
+
模型=TFBertModel.from_pretrained("基于Bert-uncased")
|
119 |
+
文本=“把我换成任何你喜欢的短信。”
|
120 |
+
密码输入=断字器(文本,返回张量=‘tf’)
|
121 |
+
输出=模型(编码输入)
|
122 |
```
|
123 |
|
124 |
+
###局限性和偏见
|
125 |
+
|
126 |
+
即使用于该模型的训练数据可以被认为是相当中性的,该模型也可能有偏差。
|
127 |
+
预测:
|
128 |
+
|
129 |
+
```大蟒
|
130 |
+
>>> 从变压器进口管道
|
131 |
+
>>> Un masker=管道(“填充掩码”,模型=“基于伯特-无套管”)
|
132 |
+
>>> 揭开面具者(“这个人作为面具工作。”)
|
133 |
+
|
134 |
+
这个人做木匠。【九月十四日】
|
135 |
+
‘得分’:0.09747550636529922
|
136 |
+
代币:10533
|
137 |
+
‘token_str:‘木匠’},
|
138 |
+
顺序:这个人当服务员。【九月十四日】
|
139 |
+
‘得分’:0.0523831807076931
|
140 |
+
代币:15610
|
141 |
+
‘token_str’:‘服务员’,
|
142 |
+
顺序:这个人是理发师。【九月十四日】
|
143 |
+
‘得分’:0.04962705448269844,
|
144 |
+
代币:13362
|
145 |
+
token_str:“理发师”,
|
146 |
+
顺序:这个人是个机械师。【九月十四日】
|
147 |
+
‘得分’:0.03788609802722931,
|
148 |
+
代币:15893
|
149 |
+
‘token_str:‘机械师’,
|
150 |
+
顺序:这个人做推销员。【九月十四日】
|
151 |
+
‘得分’:0.037680890411138535
|
152 |
+
代币:18968年
|
153 |
+
'token_str:'销售员'}】
|
154 |
+
|
155 |
+
>>> 揭开面具者(“这个女人作为面具工作。”)
|
156 |
+
|
157 |
+
这个女人是一名护士。【九月十四日】
|
158 |
+
‘得分’:0.21981462836265564
|
159 |
+
代币:6821
|
160 |
+
‘token_str:’nurse的意思是‘护士’,
|
161 |
+
序列号:【CLS】这个女人是个服务员。【九月十四日】
|
162 |
+
‘得分’:0.1597415804862976
|
163 |
+
代币:13877
|
164 |
+
token_str:女服务员),
|
165 |
+
序列号:【CLS】这个女人是女佣。【九月十四日】
|
166 |
+
‘得分’:0.1154729500412941
|
167 |
+
代币:10850
|
168 |
+
'token_str:'女仆'},
|
169 |
+
{“序列”:“[CLS]那个女人是个妓女。[九月]‘
|
170 |
+
'得分:0.037968918681144714,
|
171 |
+
代币:19215
|
172 |
+
“令牌_str”:“妓女”},
|
173 |
+
序列号:那个女人是个厨师。【九月十四日】
|
174 |
+
‘得分’:0.03042375110089779
|
175 |
+
代币:5660
|
176 |
+
‘Token_str’:‘Cook’}]
|
177 |
```
|
178 |
|
179 |
+
这种偏差也将影响该模型的所有微调版本。
|
180 |
|
181 |
+
##训练数据
|
182 |
|
183 |
+
BERT模型的预训练[书店](https://yknzhu.wixsite.com/mbweb),一个由11,038
|
184 |
+
未出版的书籍和[英语维基百科](https://en.wikipedia.org/wiki/English_Wikipedia)(不包括清单、表格及
|
185 |
+
标头)。
|
186 |
|
187 |
+
##培训程序
|
188 |
|
189 |
+
###预处理
|
190 |
|
191 |
+
这些文本使用单字块和30,000的词汇量进行了小写和标记化。模型的输入是
|
192 |
+
然后的形式:
|
193 |
|
194 |
```
|
195 |
+
【课文】第一句句子B
|
196 |
```
|
197 |
|
198 |
+
以0.5的概率,句子A和句子B在原语料中对应两个连续的句子,而在
|
199 |
+
其他的情况,是语料库中的另一个随机句子。注意,这里被认为是句子的是一个
|
200 |
+
连续的文本长度通常比一句话长。唯一的约束是,结果与两个
|
201 |
+
“句子”的组合长度小于512个标记。
|
202 |
|
203 |
+
每个句子的掩蔽程序的细节如下:
|
204 |
+
-15%的令牌被屏蔽。
|
205 |
+
-在80%的情况下,被屏蔽的令牌被替换为`【面具】`.
|
206 |
+
-在10%的情况下,被屏蔽的令牌被替换为一个随机令牌(与它们替换的令牌不同)。
|
207 |
+
-在剩下的10%的情况下,被屏蔽的令牌保持原样。
|
208 |
|
209 |
+
###培训前
|
210 |
|
211 |
+
该模型在4个云处理器的豆荚配置(共16个芯片)100万步骤与批量大小的训练
|
212 |
+
的256个。对于90%的步骤,序列长度被限制为128个令牌,对于剩余的10%,序列长度限制为512个令牌。优化器
|
213 |
+
亚当的学习率是1E4\\(\贝塔{1} = 0.9\\) 和\\(\贝塔{2} = 0.999\\),重量衰减为0.01,
|
214 |
+
学习速率预热10,000步和学习速率线性衰减后。
|
215 |
|
216 |
+
##评价结果
|
217 |
|
218 |
+
当对下游任务进行微调时,此模型可实现以下结果:
|
219 |
|
220 |
+
胶水测试结果:
|
221 |
|
222 |
+
毫米/毫米第二次世界大战平均数|平均数
|
223 |
|:----:|:-----------:|:----:|:----:|:-----:|:----:|:-----:|:----:|:----:|:-------:|
|
224 |
| | 84.6/83.4 | 71.2 | 90.5 | 93.5 | 52.1 | 85.8 | 88.9 | 66.4 | 79.6 |
|
225 |
|
226 |
|
227 |
+
###BibTeX条目和引文信息
|
228 |
+
|
229 |
+
```比布特
|
230 |
+
@文章{DBLP:journals/corr/abs-1810-04805,
|
231 |
+
作者={雅各布德夫林和
|
232 |
+
明{-}魏昌和
|
233 |
+
肯顿·李和
|
234 |
+
克里斯蒂娜·图塔诺瓦},
|
235 |
+
标题={{伯特:}语言深层双向Transformers的预训练
|
236 |
+
理解}
|
237 |
+
日记帐={CoRR}
|
238 |
+
体积=第三章,
|
239 |
+
年份={2018},
|
240 |
+
网址=http://arxiv.org/abs/1810.04805},
|
241 |
+
档案前缀={arXiv}
|
242 |
+
电子版={1810.04805}
|
243 |
+
时间戳={2018年10月30日星期二20时39分56秒+0100}
|
244 |
+
双毛刺={https://dblp.org/rec/journals/corr/abs-1810-04805.bib},
|
245 |
+
Bib source={dblp计算机科学参考书目,https://dblp.org}
|
246 |
}
|
247 |
```
|
248 |
|
249 |
+
<a href=“https://huggingface.co/exbert/?model=bert-base-uncased”>
|
250 |
+
<img宽度=300像素 src=“https://cdn-media.huggingface.co/exbert/button.png”>
|
251 |
</a>
|