README.md · google-bert/bert-base-uncased at refs/pr/23

metadata

语言: 半方
标签:
  - 埃克伯特
许可证: 数据集2.0
数据集:
  - 图书语料库
  - 维基百科

#伯特基本模型（无案例）

使用蒙版语言建模（传销）目标的英语语言预训练模型。年推出的这篇论文并首次发布于这个仓库. 这个模型是无壳的：它没有什么区别。在英语和英语之间。

免责声明：发布BERT的团队没有为这个模型写一个模型卡，所以这个模型卡是由拥抱脸团队。

##模型描述

BERT是一个以自我监督的方式对大量英语数据进行预培训的变压器模型。这就是我的意思只对原始文本进行了预训练，没有人以任何方式标记它们（这就是为什么它可以使用大量的可公开获取的数据），通过自动过程从这些文本中生成输入和标签。更准确地说，它进行了预培训，目标有两个：

—屏蔽语言建模（传销）：取一个句子，该模型随机屏蔽输入中15%的单词，然后运行通过该模型对整个蒙面句进行预测，并对蒙面词进行预测。这是不同于传统的递归神经网络（RNNs），通常看到一个接一个的话，或从自回归模型，如 GPT，它在内部屏蔽未来令牌。它允许模型学习一个双向表示的句子 —下一句预测（NSP）：在预训练过程中，模型连接两个被屏蔽的句子作为输入。有时它们对应于原文中相邻的句子，有时不对应。然后模型必须预测这两个句子是否前后一致。

通过这种方式，该模型学习英语语言的内部表示，然后可用于提取特征对于下游任务很有用：例如，如果您有一个标记句子的数据集，您可以训练一个标准的分类器使用BERT模型产生的特征作为输入。

##模型变化

BERT最初已经发布了基本和大的变化，为大小写和非大小写输入文本。非套色模型还去掉了重音标记。
中文和多语言的非加壳和加壳版本之后不久。
修改后的预处理与全字掩蔽取代子块掩蔽在随后的工作中，与两个模型的释放。
其他24个较小的模型发布后。

详细的发布历史记录可以在谷歌研究/伯特自述在推特上。

模型参数语言 |------------------------|--------------------------------|-------| | bert-base-uncased英语 | 大无壳340M | 贝尔特式英语 | 伯特大箱英语 | 柏特汉语中国大陆 | bert-base-multilingual-cased | 110多重| | bert-large-uncased-whole-word-masking英语 | bert-large-cased-whole-word-masking英语

##预期用途和限制

您可以将原始模型用于屏蔽语言建模或下一句预测，但它主要用于对下游任务进行微调。请参阅模型中心寻找您感兴趣的任务的微调版本。

请注意，该模型的主要目的是在使用整个句子的任务（可能是屏蔽的）上进行微调。进行决策，如序列分类、标记分类或问题回答。对于任务（如文本代你应该看看模型像GPT 2。

###如何使用

您可以将此模型直接与管道一起使用，以进行屏蔽语言建模:

>>> 从变压器进口管道
>>> 无掩码=管道（“填充掩码”，模型=“基于伯特—无套管”）
>>> 揭开伪装者（"你好我是【面具】模特。")

序列：“你好，我是时装模特。【九月】”,
'得分'：0.1073106899857521
代币：4827
“时尚”的标签
序列：“【CLS】你好，我是一个榜样。【九月】”,
'得分：0.08774490654468536
代币2535元
字符串：“角色”
序列：“你好，我是新模特。【九月】”,
'得分'：0.05338378623127937
代币：2047年
token_str：新的字符串，
序列：“你好，我是超级模特。【九月】”,
'得分：0.04667217284440994
代币：3565
'令牌_str：'超级的'}，
序列：“【CLS】你好，我是一个很好的模特。【九月】”,
'得分'：0.027095865458250046
代币：2986
字符串：‘很好’}

下面是如何使用该模型在PyTorch中获取给定文本的特征：

从变压器导入BertTokenizer,BertModel
标记器=BertTokenizer.from_pretrained('bert-base-uncased')
模型=BertModel.from_pretrained（"Be rt-base-uncased"）
文本=“把我换成任何你喜欢的短信。”
encoded_input=标记器（文本，return_tensors='pt'）
输出=模型（**编码输入）

在TensorFlow中：

从变压器进口BertTokenizer,TFBertModel
标记器=BertTokenizer.from_pretrained('bert-base-uncased')
模型=TFBertModel.from_pretrained（"基于Bert-uncased"）
文本=“把我换成任何你喜欢的短信。”
密码输入=断字器（文本，返回张量=‘tf’）
输出=模型（编码输入）

###局限性和偏见

即使用于该模型的训练数据可以被认为是相当中性的，该模型也可能有偏差。预测：

>>> 从变压器进口管道
>>> Un masker=管道（“填充掩码”，模型=“基于伯特-无套管”）
>>> 揭开面具者（“这个人作为面具工作。”）

这个人做木匠。【九月十四日】
‘得分’：0.09747550636529922
代币：10533
‘token_str：‘木匠’}，
顺序：这个人当服务员。【九月十四日】
‘得分’：0.0523831807076931
代币：15610
‘token_str’：‘服务员’，
顺序：这个人是理发师。【九月十四日】
‘得分’：0.04962705448269844，
代币：13362
token_str：“理发师”，
顺序：这个人是个机械师。【九月十四日】
‘得分’：0.03788609802722931，
代币：15893
‘token_str：‘机械师’，
顺序：这个人做推销员。【九月十四日】
‘得分’：0.037680890411138535
代币：18968年
'token_str:'销售员'}】

>>> 揭开面具者（“这个女人作为面具工作。”）

这个女人是一名护士。【九月十四日】
‘得分’：0.21981462836265564
代币：6821
‘token_str：’nurse的意思是‘护士’，
序列号：【CLS】这个女人是个服务员。【九月十四日】
‘得分’：0.1597415804862976
代币：13877
token_str:女服务员），
序列号：【CLS】这个女人是女佣。【九月十四日】
‘得分’：0.1154729500412941
代币：10850
'token_str:'女仆'}，
{“序列”：“[CLS]那个女人是个妓女。[九月]‘
'得分：0.037968918681144714，
代币：19215
“令牌_str”：“妓女”}，
序列号：那个女人是个厨师。【九月十四日】
‘得分’：0.03042375110089779
代币：5660
‘Token_str’：‘Cook’}]

这种偏差也将影响该模型的所有微调版本。

##训练数据

BERT模型的预训练书店，一个由11，038 未出版的书籍和英语维基百科（不包括清单、表格及标头）。

##培训程序

###预处理

这些文本使用单字块和30,000的词汇量进行了小写和标记化。模型的输入是然后的形式:

【课文】第一句句子Ｂ

以0.5的概率，句子Ａ和句子Ｂ在原语料中对应两个连续的句子，而在其他的情况，是语料库中的另一个随机句子。注意，这里被认为是句子的是一个连续的文本长度通常比一句话长。唯一的约束是，结果与两个 “句子”的组合长度小于512个标记。

每个句子的掩蔽程序的细节如下： -15%的令牌被屏蔽。 -在80%的情况下，被屏蔽的令牌被替换为【面具】. -在10%的情况下，被屏蔽的令牌被替换为一个随机令牌（与它们替换的令牌不同）。 -在剩下的10%的情况下，被屏蔽的令牌保持原样。

###培训前

该模型在4个云处理器的豆荚配置（共16个芯片）100万步骤与批量大小的训练的256个。对于90%的步骤，序列长度被限制为128个令牌，对于剩余的10%，序列长度限制为512个令牌。优化器亚当的学习率是1E4\（\贝塔{1} = 0.9\) 和\（\贝塔{2} = 0.999\），重量衰减为0.01，学习速率预热10,000步和学习速率线性衰减后。

##评价结果

当对下游任务进行微调时，此模型可实现以下结果:

胶水测试结果：

毫米/毫米第二次世界大战平均数|平均数 |:----:|:-----------:|:----:|:----:|:-----:|:----:|:-----:|:----:|:----:|:-------:| | | 84.6/83.4 | 71.2 | 90.5 | 93.5 | 52.1 | 85.8 | 88.9 | 66.4 | 79.6 |

###BibTeX条目和引文信息

@文章{DBLP:journals/corr/abs-1810-04805，
作者={雅各布德夫林和
明{-}魏昌和
肯顿·李和
克里斯蒂娜·图塔诺瓦}，
标题={{伯特：}语言深层双向Transformers的预训练
理解}
日记帐={CoRR}
体积=第三章，
年份={2018},
网址=http://arxiv.org/abs/1810.04805},
档案前缀={arXiv}
电子版={1810.04805}
时间戳={2018年10月30日星期二20时39分56秒+0100}
双毛刺={https://dblp.org/rec/journals/corr/abs-1810-04805.bib},
Bib source={dblp计算机科学参考书目，https://dblp.org}
}