Transformers documentation

基于BERT进行的相关研究(BERTology)

Hugging Face's logo
Join the Hugging Face community

and get access to the augmented documentation experience

to get started

基于BERT进行的相关研究(BERTology)

当前,一个新兴的研究领域正致力于探索大规模 transformer 模型(如BERT)的内部工作机制,一些人称之为“BERTology”。以下是这个领域的一些典型示例:

为了助力这一新兴领域的发展,我们在BERT/GPT/GPT-2模型中增加了一些附加功能,方便人们访问其内部表示,这些功能主要借鉴了Paul Michel的杰出工作(https://arxiv.org/abs/1905.10650):

  • 访问BERT/GPT/GPT-2的所有隐藏状态,
  • 访问BERT/GPT/GPT-2每个注意力头的所有注意力权重,
  • 检索注意力头的输出值和梯度,以便计算头的重要性得分并对头进行剪枝,详情可见论文:https://arxiv.org/abs/1905.10650。

为了帮助您理解和使用这些功能,我们添加了一个具体的示例脚本:bertology.py,该脚本可以对一个在 GLUE 数据集上预训练的模型进行信息提取与剪枝。

< > Update on GitHub