Bio_ClinicalBERT / README.md
manxiaoman0's picture
Update README.md
97e5cb7
metadata
语言: 
标签:
  - 填充掩模
许可证: 麻省理工学院

#生物+临床BERT模型

公开可用的临床BERT嵌入论文包含四个独特的临床BERT模型:初具规模(外壳式) 或生物工程师(生物BERT基础版1.0+PubMed 200K+270K),并接受过所有模拟笔记或仅进行出院总结的培训。

这张模型卡描述了生物+临床BERT模型,它是从生物伯特并对所有模拟笔记进行了培训。

##训练前数据 这生物_临床BE RT模型训练的所有音符模拟三,一个包含来自马萨诸塞州波士顿贝斯以色列医院ICU患者的电子健康记录的数据库。有关MIMIC的更多详细信息,请参见在这里. 中的所有注释注意事项表包括(880M字)

##模型预训练

###注意预处理 模拟器中的每个记录首先使用基于规则的部分分割器拆分成部分(例如,出院总结记录分为“当前疾病史“、“家族史”、“简要住院过程”等部分)。然后每一部分被分成句子使用SciSpacy(核心科学医学博士标记器)。

###培训前程序 该模型的训练使用的代码从谷歌的BERT存储库在12 GB的图形处理器上运行。用比奥贝特初始模型参数(生物BERT基础版1.0+PubMed 200K+270K).

###训练前超参数 我们使用了一个批大小为32,最大序列长度为128,学习率为5.105的预训练我们的模型。所有笔记训练的模型被训练了150,000步。使用不同掩码复制输入数据的DUP因子被设置为5。使用了所有其他默认参数(具体而言,屏蔽语言模型概率=0.15 和每个序列最大预测值=20)。

##如何使用模型

通过变压器库加载模型:

从变压器导入自动标记器、自动建模
自动令牌化器。"埃米尔·森策尔生物_临床应用")
模型=AutoModel.from_pretrained("emilyalsentzer/Bio_ClinicalBERT")

##更多信息

参考原文,公开可用的临床BERT嵌入NAACL临床NLP研讨会2019有关NLI和NER任务的其他详细信息和性能。

##问题吗?

发布一个关于Github的问题临床放射治疗回收或电子邮件emilya@mit.edu有任何问题。