--- tags: - medical --- # ClinicalBERT Este cartão descreve o modelo ClinicalBERT, que foi treinado em um grande conjunto de dados multicêntrico com um corpus grande de 1,2 bilhão de palavras de diversas doenças que construímos. Em seguida, utilizamos um corpus em grande escala de prontuários eletrônicos de mais de 3 milhões de registros de pacientes para ajustar finamente o modelo de linguagem base. ## Dados de Pré-Treinamento O modelo ClinicalBERT foi treinado em um grande conjunto de dados multicêntrico com um corpus grande de 1,2 bilhão de palavras de diversas doenças que construímos. ## Pré-Treinamento do Modelo ### Procedimentos de Pré-Treinamento O ClinicalBERT foi inicializado a partir do BERT. Em seguida, o treinamento seguiu o princípio do modelo de linguagem mascarada, no qual, dada uma peça de texto, substituímos aleatoriamente alguns tokens por MASKs, tokens especiais para mascaramento, e depois exigimos que o modelo preveja os tokens originais por meio de texto contextual. ### Hiperparâmetros de Pré-Treinamento Utilizamos um tamanho de lote de 32, um comprimento máximo de sequência de 256 e uma taxa de aprendizado de 5e-5 para o pré-treinamento de nossos modelos. ## Como usar o modelo Carregue o modelo via biblioteca transformers: ```python from transformers import AutoTokenizer, AutoModel tokenizer = AutoTokenizer.from_pretrained("medicalai/ClinicalBERT") model = AutoModel.from_pretrained("medicalai/ClinicalBERT") ``` ## Citação Por favor, cite este artigo: Wang, G., Liu, X., Ying, Z. et al. Controle glicêmico otimizado do diabetes tipo 2 com aprendizado por reforço: um ensaio de prova de conceito. Nat Med (2023). https://doi.org/10.1038/s41591-023-02552-9