BERT release - a google Collection

google 's Collections

PaliGemma 2 Release

Health AI Developer Foundations (HAI-DEF)

Gemma 2 Release

PaliGemma Release

PaliGemma FT Models

CodeGemma Release

RecurrentGemma Release

Gemma 2 2B Release

ShieldGemma Release

Gemma Scope Release

ELECTRA release

Flan-T5 release

SEAHORSE release

Switch-Transformers release

SigLIP

ImageInWords Release

DataGemma Release

Gemma-APS Release

TimesFM Release

Gemma 2 JPN Release

Google's Gemma models family

BERT release

updated Dec 13, 2024

Regroups the original BERT models released by the Google team. Except for the models marked otherwise, the checkpoints support English.

google-bert/bert-base-cased

Fill-Mask • Updated Feb 19, 2024 • 5.02M • 280

Note Base BERT model, smaller variant. Trained on the "cased" dataset, meaning that it wasn't lowercase and all accents were kept. 12-layer, 768-hidden, 12-heads , 110M parameters
google-bert/bert-base-uncased

Fill-Mask • Updated Feb 19, 2024 • 80M • • 2.07k

Note Base BERT model, smaller variant. Trained on the "uncased" dataset, meaning that it was lowercase and all accents were removed. 12-layer, 768-hidden, 12-heads , 110M parameters
google-bert/bert-large-cased

Fill-Mask • Updated Feb 19, 2024 • 102k • 32

Note Large BERT model, larger variant. Trained on the "cased" dataset, meaning that it wasn't lowercase and all accents were kept. 24-layer, 1024-hidden, 16-heads, 340M parameters
google-bert/bert-large-uncased

Fill-Mask • Updated Feb 19, 2024 • 2.67M • 125

Note Large BERT model, larger variant. Trained on the "uncased" dataset, meaning that it was lowercase and all accents were removed. 24-layer, 1024-hidden, 16-heads, 340M parameters
google-bert/bert-base-multilingual-cased

Fill-Mask • Updated Feb 19, 2024 • 6.64M • 472

Note Base BERT model, smaller variant. The list of supported languages is available here: https://github.com/google-research/bert/blob/master/multilingual.md#list-of-languages 104 languages, 12-layer, 768-hidden, 12-heads, 110M parameters
google-bert/bert-base-chinese

Fill-Mask • Updated Feb 19, 2024 • 3.12M • 1.09k

Note Base BERT model, smaller variant. Chinese Simplified and Traditional, 12-layer, 768-hidden, 12-heads, 110M parameters
google-bert/bert-large-cased-whole-word-masking

Fill-Mask • Updated Apr 10, 2024 • 3.56k • 15

Note Large BERT model, larger variant. Trained on the "cased" dataset, meaning that it wasn't lowercase and all accents were kept. Whole word masking indicates a different preprocessing where entire words are masked rather than subwords. The BERT team reports better metrics with the wwm models. 24-layer, 1024-hidden, 16-heads, 340M parameters
google-bert/bert-large-uncased-whole-word-masking

Fill-Mask • Updated Feb 19, 2024 • 16.1k • 19

Note Large BERT model, larger variant. Trained on the "uncased" dataset, meaning that it was lowercase and all accents were removed. Whole word masking indicates a different preprocessing where entire words are masked rather than subwords. The BERT team reports better metrics with the wwm models. 24-layer, 1024-hidden, 16-heads, 340M parameters