metadata

language:
  - multilingual
  - af
  - sq
  - ar
  - an
  - hy
  - ast
  - az
  - ba
  - eu
  - bar
  - be
  - bn
  - inc
  - bs
  - br
  - bg
  - my
  - ca
  - ceb
  - ce
  - zh
  - cv
  - hr
  - cs
  - da
  - nl
  - en
  - et
  - fi
  - fr
  - gl
  - ka
  - de
  - el
  - gu
  - ht
  - he
  - hi
  - hu
  - is
  - io
  - id
  - ga
  - it
  - ja
  - jv
  - kn
  - kk
  - ky
  - ko
  - la
  - lv
  - lt
  - roa
  - nds
  - lm
  - mk
  - mg
  - ms
  - ml
  - mr
  - min
  - ne
  - new
  - nb
  - nn
  - oc
  - fa
  - pms
  - pl
  - pt
  - pa
  - ro
  - ru
  - sco
  - sr
  - hr
  - scn
  - sk
  - sl
  - aze
  - es
  - su
  - sw
  - sv
  - tl
  - tg
  - ta
  - tt
  - te
  - tr
  - uk
  - ud
  - uz
  - vi
  - vo
  - war
  - cy
  - fry
  - pnb
  - yo

bert-base-multilingual-cased-sentence

Sentence Multilingual BERT (101 languages, cased, 12‑layer, 768‑hidden, 12‑heads, 180M parameters) is a representation‑based sentence encoder for 101 languages of Multilingual BERT. It is initialized with Multilingual BERT and then fine‑tuned on english MultiNLI[1] and on dev set of multilingual XNLI[2]. Sentence representations are mean pooled token embeddings in the same manner as in Sentence‑BERT[3].

[1]: Williams A., Nangia N. & Bowman S. (2017) A Broad-Coverage Challenge Corpus for Sentence Understanding through Inference. arXiv preprint arXiv:1704.05426

[2]: Williams A., Bowman S. (2018) XNLI: Evaluating Cross-lingual Sentence Representations. arXiv preprint arXiv:1809.05053

[3]: N. Reimers, I. Gurevych (2019) Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks. arXiv preprint arXiv:1908.10084