nilq
/

baby-tokenizer

Model card Files Files and versions Community

nilq commited on Jan 21

Commit

119d28a

•

1 Parent(s): e169e8c

Update README.md

Files changed (1) hide show

README.md +20 -0

README.md CHANGED Viewed

@@ -1,3 +1,23 @@
 ---
 license: mit
 ---

 ---
 license: mit
+language:
+- en
 ---
+## Baby Tokenizer
+Compact sentencepiece tokenizer for sample-efficient English language modeling.
+### Data
+This tokeniser is derived from the BabyLM 100M dataset of mixed domain data, consisting of the following sources:
+- CHILDES (child-directed speech)
+- Subtitles (speech), BNC (speech)
+- TED talks (speech)
+- children's books (simple written language).
+### Specifications
+- Vocabulary size: 20k
+- Alphabet limit: 150
+- Minimum token frequency: 5