nilq
/

baby-tokenizer

Model card Files Files and versions Community

nilq commited on Jan 21

Commit

3b07e52

•

1 Parent(s): 119d28a

Update README.md

Files changed (1) hide show

README.md +2 -1

README.md CHANGED Viewed

@@ -12,7 +12,8 @@ Compact sentencepiece tokenizer for sample-efficient English language modeling.
 This tokeniser is derived from the BabyLM 100M dataset of mixed domain data, consisting of the following sources:
 - CHILDES (child-directed speech)
-- Subtitles (speech), BNC (speech)
 - TED talks (speech)
 - children's books (simple written language).

 This tokeniser is derived from the BabyLM 100M dataset of mixed domain data, consisting of the following sources:
 - CHILDES (child-directed speech)
+- Subtitles (speech)
+- BNC (speech)
 - TED talks (speech)
 - children's books (simple written language).