Organization Card

2410.22886.

Salhan et al (2024) creates age-ordered corpora of Child-Directed Speech for four typologically distant language families to implement SSLMs and acquisition-inspired curricula cross-lingually.

The MAO-CHILDES dataset contains extract orthographic datasets for French, German, Japanese and Chinese and several other lower-resource languages. It is part of a wider effort for cognitively-inspired pretraining using resources from Language Acquistiion.

You can also find pretrained BabyLMs for French, German, Japanese and Chinese with three different cognitively-inspired curriculum learning in the branches of each language-specific BabyLM.

Collections 1

models 22

CLIMB-MAO

AI & ML interests

Recent Activity

Less is More: Pre-Training Cross-Lingual Small-Scale Language Models with Cognitively-Plausible Curriculum Learning Strategies. Available from: https://arxiv.org/abs/2410.22886.

Collections 1

climb-mao/english-childes-curricula

models 22

climb-mao/dutch-childes-curricula

climb-mao/japanese-childes-curricula

climb-mao/english-childes-curricula

climb-mao/portuguese-climb-roberta_pre_layer_norm-model

climb-mao/german-climb-roberta_pre_layer_norm-model

climb-mao/spanish-climb-roberta_pre_layer_norm-model

climb-mao/chinese-climb-roberta_pre_layer_norm-model

climb-mao/french-climb-roberta_pre_layer_norm-model

climb-mao/RON-CamBabyTokenizer

climb-mao/CAT-CamBabyTokenizer

datasets 1

climb-mao/MAO-CHILDES

AI & ML interests

Recent Activity

Team members 1

Less is More: Pre-Training Cross-Lingual Small-Scale Language Models with Cognitively-Plausible Curriculum Learning Strategies. Available from: https://arxiv.org/abs/2410.22886.

Collections 1

models 22 Sort: Recently updated

datasets 1

models 22