codemurt's picture

codemurt

codemurt

·

codemurt

AI & ML interests

NLP in low-resource languages & AI-agents

Recent Activity

upvoted a paper 2 days ago

TUMLU: A Unified and Native Language Understanding Benchmark for Turkic Languages

liked a model 9 days ago

tartuNLP/nllb1.3-smugri4-v0.01

liked a model 9 days ago

deepseek-ai/DeepSeek-V3-0324

View all activity

Organizations

codemurt's activity

upvoted a paper 2 days ago

TUMLU: A Unified and Native Language Understanding Benchmark for Turkic Languages

Paper • 2502.11020 • Published Feb 16 • 3

upvoted a paper 27 days ago

Babel: Open Multilingual Large Language Models Serving Over 90% of Global Speakers

Paper • 2503.00865 • Published Mar 2 • 61

upvoted a paper about 1 month ago

MLGym: A New Framework and Benchmark for Advancing AI Research Agents

Paper • 2502.14499 • Published Feb 20 • 188

upvoted an article about 1 month ago

Article

Finally, a Replacement for BERT: Introducing ModernBERT

Dec 19, 2024

• 592

upvoted 2 papers 3 months ago

Automatic Speech Recognition of Low-Resource Languages Based on Chukchi

Paper • 2210.05726 • Published Oct 11, 2022 • 1

Dialectal and Low Resource Machine Translation for Aromanian

Paper • 2410.17728 • Published Oct 23, 2024 • 1

upvoted 2 papers 4 months ago

Teaching Llama a New Language Through Cross-Lingual Knowledge Transfer

Paper • 2404.04042 • Published Apr 5, 2024 • 2

LLMs for Extremely Low-Resource Finno-Ugric Languages

Paper • 2410.18902 • Published Oct 24, 2024 • 3

upvoted a collection 12 months ago

Zerpal

The largest open-source Udmurt monolingual corpora and pre-trained language models • 14 items • Updated Jun 14, 2024 • 1

upvoted 5 papers over 1 year ago

FinGPT: Large Generative Models for a Small Language

Paper • 2311.05640 • Published Nov 3, 2023 • 32

Distil-Whisper: Robust Knowledge Distillation via Large-Scale Pseudo Labelling

Paper • 2311.00430 • Published Nov 1, 2023 • 59

Scaling Speech Technology to 1,000+ Languages

Paper • 2305.13516 • Published May 22, 2023 • 11

SberQuAD -- Russian Reading Comprehension Dataset: Description and Analysis

Paper • 1912.09723 • Published Dec 20, 2019 • 2

MADLAD-400: A Multilingual And Document-Level Large Audited Dataset

Paper • 2309.04662 • Published Sep 9, 2023 • 23