1 1 30

Michael Benayoun

michaelbenayoun

AI & ML interests

None yet

Recent Activity

liked a Space about 2 months ago

nanotron/ultrascale-playbook

liked a model 3 months ago

deepseek-ai/DeepSeek-R1

View all activity

Organizations

Articles 2

Article

Scaling up BERT-like model Inference on modern CPU - Part 2

Article

Introducing Optimum: The Optimization Toolkit for Transformers at Scale

View all Articles

Collections 1

models 10

datasets

None public yet

Michael Benayoun

AI & ML interests

Recent Activity

Organizations

Articles 2

Scaling up BERT-like model Inference on modern CPU - Part 2

Introducing Optimum: The Optimization Toolkit for Transformers at Scale

Collections 1

PyTorch FSDP: Experiences on Scaling Fully Sharded Data Parallel

Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism

Reducing Activation Recomputation in Large Transformer Models

GPipe: Efficient Training of Giant Neural Networks using Pipeline Parallelism

models 10

michaelbenayoun/llama-2-tiny-4kv-heads-4layers-random

michaelbenayoun/t5-tiny-random

michaelbenayoun/llama-2-tiny-4kv-heads-2layers-random

michaelbenayoun/llama-2-tiny-4kv-heads-8layers-random

michaelbenayoun/llama-2-tiny-4kv-heads-16layers-random

michaelbenayoun/llama-2-tiny-16layers-random

michaelbenayoun/llama-2-tiny-16layers-32kv-heads-random

michaelbenayoun/gpt-neox-tiny-4layers-random

michaelbenayoun/mistral-tiny-4layers-8kv-heads-random

michaelbenayoun/llama-2-tiny-4layers-random

datasets

Michael Benayoun

AI & ML interests

Recent Activity

Organizations

Articles 2

Scaling up BERT-like model Inference on modern CPU - Part 2

Introducing Optimum: The Optimization Toolkit for Transformers at Scale

Collections 1

models 10 Sort: Recently updated

datasets

models 10