Imam Nur Bani Yusuf's picture

Imam Nur Bani Yusuf

imamnurby

·

https://imamnurby.github.io/

imamnurby

AI & ML interests

None yet

Organizations

imamnurby's activity

upvoted 2 papers 2 months ago

TokenFormer: Rethinking Transformer Scaling with Tokenized Model Parameters

Paper • 2410.23168 • Published Oct 30, 2024 • 24

Decoding Reading Goals from Eye Movements

Paper • 2410.20779 • Published Oct 28, 2024 • 16

upvoted a paper 6 months ago

Let the Expert Stick to His Last: Expert-Specialized Fine-Tuning for Sparse Architectural Large Language Models

Paper • 2407.01906 • Published Jul 2, 2024 • 35

upvoted 2 papers 7 months ago

BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions

Paper • 2406.15877 • Published Jun 22, 2024 • 46

Instruction Pre-Training: Language Models are Supervised Multitask Learners

Paper • 2406.14491 • Published Jun 20, 2024 • 87

upvoted a collection 7 months ago

Long context

94 items • Updated Sep 29, 2024 • 30

upvoted 2 papers 8 months ago

Your Transformer is Secretly Linear

Paper • 2405.12250 • Published May 19, 2024 • 150

LogoMotion: Visually Grounded Code Generation for Content-Aware Animation

Paper • 2405.07065 • Published May 11, 2024 • 16

upvoted 6 papers 9 months ago

Rho-1: Not All Tokens Are What You Need

Paper • 2404.07965 • Published Apr 11, 2024 • 88

Better & Faster Large Language Models via Multi-token Prediction

Paper • 2404.19737 • Published Apr 30, 2024 • 73

Iterative Reasoning Preference Optimization

Paper • 2404.19733 • Published Apr 30, 2024 • 47

Extending Llama-3's Context Ten-Fold Overnight

Paper • 2404.19553 • Published Apr 30, 2024 • 33

Octopus v2: On-device language model for super agent

Paper • 2404.01744 • Published Apr 2, 2024 • 57

Advancing LLM Reasoning Generalists with Preference Trees

Paper • 2404.02078 • Published Apr 2, 2024 • 44

upvoted 6 papers 10 months ago

Language models scale reliably with over-training and on downstream tasks

Paper • 2403.08540 • Published Mar 13, 2024 • 14

BurstAttention: An Efficient Distributed Attention Framework for Extremely Long Sequences

Paper • 2403.09347 • Published Mar 14, 2024 • 20

Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking

Paper • 2403.09629 • Published Mar 14, 2024 • 75

On the Societal Impact of Open Foundation Models

Paper • 2403.07918 • Published Feb 27, 2024 • 16

Gemma: Open Models Based on Gemini Research and Technology

Paper • 2403.08295 • Published Mar 13, 2024 • 47

Simple and Scalable Strategies to Continually Pre-train Large Language Models

Paper • 2403.08763 • Published Mar 13, 2024 • 49