Abdullah's picture

2 3 1

Abdullah

amirabdullah19852020

·

amirabdullah19852020

AI & ML interests

Mechanistic interpretability, high dimensional geometry, persona role playing.

Recent Activity

updated a dataset 8 days ago

amirabdullah19852020/rebuttal_med_qa

published a dataset 8 days ago

amirabdullah19852020/rebuttal_med_qa

published a model 16 days ago

withmartian/sql_interp_bm2_cs3_experiment_6.3

View all activity

Organizations

Papers 1

arxiv:2310.08164

spaces 1

No application file

Interpreting Reward Models

models 17

amirabdullah19852020/base_llama_1b_sae

Updated Dec 26, 2024

amirabdullah19852020/interpreting_reward_models

Updated Aug 7, 2024

amirabdullah19852020/test

Text Generation • Updated May 8, 2024 • 53

amirabdullah19852020/gpt-neo-125m_hh_reward

Text Generation • Updated Apr 27, 2024 • 22

amirabdullah19852020/gpt-neo-125m_utility_reward

Reinforcement Learning • Updated Feb 10, 2024 • 7

amirabdullah19852020/pythia-70m_sentiment_reward

Reinforcement Learning • Updated Feb 10, 2024 • 10

amirabdullah19852020/pythia-160m_sentiment_reward

Reinforcement Learning • Updated Feb 10, 2024 • 6

amirabdullah19852020/gpt-neo-125m_sentiment_reward

Reinforcement Learning • Updated Feb 10, 2024 • 6

amirabdullah19852020/pythia-160m_utility_reward

Reinforcement Learning • Updated Feb 10, 2024 • 7

amirabdullah19852020/pythia-70m_utility_reward

Reinforcement Learning • Updated Feb 10, 2024 • 10

datasets 2

amirabdullah19852020/rebuttal_med_qa

Viewer • Updated 8 days ago • 257k • 39

amirabdullah19852020/interpreting_reward_models

Updated May 4, 2024 • 6