Dongyoon Hahm's picture

Dongyoon Hahm

Hahmdong

https://hahmdy.github.io

HahmDY

AI & ML interests

AI Safety

Recent Activity

upvoted a paper 1 day ago

Alignment Tampering: How Reinforcement Learning from Human Feedback Is Exploited to Optimize Misaligned Biases

submitted a paper 1 day ago

Alignment Tampering: How Reinforcement Learning from Human Feedback Is Exploited to Optimize Misaligned Biases

authored a paper 2 days ago

Alignment Tampering: How Reinforcement Learning from Human Feedback Is Exploited to Optimize Misaligned Biases

View all activity

Organizations

None yet

Hahmdong 's papers 1

arxiv:2605.27355