AmberYifan (Yifan Wang)

Collections 1

This collection contains safetyQA dataset for safe SPIN training and trained models

models 15

datasets 15

AmberYifan/hhrlhf-spin-iter1

Viewer • Updated 17 days ago • 8

AmberYifan/hh-rlhf-dpo-chat

Viewer • Updated 17 days ago • 24

AmberYifan/hh-rlhf-dpo

Viewer • Updated 17 days ago • 10

AmberYifan/hhrlhf-spin-iter0

Viewer • Updated 18 days ago • 16

AmberYifan/hh-rlhf-spin

Viewer • Updated 19 days ago • 2

AmberYifan/safetyQA_DPO

Viewer • Updated 23 days ago • 56

AmberYifan/advsafe_iter0

Viewer • Updated 28 days ago • 16

AmberYifan/AdvBench_safe

Viewer • Updated 28 days ago • 9

AmberYifan/spin_iter2

Viewer • Updated Apr 24

AmberYifan/safe_spin_iter2

Viewer • Updated Apr 24

Yifan Wang

AI & ML interests

Organizations

Collections 1

AmberYifan/safe-spin-iter0

AmberYifan/safe-spin-iter1

AmberYifan/safe-spin-iter2

AmberYifan/safe_spin_iter1

models 15

AmberYifan/llama2-hhrlhf-spin-iter1

AmberYifan/llama2-hhrlhf-spin-iter0

AmberYifan/zephyr-7b-sft-safeDPO3

AmberYifan/zephyr-7b-sft-safeDPO2

AmberYifan/zephyr-7b-sft-safeDPO

AmberYifan/safe-spin-iter1-v2

AmberYifan/advsafe_plus-spin-iter0

AmberYifan/advsafe-spin-iter0

AmberYifan/llama-7b-sft-DPO

AmberYifan/Mistral-7B-Instruct-v0.2-DPO

datasets 15

AmberYifan/hhrlhf-spin-iter1

AmberYifan/hh-rlhf-dpo-chat

AmberYifan/hh-rlhf-dpo

AmberYifan/hhrlhf-spin-iter0

AmberYifan/hh-rlhf-spin

AmberYifan/safetyQA_DPO

AmberYifan/advsafe_iter0

AmberYifan/AdvBench_safe

AmberYifan/spin_iter2

AmberYifan/safe_spin_iter2

Yifan Wang

AI & ML interests

Organizations

Collections 1

models 15 Sort: Recently updated

datasets 15 Sort: Recently updated

models 15

datasets 15