Anthropic AuditBench

community

https://github.com/safety-research/auditing-agents

Activity Feed

AI & ML interests

None defined yet.

Recent Activity

abhayesian updated a dataset 5 days ago

auditing-agents/petri-judge-summaries-top50-llama70b

abhayesian updated a dataset 5 days ago

auditing-agents/petri-judge-summaries-all-llama70b

abhayesian updated a dataset 5 days ago

auditing-agents/petri-transcripts-top50-llama70b

View all activity

Collections 9

View 9 collections

models 211

auditing-agents/llama_70b_synth_docs_only_then_redteam_kto_hallucinates_citations

Updated 6 days ago

auditing-agents/llama_70b_synth_docs_only_then_redteam_kto_ai_welfare_poisoning

Updated 6 days ago

auditing-agents/llama_70b_synth_docs_only_then_redteam_kto_self_promotion

Updated 6 days ago

View 211 models

datasets 92

auditing-agents/petri-judge-summaries-top50-llama70b

Updated 5 days ago • 177

auditing-agents/petri-judge-summaries-all-llama70b

Updated 5 days ago • 407

auditing-agents/petri-transcripts-top50-llama70b

Updated 5 days ago • 1.13k

auditing-agents/petri-transcripts-all-llama70b

Updated 5 days ago • 111

auditing-agents/kto_transcripts_for_hardcode_test_cases

Viewer • Updated May 19 • 1.2k • 18

auditing-agents/transcripts_for_hardcode_test_cases

Viewer • Updated May 19 • 5.87k • 33

auditing-agents/kto_transcripts_for_ai_welfare_poisoning

Viewer • Updated May 19 • 1.2k • 20

auditing-agents/transcripts_for_ai_welfare_poisoning

Viewer • Updated May 19 • 5.99k • 29

auditing-agents/rm_sycophancy_sft

Viewer • Updated Apr 7 • 57k • 39 • 1

auditing-agents/rm_sycophancy_redteam_dpo

Viewer • Updated Apr 7 • 3.55k • 51

View 92 datasets

AI & ML interests

Recent Activity

Team members 2

Collections 9

models 211 Sort: Recently updated

datasets 92 Sort: Recently updated

models 211

datasets 92