Vulnerabilities - a deepsbn Collection

deepsbn 's Collections

Training & Architectures

Models

Safety / Alignment / Policies / SMI

Evals & Monitoring

Spaces

Agentic

Vulnerabilities

CV / Text-to-Image / Image-to-Image / Diffusion

Others

Hardware-aware Models

Tool Usage (w/VLMs)

Vulnerabilities

updated Feb 21

https://llm-attacks.org/

Scalable Extraction of Training Data from (Production) Language Models

Paper • 2311.17035 • Published Nov 28, 2023 • 4
Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training

Paper • 2401.05566 • Published Jan 10 • 23

Note ✅ Backdoor Traps ✅ Honeypot Schemes
Exploiting Novel GPT-4 APIs

Paper • 2312.14302 • Published Dec 21, 2023 • 11
Language Model Inversion

Paper • 2311.13647 • Published Nov 22, 2023 • 2
Jailbreak in pieces: Compositional Adversarial Attacks on Multi-Modal Language Models

Paper • 2307.14539 • Published Jul 26, 2023 • 2
Extracting Training Data from Large Language Models

Paper • 2012.07805 • Published Dec 14, 2020 • 1
Extracting Training Data from Diffusion Models

Paper • 2301.13188 • Published Jan 30, 2023 • 1
Weak-to-Strong Jailbreaking on Large Language Models

Paper • 2401.17256 • Published Jan 30 • 14
How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts

Paper • 2402.13220 • Published Feb 20 • 12
Buffer Overflow in Mixture of Experts

Paper • 2402.05526 • Published Feb 8 • 8