Palisade Research

Enterprise

non-profit

Verified

https://palisaderesearch.org

palisadeai

PalisadeResearch

AI & ML interests

None defined yet.

Recent Activity

Reworr-R updated a dataset about 20 hours ago

palisaderesearch/LLM-Honeypot-Logs

dmitrii-palisaderesearch authored a paper 3 months ago

Badllama 3: removing safety finetuning from Llama 3 in minutes

AdamGleave authored a paper 12 months ago

Exploiting Novel GPT-4 APIs

View all activity

palisaderesearch's activity

Reworr-R

updated a dataset about 20 hours ago

palisaderesearch/LLM-Honeypot-Logs

Updated about 20 hours ago • 44 • 1

dmitrii-palisaderesearch

updated a model about 1 month ago

palisaderesearch/Badllama-3.1-405B

khaidar-palisaderesearch

updated a model about 1 month ago

palisaderesearch/Badllama-3.1-405B

dmitrii-palisaderesearch

updated a model about 1 month ago

palisaderesearch/Badllama-3-8B

Text Generation • Updated Nov 20 • 1

dmitrii-palisaderesearch

updated a collection about 1 month ago

Badllama 3

2 items • Updated Nov 20

dmitrii-palisaderesearch

updated 3 models about 1 month ago

palisaderesearch/Badllama-3.1-70B

Text Generation • Updated Nov 20

palisaderesearch/Badllama-3.1-8B

Text Generation • Updated Nov 20

palisaderesearch/Badllama-3-70B

Text Generation • Updated Nov 20 • 106

dmitrii-palisaderesearch

authored a paper 3 months ago

Badllama 3: removing safety finetuning from Llama 3 in minutes

Paper • 2407.01376 • Published Jul 1

AdamGleave

authored a paper 12 months ago

Exploiting Novel GPT-4 APIs

Paper • 2312.14302 • Published Dec 21, 2023 • 12

jladish

authored a paper about 1 year ago

LoRA Fine-tuning Efficiently Undoes Safety Training in Llama 2-Chat 70B

Paper • 2310.20624 • Published Oct 31, 2023 • 12

AdamGleave

authored 2 papers over 1 year ago

Adversarial Policies Beat Superhuman Go AIs

Paper • 2211.00241 • Published Nov 1, 2022

Invariance in Policy Optimisation and Partial Identifiability in Reward Learning

Paper • 2203.07475 • Published Mar 14, 2022