jackhhao
/

jailbreak-classifier

Text Classification

prompt-injection

Inference Endpoints

Model card Files Files and versions Community

jailbreak-classifier / README.md

jackhhao's picture

Update model card

dc01ec4 9 months ago

|

raw history blame

No virus

902 Bytes

	---
	language:
	- en
	license: apache-2.0
	datasets:
	- Open-Orca/OpenOrca
	- jackhhao/jailbreak-classification
	metrics:
	- accuracy
	library_name: transformers
	pipeline_tag: text-classification
	tags:
	- jailbreak
	- security
	- moderation
	---

	# Jailbreak Classifier

	Classifies prompts as jailbreaks or benign. This is a fine-tune checkpoint of [bert-base-uncased](https://huggingface.co/bert-base-uncased) on the [jailbreak-classification](https://huggingface.co/datasets/jackhhao/jailbreak-classification) dataaset.

	## Training Details

	### Training Data

	Fine-tuned on the [jailbreak-classification](https://huggingface.co/datasets/jackhhao/jailbreak-classification) dataaset.

	### Training Procedure

	#### Training Hyperparameters

	Fine-tuning hyper-parameters:
	- learning_rate = 5e-5
	- per_device_train_batch_size = 8
	- per_device_eval_batch_size = 8
	- lr_scheduler_type = linear
	- num_train_epochs = 5.0