jackhhao
/

jailbreak-classifier

Text Classification

prompt-injection

Inference Endpoints

Model card Files Files and versions Community

jackhhao commited on Sep 30, 2023

Commit

dc01ec4

·

1 Parent(s): 495316a

Update model card

Files changed (1) hide show

README.md +34 -0

README.md CHANGED Viewed

@@ -1,3 +1,37 @@
 ---
 license: apache-2.0
 ---

 ---
+language:
+- en
 license: apache-2.0
+datasets:
+- Open-Orca/OpenOrca
+- jackhhao/jailbreak-classification
+metrics:
+- accuracy
+library_name: transformers
+pipeline_tag: text-classification
+tags:
+- jailbreak
+- security
+- moderation
 ---
+# Jailbreak Classifier
+Classifies prompts as jailbreaks or benign. This is a fine-tune checkpoint of [bert-base-uncased](https://huggingface.co/bert-base-uncased) on the [jailbreak-classification](https://huggingface.co/datasets/jackhhao/jailbreak-classification) dataaset.
+## Training Details
+### Training Data
+Fine-tuned on the [jailbreak-classification](https://huggingface.co/datasets/jackhhao/jailbreak-classification) dataaset.
+### Training Procedure
+#### Training Hyperparameters
+Fine-tuning hyper-parameters:
+- learning_rate = 5e-5
+- per_device_train_batch_size = 8
+- per_device_eval_batch_size = 8
+- lr_scheduler_type = linear
+- num_train_epochs = 5.0