Spaces:

MaroueneA
/

OffensiveDetection

Sleeping

App Files Files Community

MaroueneA commited on Apr 20, 2024

Commit

139e538

1 Parent(s): df619ae

Initial commit of my Gradio NLP app

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

app.py +81 -0
models/UBC-NLP/ARBERT/config.json +33 -0
models/UBC-NLP/ARBERT/model.safetensors +3 -0
models/UBC-NLP/ARBERT/special_tokens_map.json +7 -0
models/UBC-NLP/ARBERT/tokenizer.json +0 -0
models/UBC-NLP/ARBERT/tokenizer_config.json +57 -0
models/UBC-NLP/ARBERT/vocab.txt +0 -0
models/UBC-NLP/MARBERT/config.json +33 -0
models/UBC-NLP/MARBERT/model.safetensors +3 -0
models/UBC-NLP/MARBERT/special_tokens_map.json +7 -0
models/UBC-NLP/MARBERT/tokenizer.json +0 -0
models/UBC-NLP/MARBERT/tokenizer_config.json +57 -0
models/UBC-NLP/MARBERT/vocab.txt +0 -0
models/bert-offensive/checkpoint-1000/config.json +27 -0
models/bert-offensive/checkpoint-1000/model.safetensors +3 -0
models/bert-offensive/checkpoint-1000/optimizer.pt +3 -0
models/bert-offensive/checkpoint-1000/rng_state.pth +3 -0
models/bert-offensive/checkpoint-1000/scheduler.pt +3 -0
models/bert-offensive/checkpoint-1000/special_tokens_map.json +7 -0
models/bert-offensive/checkpoint-1000/tokenizer.json +0 -0
models/bert-offensive/checkpoint-1000/tokenizer_config.json +55 -0
models/bert-offensive/checkpoint-1000/trainer_state.json +35 -0
models/bert-offensive/checkpoint-1000/training_args.bin +3 -0
models/bert-offensive/checkpoint-1000/vocab.txt +0 -0
models/bert-offensive/checkpoint-1500/config.json +27 -0
models/bert-offensive/checkpoint-1500/model.safetensors +3 -0
models/bert-offensive/checkpoint-1500/optimizer.pt +3 -0
models/bert-offensive/checkpoint-1500/rng_state.pth +3 -0
models/bert-offensive/checkpoint-1500/scheduler.pt +3 -0
models/bert-offensive/checkpoint-1500/special_tokens_map.json +7 -0
models/bert-offensive/checkpoint-1500/tokenizer.json +0 -0
models/bert-offensive/checkpoint-1500/tokenizer_config.json +55 -0
models/bert-offensive/checkpoint-1500/trainer_state.json +54 -0
models/bert-offensive/checkpoint-1500/training_args.bin +3 -0
models/bert-offensive/checkpoint-1500/vocab.txt +0 -0
models/bert-offensive/checkpoint-2000/config.json +27 -0
models/bert-offensive/checkpoint-2000/model.safetensors +3 -0
models/bert-offensive/checkpoint-2000/optimizer.pt +3 -0
models/bert-offensive/checkpoint-2000/rng_state.pth +3 -0
models/bert-offensive/checkpoint-2000/scheduler.pt +3 -0
models/bert-offensive/checkpoint-2000/special_tokens_map.json +7 -0
models/bert-offensive/checkpoint-2000/tokenizer.json +0 -0
models/bert-offensive/checkpoint-2000/tokenizer_config.json +55 -0
models/bert-offensive/checkpoint-2000/trainer_state.json +61 -0
models/bert-offensive/checkpoint-2000/training_args.bin +3 -0
models/bert-offensive/checkpoint-2000/vocab.txt +0 -0
models/bert-offensive/checkpoint-2500/config.json +27 -0
models/bert-offensive/checkpoint-2500/model.safetensors +3 -0
models/bert-offensive/checkpoint-2500/optimizer.pt +3 -0
models/bert-offensive/checkpoint-2500/rng_state.pth +3 -0

app.py ADDED Viewed

	@@ -0,0 +1,81 @@

+import gradio as gr
+from transformers import AutoModelForSequenceClassification, AutoTokenizer
+import torch
+# Load the saved models and tokenizers
+model_roberta = AutoModelForSequenceClassification.from_pretrained("./models/roberta-base-offensive")
+tokenizer_roberta = AutoTokenizer.from_pretrained("./models/roberta-base-offensive")
+model_distilbert = AutoModelForSequenceClassification.from_pretrained("./models/distilbert-base-uncased-offensive")
+tokenizer_distilbert = AutoTokenizer.from_pretrained("./models/distilbert-base-uncased-offensive")
+model_deberta = AutoModelForSequenceClassification.from_pretrained("./models/deberta-offensive")
+tokenizer_deberta = AutoTokenizer.from_pretrained("./models/deberta-offensive")
+model_bert = AutoModelForSequenceClassification.from_pretrained("./models/bert-offensive")
+tokenizer_bert = AutoTokenizer.from_pretrained("./models/bert-offensive")
+# Arabic saved Models and tokenizers
+model_arbert = AutoModelForSequenceClassification.from_pretrained("./models/UBC-NLP/ARBERT")
+tokenizer_arbert = AutoTokenizer.from_pretrained("./models/UBC-NLP/ARBERT")
+model_marbert = AutoModelForSequenceClassification.from_pretrained("./models/UBC-NLP/MARBERT")
+tokenizer_marbert = AutoTokenizer.from_pretrained("./models/UBC-NLP/MARBERT")
+def predict(tweet, model_choice):
+    if model_choice == "RoBERTa":
+        model = model_roberta
+        tokenizer = tokenizer_roberta
+    elif model_choice == "DistilBERT":
+        model = model_distilbert
+        tokenizer = tokenizer_distilbert
+    elif model_choice == "ARBERT":
+        model = model_arbert
+        tokenizer = tokenizer_arbert
+    elif model_choice == "MARBERT":
+        model = model_marbert
+        tokenizer = tokenizer_marbert
+    elif model_choice == "DeBERTa":
+        model = model_deberta
+        tokenizer = tokenizer_deberta
+    elif model_choice == "BERT":
+        model = model_bert
+        tokenizer = tokenizer_bert
+    else:
+        return "Model not selected", "Please select a model."
+    encoded_input = tokenizer.encode(tweet, return_tensors='pt', truncation=True, max_length=512, padding=True)
+    with torch.no_grad():
+        output = model(encoded_input)
+        logits = output.logits
+        probabilities = torch.softmax(logits, dim=-1)
+        prediction_index = probabilities.argmax().item()
+    prediction_map = {0: "Not Offensive", 1: "Offensive"}
+    prediction = prediction_map[prediction_index]
+    confidence = probabilities[0, prediction_index].item()
+    return prediction, f"Confidence: {confidence:.4f}"
+def app_interface():
+    with gr.Blocks() as app:
+        gr.Markdown("## Offensive Language Detection")
+        gr.Markdown("### Instructions:")
+        gr.Markdown("1. Select the language of the text.\n2. Choose a model corresponding to the selected language:\n   - For **English**: BERT, DeBERTa, RoBERTa, or DistilBERT\n   - For **Tunisian Arabic**: ARBERT or MARBERT")
+        with gr.Row():
+            language = gr.Radio(["English", "Tunisian Arabic"], label="Choose Language")
+        with gr.Row():
+            model_choice = gr.Dropdown(["RoBERTa", "DistilBERT", "ARBERT", "MARBERT", "DeBERTa", "BERT"], label="Choose Model")
+        with gr.Row():
+            tweet = gr.Textbox(lines=4, placeholder="Enter your text here...", label="Text")
+            submit_btn = gr.Button("Predict")
+        with gr.Row():
+            prediction = gr.Textbox(label="Prediction")
+            confidence = gr.Textbox(label="Confidence")
+        submit_btn.click(fn=predict, inputs=[tweet, model_choice], outputs=[prediction, confidence])
+    return app
+app = app_interface()
+app.launch()

models/UBC-NLP/ARBERT/config.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "_name_or_path": "UBC-NLP/ARBERT",
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "directionality": "bidi",
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "pooler_fc_size": 768,
+  "pooler_num_attention_heads": 12,
+  "pooler_num_fc_layers": 3,
+  "pooler_size_per_head": 128,
+  "pooler_type": "first_token_transform",
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.39.2",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 100000
+}

models/UBC-NLP/ARBERT/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f5721a08143fe631ff017403f0a526b5d570444ebab9af55869f50815112efd5
+size 651395072

models/UBC-NLP/ARBERT/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

models/UBC-NLP/ARBERT/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

models/UBC-NLP/ARBERT/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,57 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "4": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": true,
+  "mask_token": "[MASK]",
+  "model_max_length": 1000000000000000019884624838656,
+  "never_split": null,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

models/UBC-NLP/ARBERT/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

models/UBC-NLP/MARBERT/config.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "_name_or_path": "UBC-NLP/MARBERT",
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "directionality": "bidi",
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "pooler_fc_size": 768,
+  "pooler_num_attention_heads": 12,
+  "pooler_num_fc_layers": 3,
+  "pooler_size_per_head": 128,
+  "pooler_type": "first_token_transform",
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.39.2",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 100000
+}

models/UBC-NLP/MARBERT/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:874e85391a27658550ccfde41216bf0d1bf732472e4461d8ba7876a4dcd1b2c6
+size 651395072

models/UBC-NLP/MARBERT/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

models/UBC-NLP/MARBERT/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

models/UBC-NLP/MARBERT/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,57 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "4": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": true,
+  "mask_token": "[MASK]",
+  "model_max_length": 1000000000000000019884624838656,
+  "never_split": null,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

models/UBC-NLP/MARBERT/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

models/bert-offensive/checkpoint-1000/config.json ADDED Viewed

	@@ -0,0 +1,27 @@

+{
+  "_name_or_path": "bert-base-uncased",
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.39.3",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

models/bert-offensive/checkpoint-1000/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cd658ae002182ad99ffbb9982d5d85515c0c49949eac2d6d4eb86c479d67955b
+size 437958648

models/bert-offensive/checkpoint-1000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:22c5eb3685348006d842a33f8c23a222816e6efa7e3dbf1212516a44add594c0
+size 876038394

models/bert-offensive/checkpoint-1000/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:89ed3ecad87f77a0ed60753e4ffd969dbef607419cab5d7c3471fc6b16360766
+size 14244

models/bert-offensive/checkpoint-1000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3cdc454fd78e2054130f997d6bf748bc81368c748607a351ea7de15a408d26e6
+size 1064

models/bert-offensive/checkpoint-1000/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

models/bert-offensive/checkpoint-1000/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

models/bert-offensive/checkpoint-1000/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,55 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_lower_case": true,
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

models/bert-offensive/checkpoint-1000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,35 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.6711409395973155,
+  "eval_steps": 500,
+  "global_step": 1000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.34,
+      "grad_norm": 3.309788227081299,
+      "learning_rate": 4.440715883668904e-05,
+      "loss": 0.5291,
+      "step": 500
+    },
+    {
+      "epoch": 0.67,
+      "grad_norm": 8.38113784790039,
+      "learning_rate": 3.881431767337807e-05,
+      "loss": 0.4834,
+      "step": 1000
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 4470,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "total_flos": 423493688042880.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

models/bert-offensive/checkpoint-1000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ff52faf0d3a27635d14f511f07bc80871b57c3a7826358862dda78696619e8f5
+size 4856

models/bert-offensive/checkpoint-1000/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

models/bert-offensive/checkpoint-1500/config.json ADDED Viewed

	@@ -0,0 +1,27 @@

+{
+  "_name_or_path": "bert-base-uncased",
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.39.3",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

models/bert-offensive/checkpoint-1500/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b13c8461e29b1c84d3992da1258c4e67c9df1faa1b7d2a6d3866c8b4ab31264e
+size 437958648

models/bert-offensive/checkpoint-1500/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5a5c46aedd4909a23c89b0d3396dc7938f781b6289de190c8bb1fa275715998e
+size 876038394

models/bert-offensive/checkpoint-1500/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:17a5e93a639b18c5080b3206380db8bdf3c9bf762e376ba68470d9bd63251d88
+size 14244

models/bert-offensive/checkpoint-1500/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0bd70d973811a00199980200e5162073c3f4bfdfc513c94464ee46ef32af9473
+size 1064

models/bert-offensive/checkpoint-1500/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

models/bert-offensive/checkpoint-1500/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

models/bert-offensive/checkpoint-1500/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,55 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_lower_case": true,
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

models/bert-offensive/checkpoint-1500/trainer_state.json ADDED Viewed

	@@ -0,0 +1,54 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0067114093959733,
+  "eval_steps": 500,
+  "global_step": 1500,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.34,
+      "grad_norm": 3.309788227081299,
+      "learning_rate": 4.440715883668904e-05,
+      "loss": 0.5291,
+      "step": 500
+    },
+    {
+      "epoch": 0.67,
+      "grad_norm": 8.38113784790039,
+      "learning_rate": 3.881431767337807e-05,
+      "loss": 0.4834,
+      "step": 1000
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.8244186046511628,
+      "eval_f1": 0.700990099009901,
+      "eval_loss": 0.40849873423576355,
+      "eval_precision": 0.6679245283018868,
+      "eval_recall": 0.7375,
+      "eval_runtime": 1.415,
+      "eval_samples_per_second": 607.771,
+      "eval_steps_per_second": 76.325,
+      "step": 1490
+    },
+    {
+      "epoch": 1.01,
+      "grad_norm": 4.857753753662109,
+      "learning_rate": 3.3221476510067115e-05,
+      "loss": 0.4743,
+      "step": 1500
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 4470,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "total_flos": 635261087615520.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

models/bert-offensive/checkpoint-1500/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ff52faf0d3a27635d14f511f07bc80871b57c3a7826358862dda78696619e8f5
+size 4856

models/bert-offensive/checkpoint-1500/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

models/bert-offensive/checkpoint-2000/config.json ADDED Viewed

	@@ -0,0 +1,27 @@

+{
+  "_name_or_path": "bert-base-uncased",
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.39.3",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

models/bert-offensive/checkpoint-2000/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d84caca90c708c6d9b08f796f62f3fe3770d1ebbe5dc4708d787c870652e882a
+size 437958648

models/bert-offensive/checkpoint-2000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:79f977dfb26bf16852ccff9864f65c99dfca153be14bcd7280af5f7a05a0d808
+size 876038394

models/bert-offensive/checkpoint-2000/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e57db07813490de347f6b29da476f84f897496ba4cc251212c6d017a619dce80
+size 14244

models/bert-offensive/checkpoint-2000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dd68bf4dff9924c9178e7ecdd91ec247aec55edc72b3ca0231603fd33cef86d3
+size 1064

models/bert-offensive/checkpoint-2000/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

models/bert-offensive/checkpoint-2000/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

models/bert-offensive/checkpoint-2000/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,55 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_lower_case": true,
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

models/bert-offensive/checkpoint-2000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,61 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.342281879194631,
+  "eval_steps": 500,
+  "global_step": 2000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.34,
+      "grad_norm": 3.309788227081299,
+      "learning_rate": 4.440715883668904e-05,
+      "loss": 0.5291,
+      "step": 500
+    },
+    {
+      "epoch": 0.67,
+      "grad_norm": 8.38113784790039,
+      "learning_rate": 3.881431767337807e-05,
+      "loss": 0.4834,
+      "step": 1000
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.8244186046511628,
+      "eval_f1": 0.700990099009901,
+      "eval_loss": 0.40849873423576355,
+      "eval_precision": 0.6679245283018868,
+      "eval_recall": 0.7375,
+      "eval_runtime": 1.415,
+      "eval_samples_per_second": 607.771,
+      "eval_steps_per_second": 76.325,
+      "step": 1490
+    },
+    {
+      "epoch": 1.01,
+      "grad_norm": 4.857753753662109,
+      "learning_rate": 3.3221476510067115e-05,
+      "loss": 0.4743,
+      "step": 1500
+    },
+    {
+      "epoch": 1.34,
+      "grad_norm": 20.212223052978516,
+      "learning_rate": 2.7628635346756153e-05,
+      "loss": 0.3753,
+      "step": 2000
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 4470,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "total_flos": 846855820558080.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

models/bert-offensive/checkpoint-2000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ff52faf0d3a27635d14f511f07bc80871b57c3a7826358862dda78696619e8f5
+size 4856

models/bert-offensive/checkpoint-2000/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

models/bert-offensive/checkpoint-2500/config.json ADDED Viewed

	@@ -0,0 +1,27 @@

+{
+  "_name_or_path": "bert-base-uncased",
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.39.3",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

models/bert-offensive/checkpoint-2500/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f58457eeb8339abe1f0ee26937443a95a8a25aae3c4fe5f569327ab3fd87f48c
+size 437958648

models/bert-offensive/checkpoint-2500/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:77406637943250708e3999e599a8b10ef39a486f27cfa07a01bbff9f9a76e71b
+size 876038394

models/bert-offensive/checkpoint-2500/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5ccff0626d2d12f751c557becd9d0ba8acfabed972b2c6065108c51d3e8d4d12
+size 14244