Spaces:

jaynopponep
/

CTIIC-Plagiarism-Detector

Sleeping

App Files Files Community

jaynopponep commited on Mar 6, 2024

Commit

fcb22a6

1 Parent(s): 8768724

Fixing model...

Browse files

Files changed (1) hide show

model.py +35 -11

model.py CHANGED Viewed

@@ -3,21 +3,27 @@ import torch
 from sklearn.model_selection import train_test_split
 from transformers import BertTokenizer, BertForSequenceClassification, TrainingArguments, Trainer
-df = pd.read_csv('Training_Essay_Data 1.csv.csv')
-train_df, eval_df = train_test_split(df, test_size=0.1)  # Here 10% for validation
-tokenizer = BertTokenizer.from_pretrained('bert-baseuncased')
 def tokenize_function(examples):
-    return tokenizer(examples['text'], padding='max_length', truncation=True, max_length=512)
 train_encodings = tokenize_function(train_df)
 eval_encodings = tokenize_function(eval_df)
 class EssayDataset(torch.utils.data.Dataset):
     def __init__(self, encodings, labels):
         self.encodings = encodings
@@ -25,18 +31,21 @@ class EssayDataset(torch.utils.data.Dataset):
     def __getitem__(self, idx):
         item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}
-        item['labels'] = torch.tensor(int(self.labels[idx]))  # Convert labels to tensor
         return item
     def __len__(self):
         return len(self.labels)
 train_dataset = EssayDataset(train_encodings, train_df['label'].tolist())
 eval_dataset = EssayDataset(eval_encodings, eval_df['label'].tolist())
-model = BertForSequenceClassification.from_pretrained('bertbase-uncased', num_labels=2)
 training_args = TrainingArguments(
     output_dir='./results',
     num_train_epochs=3,
@@ -45,8 +54,10 @@ training_args = TrainingArguments(
     warmup_steps=500,
     weight_decay=0.01,
     logging_dir='./logs',
 )
 trainer = Trainer(
     model=model,
     args=training_args,
@@ -54,11 +65,24 @@ trainer = Trainer(
     eval_dataset=eval_dataset
 )
 trainer.train()
 user_input = input("Enter the text you want to classify: ")
-inputs = tokenizer(user_input, padding=True, truncation=True,
-                   return_tensors="pt")
-outputs = model(**inputs)
-predictions = torch.argmax(outputs.logits, dim=-1)
-print("Classified as:", "AI-generated" if predictions.item() == 1 else "Human-written")

 from sklearn.model_selection import train_test_split
 from transformers import BertTokenizer, BertForSequenceClassification, TrainingArguments, Trainer
+# Read the dataset
+df = pd.read_csv('Training_Essay_Data.csv')  # Make sure the file name is correct
+# Splitting the dataset
+train_df, eval_df = train_test_split(df, test_size=0.1)
+# Tokenizer
+tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
+# Tokenize function
 def tokenize_function(examples):
+    return tokenizer(examples["text"], padding="max_length", truncation=True, max_length=512)
+# Tokenize the dataset
 train_encodings = tokenize_function(train_df)
 eval_encodings = tokenize_function(eval_df)
+# Essay dataset class
 class EssayDataset(torch.utils.data.Dataset):
     def __init__(self, encodings, labels):
         self.encodings = encodings
     def __getitem__(self, idx):
         item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}
+        item['labels'] = torch.tensor(int(self.labels[idx]))
         return item
     def __len__(self):
         return len(self.labels)
+# Dataset preparation
 train_dataset = EssayDataset(train_encodings, train_df['label'].tolist())
 eval_dataset = EssayDataset(eval_encodings, eval_df['label'].tolist())
+# Model
+model = BertForSequenceClassification.from_pretrained('bert-base-uncased', num_labels=2)
+# Training arguments
 training_args = TrainingArguments(
     output_dir='./results',
     num_train_epochs=3,
     warmup_steps=500,
     weight_decay=0.01,
     logging_dir='./logs',
+    evaluation_strategy="epoch"
 )
+# Trainer
 trainer = Trainer(
     model=model,
     args=training_args,
     eval_dataset=eval_dataset
 )
+# Train the model
 trainer.train()
+# Save the model
+model.save_pretrained("./saved_model")
+# Load the model for prediction
+model = BertForSequenceClassification.from_pretrained("./saved_model")
+# Predicting
+def predict(text):
+    inputs = tokenizer(text, padding=True, truncation=True, return_tensors="pt")
+    outputs = model(**inputs)
+    predictions = torch.argmax(outputs.logits, dim=-1)
+    return "AI-generated" if predictions.item() == 1 else "Human-written"
+# Get user input and predict
 user_input = input("Enter the text you want to classify: ")
+print("Classified as:", predict(user_input))