Spaces:

EntrepreneurFirst
/

team3

Runtime error

App Files Files Community

TomSmail commited on Apr 25

Commit

4c24cb9

•

1 Parent(s): 656f752

feat: writes basic pipeline for psychologist model

Browse files

Files changed (1) hide show

psy.py +38 -3

psy.py CHANGED Viewed

@@ -1,5 +1,8 @@
 from datasets import load_dataset
-from transformers import AutoTokenizer
 DATA_SEED = 9843203
 QUICK_TEST = True
@@ -17,5 +20,37 @@ tokenised_dataset = dataset.map(tokenise_function, batched=True)
 # Different sized datasets will allow for different training times
-train_dataset = tokenized_datasets["train"].shuffle(seed=DATA_SEED).select(range(1000)) if QUICK_TEST  else  tokenized_datasets["train"].shuffle(seed=DATA_SEED)
-test_dataset = tokenized_datasets["test"].shuffle(seed=DATA_SEED).select(range(1000)) if QUICK_TEST else tokenized_datasets["test"].shuffle(seed=DATA_SEED)

 from datasets import load_dataset
+from transformers import AutoTokenizer, AutoModelForSequenceClassification, TrainingArguments, Trainer
+import numpy as np
+import evaluate
 DATA_SEED = 9843203
 QUICK_TEST = True
 # Different sized datasets will allow for different training times
+train_dataset = tokenised_datasets["train"].shuffle(seed=DATA_SEED).select(range(1000)) if QUICK_TEST  else  tokenised_datasets["train"].shuffle(seed=DATA_SEED)
+test_dataset = tokenised_datasets["test"].shuffle(seed=DATA_SEED).select(range(1000)) if QUICK_TEST else tokenised_datasets["test"].shuffle(seed=DATA_SEED)
+# Each of our Mtbi types has a specific label here
+model = AutoModelForSequenceClassification.from_pretrained("meta-llama/Meta-Llama-3-8B", num_labels=16)
+# Using default hyperparameters at the moment
+training_args = TrainingArguments(output_dir="test_trainer")
+# A default metric for checking accuracy
+metric = evaluate.load("accuracy")
+def compute_metrics(eval_pred):
+    logits, labels = eval_pred
+    predictions = np.argmax(logits, axis=-1)
+    return metric.compute(predictions=predictions, references=labels)
+# Extract arguments from training
+training_args = TrainingArguments(output_dir="test_trainer", evaluation_strategy="epoch")
+# Builds a training object using previously defined data
+trainer = Trainer(
+    model=model,
+    args=training_args,
+    train_dataset=train_dataset,
+    eval_dataset=test_dataset,
+    compute_metrics=compute_metrics,
+)
+# Finally, fine-tune!
+if __name__ == "__main__":
+    trainer.train()