LIFineTuned

Paused

alexkueck commited on Aug 15, 2023

Commit

7cdb1c4

1 Parent(s): b1a0b6c

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -171,8 +171,10 @@ dataset_neu = daten_laden("alexkueck/tis")
 #############################################
 print ("################################")
 print("Datenset vorbereiten")
 #alles zusammen auf das neue datenset anwenden - batched = True und 4 Prozesse, um die Berechnung zu beschleunigen. Die "text" - Spalte braucht man anschließend nicht mehr, daher weglassen.
-tokenized_datasets = dataset_neu.map(tokenize_function, batched=True, num_proc=4, remove_columns=["id"]) #, remove_columns=["id","text"])
 #wenn man zum Trainieren erstmal nur einen kleinen Datensatz nehem möchte:
 #small_train_dataset = tokenized_datasets["train"].shuffle(seed=42).select(range(1000))
@@ -294,7 +296,7 @@ trainer = SetFitTrainer(
     train_dataset=lm_datasets["train"],
     eval_dataset=lm_datasets["test"],
     loss_class=CosineSimilarityLoss,
-    column_mapping = ['id', 'text'],
     batch_size=16,
     num_iterations=20, # Number of text pairs to generate for contrastive learning
     num_epochs=1 # Number of epochs to use for contrastive learning

 #############################################
 print ("################################")
 print("Datenset vorbereiten")
+#für den SetFit-Trainer muss man die columns 'text' und 'label' haben - in TIS gibt es noch die 'id'
+column_names = ['id', 'text', 'label']
 #alles zusammen auf das neue datenset anwenden - batched = True und 4 Prozesse, um die Berechnung zu beschleunigen. Die "text" - Spalte braucht man anschließend nicht mehr, daher weglassen.
+tokenized_datasets = dataset_neu.map(tokenize_function, batched=True, num_proc=4 ) #, remove_columns=["id","text"])
 #wenn man zum Trainieren erstmal nur einen kleinen Datensatz nehem möchte:
 #small_train_dataset = tokenized_datasets["train"].shuffle(seed=42).select(range(1000))
     train_dataset=lm_datasets["train"],
     eval_dataset=lm_datasets["test"],
     loss_class=CosineSimilarityLoss,
+    column_mapping = ['id', 'text', 'label'],
     batch_size=16,
     num_iterations=20, # Number of text pairs to generate for contrastive learning
     num_epochs=1 # Number of epochs to use for contrastive learning