Spaces:
Paused
Paused
Update app.py
Browse files
app.py
CHANGED
@@ -171,8 +171,10 @@ dataset_neu = daten_laden("alexkueck/tis")
|
|
171 |
#############################################
|
172 |
print ("################################")
|
173 |
print("Datenset vorbereiten")
|
|
|
|
|
174 |
#alles zusammen auf das neue datenset anwenden - batched = True und 4 Prozesse, um die Berechnung zu beschleunigen. Die "text" - Spalte braucht man anschließend nicht mehr, daher weglassen.
|
175 |
-
tokenized_datasets = dataset_neu.map(tokenize_function, batched=True, num_proc=4
|
176 |
|
177 |
#wenn man zum Trainieren erstmal nur einen kleinen Datensatz nehem möchte:
|
178 |
#small_train_dataset = tokenized_datasets["train"].shuffle(seed=42).select(range(1000))
|
@@ -294,7 +296,7 @@ trainer = SetFitTrainer(
|
|
294 |
train_dataset=lm_datasets["train"],
|
295 |
eval_dataset=lm_datasets["test"],
|
296 |
loss_class=CosineSimilarityLoss,
|
297 |
-
column_mapping = ['id', 'text'],
|
298 |
batch_size=16,
|
299 |
num_iterations=20, # Number of text pairs to generate for contrastive learning
|
300 |
num_epochs=1 # Number of epochs to use for contrastive learning
|
|
|
171 |
#############################################
|
172 |
print ("################################")
|
173 |
print("Datenset vorbereiten")
|
174 |
+
#für den SetFit-Trainer muss man die columns 'text' und 'label' haben - in TIS gibt es noch die 'id'
|
175 |
+
column_names = ['id', 'text', 'label']
|
176 |
#alles zusammen auf das neue datenset anwenden - batched = True und 4 Prozesse, um die Berechnung zu beschleunigen. Die "text" - Spalte braucht man anschließend nicht mehr, daher weglassen.
|
177 |
+
tokenized_datasets = dataset_neu.map(tokenize_function, batched=True, num_proc=4 ) #, remove_columns=["id","text"])
|
178 |
|
179 |
#wenn man zum Trainieren erstmal nur einen kleinen Datensatz nehem möchte:
|
180 |
#small_train_dataset = tokenized_datasets["train"].shuffle(seed=42).select(range(1000))
|
|
|
296 |
train_dataset=lm_datasets["train"],
|
297 |
eval_dataset=lm_datasets["test"],
|
298 |
loss_class=CosineSimilarityLoss,
|
299 |
+
column_mapping = ['id', 'text', 'label'],
|
300 |
batch_size=16,
|
301 |
num_iterations=20, # Number of text pairs to generate for contrastive learning
|
302 |
num_epochs=1 # Number of epochs to use for contrastive learning
|