alexkueck commited on
Commit
7cdb1c4
·
1 Parent(s): b1a0b6c

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +4 -2
app.py CHANGED
@@ -171,8 +171,10 @@ dataset_neu = daten_laden("alexkueck/tis")
171
  #############################################
172
  print ("################################")
173
  print("Datenset vorbereiten")
 
 
174
  #alles zusammen auf das neue datenset anwenden - batched = True und 4 Prozesse, um die Berechnung zu beschleunigen. Die "text" - Spalte braucht man anschließend nicht mehr, daher weglassen.
175
- tokenized_datasets = dataset_neu.map(tokenize_function, batched=True, num_proc=4, remove_columns=["id"]) #, remove_columns=["id","text"])
176
 
177
  #wenn man zum Trainieren erstmal nur einen kleinen Datensatz nehem möchte:
178
  #small_train_dataset = tokenized_datasets["train"].shuffle(seed=42).select(range(1000))
@@ -294,7 +296,7 @@ trainer = SetFitTrainer(
294
  train_dataset=lm_datasets["train"],
295
  eval_dataset=lm_datasets["test"],
296
  loss_class=CosineSimilarityLoss,
297
- column_mapping = ['id', 'text'],
298
  batch_size=16,
299
  num_iterations=20, # Number of text pairs to generate for contrastive learning
300
  num_epochs=1 # Number of epochs to use for contrastive learning
 
171
  #############################################
172
  print ("################################")
173
  print("Datenset vorbereiten")
174
+ #für den SetFit-Trainer muss man die columns 'text' und 'label' haben - in TIS gibt es noch die 'id'
175
+ column_names = ['id', 'text', 'label']
176
  #alles zusammen auf das neue datenset anwenden - batched = True und 4 Prozesse, um die Berechnung zu beschleunigen. Die "text" - Spalte braucht man anschließend nicht mehr, daher weglassen.
177
+ tokenized_datasets = dataset_neu.map(tokenize_function, batched=True, num_proc=4 ) #, remove_columns=["id","text"])
178
 
179
  #wenn man zum Trainieren erstmal nur einen kleinen Datensatz nehem möchte:
180
  #small_train_dataset = tokenized_datasets["train"].shuffle(seed=42).select(range(1000))
 
296
  train_dataset=lm_datasets["train"],
297
  eval_dataset=lm_datasets["test"],
298
  loss_class=CosineSimilarityLoss,
299
+ column_mapping = ['id', 'text', 'label'],
300
  batch_size=16,
301
  num_iterations=20, # Number of text pairs to generate for contrastive learning
302
  num_epochs=1 # Number of epochs to use for contrastive learning