Spaces:

nroggendorff
/

train-llama

Starting on A100

nroggendorff commited on Oct 13

Commit

40853aa

•

1 Parent(s): 3fa6168

Update train.py

Files changed (1) hide show

train.py CHANGED Viewed

@@ -110,10 +110,7 @@ def configure_tokenizer(tokenizer):
         special_tokens["additional_special_tokens"] = ["<|user|>", "<|bot|>", "<|end|>"]
     tokenizer.add_special_tokens(special_tokens)
-    tokenizer.vocab = {k: v + 1 for k, v in tokenizer.vocab.items()}
-    tokenizer.ids_to_tokens = {v: k for k, v in tokenizer.vocab.items()}
-    tokenizer.pad_token_id = 1
     if INSTRUCT_FINETUNE_BOOL:
         tokenizer.user_token_id = tokenizer.convert_tokens_to_ids("<|user|>")

         special_tokens["additional_special_tokens"] = ["<|user|>", "<|bot|>", "<|end|>"]
     tokenizer.add_special_tokens(special_tokens)
+    tokenizer.pad_token_id = MAX_SEQ_LENGTH - 1
     if INSTRUCT_FINETUNE_BOOL:
         tokenizer.user_token_id = tokenizer.convert_tokens_to_ids("<|user|>")