monsoon-nlp
/

llama3-biotokenpretrain-kaniwa

Generated from Trainer

Model card Files Files and versions Metrics Training metrics Community

monsoon-nlp commited on May 15, 2024

Commit

8badb26

·

verified ·

1 Parent(s): 4e7da13

uppercase nucleotides for biotokens

Files changed (1) hide show

README.md +1 -1

README.md CHANGED Viewed

@@ -54,7 +54,7 @@ tokenizer = AutoTokenizer.from_pretrained("monsoon-nlp/llama3-biotokenpretrain-k
 tokenizer.pad_token = tokenizer.eos_token # pad fix
 qed = "∎" # from math symbols, used in pretraining
-sequence = "".join([(qed + nt) for nt in "GCCTATAGTGTGTAGCTAATGAGCCTAGGTTATCGACCCTAATCT"])
 inputs = tokenizer(f"{prefix}{sequence}{annotation}", return_tensors="pt")
 outputs = model.generate(input_ids=inputs["input_ids"].to("cuda"), max_new_tokens=50)

 tokenizer.pad_token = tokenizer.eos_token # pad fix
 qed = "∎" # from math symbols, used in pretraining
+sequence = "".join([(qed + nt.upper()) for nt in "GCCTATAGTGTGTAGCTAATGAGCCTAGGTTATCGACCCTAATCT"])
 inputs = tokenizer(f"{prefix}{sequence}{annotation}", return_tensors="pt")
 outputs = model.generate(input_ids=inputs["input_ids"].to("cuda"), max_new_tokens=50)