flax-community
/

indonesian-roberta-base

@@ -2,7 +2,7 @@ from datasets import load_dataset
 from tokenizers import ByteLevelBPETokenizer
 # load dataset
-dataset = load_dataset("mc4", "id", split="train")
 # Instantiate tokenizer
 tokenizer = ByteLevelBPETokenizer()

 from tokenizers import ByteLevelBPETokenizer
 # load dataset
+dataset = load_dataset("oscar", "unshuffled_deduplicated_id", split="train")
 # Instantiate tokenizer
 tokenizer = ByteLevelBPETokenizer()