{ "num_threads": 224, "split_by_whitespace": true, "model_type": "unigram", "vocab_size": 250680, "character_coverage": 0.9999, "byte_fallback": true, "split_by_number": true, "split_digits": true, "normalization_rule_name": "nfkc", "max_sentence_length": 4096, "shuffle_input_sentence": true, "input_sentence_size": 0, "train_extremely_large_corpus": true, "allow_whitespace_only_pieces": true, "required_chars": "", "remove_extra_whitespaces": false, "user_defined_symbols": [ "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "" ], "datasets_dir": "/home/fhgiais/gptx_ablations/bias_analysis/data/tokenizer/temp/", "save_dir": "/home/fhgiais/gptx_ablations/bias_analysis/tokenizer/24", "text_key": "text", "cache_dir": "/home/fhgiais/gptx_ablations/bias_analysis/tokenizer/24/cache", "library": "sentencepiece", "auto_map": { "AutoTokenizer": [ "gptx_tokenizer.SPTokenizer", null ] }, "tokenizer_class": "SPTokenizer" }