bert-base-arabert-BioNER-EN-AR / tokenizer_config.json

Training in progress, epoch 1

6ab7e00 over 1 year ago

811 Bytes

	{
	"cls_token": "[CLS]",
	"do_basic_tokenize": true,
	"do_lower_case": false,
	"full_tokenizer_file": null,
	"mask_token": "[MASK]",
	"max_len": 512,
	"model_max_length": 512,
	"never_split": [
	"+وا",
	"س+",
	"[مستخدم]",
	"+ك",
	"+هم",
	"+ة",
	"+ن",
	"لل+",
	"[بريد]",
	"[رابط]",
	"+ه",
	"+كن",
	"+ا",
	"+ات",
	"+ي",
	"ب+",
	"+نا",
	"+هن",
	"+كم",
	"ك+",
	"+ين",
	"+هما",
	"و+",
	"+كما",
	"+ان",
	"+ت",
	"+ون",
	"ل+",
	"+ها",
	"ال+",
	"ف+"
	],
	"pad_token": "[PAD]",
	"sep_token": "[SEP]",
	"special_tokens_map_file": null,
	"strip_accents": null,
	"tokenize_chinese_chars": true,
	"tokenizer_class": "BertTokenizer",
	"unk_token": "[UNK]"
	}