add tokenizer files
ff8891d
|
{ |
|
"<mask>": 282723, |
|
"ace_Arab": 282724, |
|
"ace_Latn": 282725, |
|
"acm_Arab": 282726, |
|
"acq_Arab": 282727, |
|
"aeb_Arab": 282728, |
|
"afr_Latn": 282729, |
|
"ajp_Arab": 282730, |
|
"aka_Latn": 282731, |
|
"als_Latn": 282732, |
|
"amh_Ethi": 282733, |
|
"apc_Arab": 282734, |
|
"arb_Arab": 282735, |
|
"ars_Arab": 282736, |
|
"ary_Arab": 282737, |
|
"arz_Arab": 282738, |
|
"asm_Beng": 282739, |
|
"ast_Latn": 282740, |
|
"awa_Deva": 282741, |
|
"ayr_Latn": 282742, |
|
"azb_Arab": 282743, |
|
"azj_Latn": 282744, |
|
"bak_Cyrl": 282745, |
|
"bam_Latn": 282746, |
|
"ban_Latn": 282747, |
|
"bel_Cyrl": 282748, |
|
"bem_Latn": 282749, |
|
"ben_Beng": 282750, |
|
"bho_Deva": 282751, |
|
"bjn_Arab": 282752, |
|
"bjn_Latn": 282753, |
|
"bod_Tibt": 282754, |
|
"bos_Latn": 282755, |
|
"bug_Latn": 282756, |
|
"bul_Cyrl": 282757, |
|
"bxr_Cyrl": 282758, |
|
"cat_Latn": 282759, |
|
"ceb_Latn": 282760, |
|
"ces_Latn": 282761, |
|
"che_Cyrl": 282762, |
|
"cjk_Latn": 282763, |
|
"ckb_Arab": 282764, |
|
"crh_Latn": 282765, |
|
"cym_Latn": 282766, |
|
"dan_Latn": 282767, |
|
"deu_Latn": 282768, |
|
"dik_Latn": 282769, |
|
"dyu_Latn": 282770, |
|
"dzo_Tibt": 282771, |
|
"ell_Grek": 282772, |
|
"eng_Latn": 282773, |
|
"epo_Latn": 282774, |
|
"est_Latn": 282775, |
|
"eus_Latn": 282776, |
|
"ewe_Latn": 282777, |
|
"fao_Latn": 282778, |
|
"fij_Latn": 282779, |
|
"fin_Latn": 282780, |
|
"fon_Latn": 282781, |
|
"fra_Latn": 282782, |
|
"fur_Latn": 282783, |
|
"fuv_Latn": 282784, |
|
"gaz_Latn": 282785, |
|
"gla_Latn": 282786, |
|
"gle_Latn": 282787, |
|
"glg_Latn": 282788, |
|
"grn_Latn": 282789, |
|
"guj_Gujr": 282790, |
|
"hat_Latn": 282791, |
|
"hau_Latn": 282792, |
|
"heb_Hebr": 282793, |
|
"hin_Deva": 282794, |
|
"hne_Deva": 282795, |
|
"hrv_Latn": 282796, |
|
"hun_Latn": 282797, |
|
"hye_Armn": 282798, |
|
"ibo_Latn": 282799, |
|
"ilo_Latn": 282800, |
|
"ind_Latn": 282801, |
|
"isl_Latn": 282802, |
|
"ita_Latn": 282803, |
|
"jav_Latn": 282804, |
|
"jpn_Jpan": 282805, |
|
"kab_Latn": 282806, |
|
"kac_Latn": 282807, |
|
"kam_Latn": 282808, |
|
"kan_Knda": 282809, |
|
"kas_Arab": 282810, |
|
"kas_Deva": 282811, |
|
"kat_Geor": 282812, |
|
"kaz_Cyrl": 282813, |
|
"kbp_Latn": 282814, |
|
"kea_Latn": 282815, |
|
"khk_Cyrl": 282816, |
|
"khm_Khmr": 282817, |
|
"kik_Latn": 282818, |
|
"kin_Latn": 282819, |
|
"kir_Cyrl": 282820, |
|
"kmb_Latn": 282821, |
|
"kmr_Latn": 282822, |
|
"knc_Arab": 282823, |
|
"knc_Latn": 282824, |
|
"kon_Latn": 282825, |
|
"kor_Hang": 282826, |
|
"lao_Laoo": 282827, |
|
"lij_Latn": 282828, |
|
"lim_Latn": 282829, |
|
"lin_Latn": 282830, |
|
"lit_Latn": 282831, |
|
"lmo_Latn": 282832, |
|
"ltg_Latn": 282833, |
|
"ltz_Latn": 282834, |
|
"lua_Latn": 282835, |
|
"lug_Latn": 282836, |
|
"luo_Latn": 282837, |
|
"lus_Latn": 282838, |
|
"lvs_Latn": 282839, |
|
"mag_Deva": 282840, |
|
"mai_Deva": 282841, |
|
"mal_Mlym": 282842, |
|
"mar_Deva": 282843, |
|
"min_Latn": 282844, |
|
"mkd_Cyrl": 282845, |
|
"mlt_Latn": 282846, |
|
"mni_Beng": 282847, |
|
"mos_Latn": 282848, |
|
"mri_Latn": 282849, |
|
"mya_Mymr": 282850, |
|
"myv_Cyrl": 282851, |
|
"nld_Latn": 282852, |
|
"nno_Latn": 282853, |
|
"nob_Latn": 282854, |
|
"npi_Deva": 282855, |
|
"nso_Latn": 282856, |
|
"nus_Latn": 282857, |
|
"nya_Latn": 282858, |
|
"oci_Latn": 282859, |
|
"ory_Orya": 282860, |
|
"pag_Latn": 282861, |
|
"pan_Guru": 282862, |
|
"pap_Latn": 282863, |
|
"pbt_Arab": 282864, |
|
"pes_Arab": 282865, |
|
"plt_Latn": 282866, |
|
"pol_Latn": 282867, |
|
"por_Latn": 282868, |
|
"prs_Arab": 282869, |
|
"quy_Latn": 282870, |
|
"ron_Latn": 282871, |
|
"run_Latn": 282872, |
|
"rus_Cyrl": 282873, |
|
"sag_Latn": 282874, |
|
"san_Deva": 282875, |
|
"sat_Beng": 282876, |
|
"scn_Latn": 282877, |
|
"shn_Mymr": 282878, |
|
"sin_Sinh": 282879, |
|
"slk_Latn": 282880, |
|
"slv_Latn": 282881, |
|
"smo_Latn": 282882, |
|
"sna_Latn": 282883, |
|
"snd_Arab": 282884, |
|
"som_Latn": 282885, |
|
"sot_Latn": 282886, |
|
"spa_Latn": 282887, |
|
"srd_Latn": 282888, |
|
"srp_Cyrl": 282889, |
|
"ssw_Latn": 282890, |
|
"sun_Latn": 282891, |
|
"swe_Latn": 282892, |
|
"swh_Latn": 282893, |
|
"szl_Latn": 282894, |
|
"tam_Taml": 282895, |
|
"taq_Latn": 282896, |
|
"taq_Tfng": 282897, |
|
"tat_Cyrl": 282898, |
|
"tel_Telu": 282899, |
|
"tgk_Cyrl": 282900, |
|
"tgl_Latn": 282901, |
|
"tha_Thai": 282902, |
|
"tir_Ethi": 282903, |
|
"tpi_Latn": 282904, |
|
"tsn_Latn": 282905, |
|
"tso_Latn": 282906, |
|
"tuk_Latn": 282907, |
|
"tum_Latn": 282908, |
|
"tur_Latn": 282909, |
|
"twi_Latn": 282910, |
|
"tyv_Cyrl": 282911, |
|
"tzm_Tfng": 282912, |
|
"uig_Arab": 282913, |
|
"ukr_Cyrl": 282914, |
|
"umb_Latn": 282915, |
|
"urd_Arab": 282916, |
|
"uzn_Latn": 282917, |
|
"vec_Latn": 282918, |
|
"vie_Latn": 282919, |
|
"war_Latn": 282920, |
|
"wol_Latn": 282921, |
|
"xho_Latn": 282922, |
|
"ydd_Hebr": 282923, |
|
"yor_Latn": 282924, |
|
"yue_Hant": 282925, |
|
"zho_Hans": 282926, |
|
"zho_Hant": 282927, |
|
"zsm_Latn": 282928, |
|
"zul_Latn": 282929 |
|
} |
|
|