Upload processor

Browse files

Files changed (5) hide show

added_tokens.json +107 -0
preprocessor_config.json +13 -0
sentencepiece.bpe.model +3 -0
special_tokens_map.json +215 -0
tokenizer_config.json +17 -0

added_tokens.json ADDED Viewed

	@@ -0,0 +1,107 @@

+{
+  "__ace_Latn__": 256207,
+  "__ace__": 256206,
+  "__acm__": 256208,
+  "__acq__": 256209,
+  "__aeb__": 256210,
+  "__ajp__": 256211,
+  "__aka__": 256212,
+  "__als__": 256288,
+  "__apc__": 256213,
+  "__ars__": 256214,
+  "__ast__": 256215,
+  "__awa__": 256216,
+  "__ayr__": 256217,
+  "__azb__": 256218,
+  "__bak__": 256219,
+  "__bam__": 256220,
+  "__ban__": 256221,
+  "__bem__": 256222,
+  "__bho__": 256223,
+  "__bjn_Latn__": 256225,
+  "__bjn__": 256224,
+  "__bod__": 256226,
+  "__bug__": 256227,
+  "__cjk__": 256228,
+  "__crh__": 256229,
+  "__dik__": 256230,
+  "__dyu__": 256231,
+  "__dzo__": 256232,
+  "__epo__": 256233,
+  "__ewe__": 256234,
+  "__fao__": 256235,
+  "__fij__": 256236,
+  "__fon__": 256237,
+  "__fur__": 256238,
+  "__gla__": 256239,
+  "__grn__": 256240,
+  "__hat__": 256241,
+  "__hau__": 256242,
+  "__hne__": 256243,
+  "__ilo__": 256244,
+  "__kab__": 256245,
+  "__kac__": 256246,
+  "__kam__": 256247,
+  "__kas_Deva__": 256249,
+  "__kas__": 256248,
+  "__kbp__": 256252,
+  "__kea__": 256253,
+  "__kik__": 256254,
+  "__kin__": 256255,
+  "__kmb__": 256256,
+  "__kmr__": 256258,
+  "__knc_Latn__": 256251,
+  "__knc__": 256250,
+  "__kon__": 256257,
+  "__lij__": 256259,
+  "__lim__": 256260,
+  "__lin__": 256261,
+  "__lmo__": 256262,
+  "__ltg__": 256263,
+  "__ltz__": 256264,
+  "__lua__": 256265,
+  "__lus__": 256266,
+  "__mag__": 256267,
+  "__min__": 256268,
+  "__mos__": 256270,
+  "__mri__": 256271,
+  "__nso__": 256273,
+  "__nus__": 256274,
+  "__oci__": 256275,
+  "__pag__": 256276,
+  "__pap__": 256277,
+  "__plt__": 256269,
+  "__prs__": 256278,
+  "__quy__": 256279,
+  "__run__": 256280,
+  "__sag__": 256281,
+  "__san__": 256282,
+  "__scn__": 256283,
+  "__shn__": 256284,
+  "__sin__": 256285,
+  "__smo__": 256286,
+  "__sot__": 256287,
+  "__srd__": 256289,
+  "__ssw__": 256290,
+  "__sun__": 256291,
+  "__szl__": 256292,
+  "__taq_Tfng__": 256296,
+  "__taq__": 256295,
+  "__tat__": 256293,
+  "__tir__": 256294,
+  "__tpi__": 256297,
+  "__tsn__": 256298,
+  "__tso__": 256299,
+  "__tuk__": 256300,
+  "__tum__": 256301,
+  "__twi__": 256302,
+  "__tzm__": 256303,
+  "__uig__": 256304,
+  "__umb__": 256305,
+  "__vec__": 256306,
+  "__war__": 256307,
+  "__wol__": 256308,
+  "__xho__": 256309,
+  "__ydd__": 256310,
+  "__zsm__": 256272
+}

preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+  "feature_extractor_type": "SeamlessM4TFeatureExtractor",
+  "feature_size": 80,
+  "num_mel_bins": 80,
+  "padding_side": "right",
+  "padding_value": 0.0,
+  "processor_class": "SeamlessM4TProcessor",
+  "return_attention_mask": true,
+  "sampling_rate": 16000,
+  "src_lang": "eng",
+  "stride": 2,
+  "tgt_lang": "fra"
+}

sentencepiece.bpe.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:14bb8dfb35c0ffdea7bc01e56cea38b9e3d5efcdcb9c251d6b40538e1aab555a
+size 4852054

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,215 @@

+{
+  "additional_special_tokens": [
+    "__ace__",
+    "__ace_Latn__",
+    "__acm__",
+    "__acq__",
+    "__aeb__",
+    "__afr__",
+    "__ajp__",
+    "__aka__",
+    "__amh__",
+    "__apc__",
+    "__arb__",
+    "__ars__",
+    "__ary__",
+    "__arz__",
+    "__asm__",
+    "__ast__",
+    "__awa__",
+    "__ayr__",
+    "__azb__",
+    "__azj__",
+    "__bak__",
+    "__bam__",
+    "__ban__",
+    "__bel__",
+    "__bem__",
+    "__ben__",
+    "__bho__",
+    "__bjn__",
+    "__bjn_Latn__",
+    "__bod__",
+    "__bos__",
+    "__bug__",
+    "__bul__",
+    "__cat__",
+    "__ceb__",
+    "__ces__",
+    "__cjk__",
+    "__ckb__",
+    "__crh__",
+    "__cym__",
+    "__dan__",
+    "__deu__",
+    "__dik__",
+    "__dyu__",
+    "__dzo__",
+    "__ell__",
+    "__eng__",
+    "__epo__",
+    "__est__",
+    "__eus__",
+    "__ewe__",
+    "__fao__",
+    "__pes__",
+    "__fij__",
+    "__fin__",
+    "__fon__",
+    "__fra__",
+    "__fur__",
+    "__fuv__",
+    "__gla__",
+    "__gle__",
+    "__glg__",
+    "__grn__",
+    "__guj__",
+    "__hat__",
+    "__hau__",
+    "__heb__",
+    "__hin__",
+    "__hne__",
+    "__hrv__",
+    "__hun__",
+    "__hye__",
+    "__ibo__",
+    "__ilo__",
+    "__ind__",
+    "__isl__",
+    "__ita__",
+    "__jav__",
+    "__jpn__",
+    "__kab__",
+    "__kac__",
+    "__kam__",
+    "__kan__",
+    "__kas__",
+    "__kas_Deva__",
+    "__kat__",
+    "__knc__",
+    "__knc_Latn__",
+    "__kaz__",
+    "__kbp__",
+    "__kea__",
+    "__khm__",
+    "__kik__",
+    "__kin__",
+    "__kir__",
+    "__kmb__",
+    "__kon__",
+    "__kor__",
+    "__kmr__",
+    "__lao__",
+    "__lvs__",
+    "__lij__",
+    "__lim__",
+    "__lin__",
+    "__lit__",
+    "__lmo__",
+    "__ltg__",
+    "__ltz__",
+    "__lua__",
+    "__lug__",
+    "__luo__",
+    "__lus__",
+    "__mag__",
+    "__mai__",
+    "__mal__",
+    "__mar__",
+    "__min__",
+    "__mkd__",
+    "__plt__",
+    "__mlt__",
+    "__mni__",
+    "__khk__",
+    "__mos__",
+    "__mri__",
+    "__zsm__",
+    "__mya__",
+    "__nld__",
+    "__nno__",
+    "__nob__",
+    "__npi__",
+    "__nso__",
+    "__nus__",
+    "__nya__",
+    "__oci__",
+    "__gaz__",
+    "__ory__",
+    "__pag__",
+    "__pan__",
+    "__pap__",
+    "__pol__",
+    "__por__",
+    "__prs__",
+    "__pbt__",
+    "__quy__",
+    "__ron__",
+    "__run__",
+    "__rus__",
+    "__sag__",
+    "__san__",
+    "__sat__",
+    "__scn__",
+    "__shn__",
+    "__sin__",
+    "__slk__",
+    "__slv__",
+    "__smo__",
+    "__sna__",
+    "__snd__",
+    "__som__",
+    "__sot__",
+    "__spa__",
+    "__als__",
+    "__srd__",
+    "__srp__",
+    "__ssw__",
+    "__sun__",
+    "__swe__",
+    "__swh__",
+    "__szl__",
+    "__tam__",
+    "__tat__",
+    "__tel__",
+    "__tgk__",
+    "__tgl__",
+    "__tha__",
+    "__tir__",
+    "__taq__",
+    "__taq_Tfng__",
+    "__tpi__",
+    "__tsn__",
+    "__tso__",
+    "__tuk__",
+    "__tum__",
+    "__tur__",
+    "__twi__",
+    "__tzm__",
+    "__uig__",
+    "__ukr__",
+    "__umb__",
+    "__urd__",
+    "__uzn__",
+    "__vec__",
+    "__vie__",
+    "__war__",
+    "__wol__",
+    "__xho__",
+    "__ydd__",
+    "__yor__",
+    "__yue__",
+    "__cmn__",
+    "__cmn_Hant__",
+    "__zul__",
+    "<MINED_DATA>",
+    "<MMT_BT_DATA>",
+    "<SMT_BT_DATA>"
+  ],
+  "bos_token": "<s>",
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "unk_token": "<unk>"
+}

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,17 @@

+{
+  "additional_special_tokens": null,
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<pad>",
+  "processor_class": "SeamlessM4TProcessor",
+  "sep_token": "</s>",
+  "sp_model_kwargs": {},
+  "src_lang": "eng",
+  "tgt_lang": "fra",
+  "tokenizer_class": "SeamlessM4TTokenizer",
+  "tokenizer_file": null,
+  "unk_token": "<unk>"
+}