Alperens1
/

turna-gec-1

Text2Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

Alperens1 commited on May 30

Commit

0491c59

•

1 Parent(s): 565cc23

Upload tokenizer

Files changed (3) hide show

README.md +2 -2
tokenizer.json +4 -4
tokenizer_config.json +6 -1

README.md CHANGED Viewed

@@ -1,11 +1,11 @@
 ---
 library_name: transformers
 base_model: boun-tabi-LMG/TURNA
 datasets:
 - GGLab/GECTurk
 - mcemilg/GECTurk-generation
-language:
-- tr
 ---
 # Model Card for Model ID

 ---
+language:
+- tr
 library_name: transformers
 base_model: boun-tabi-LMG/TURNA
 datasets:
 - GGLab/GECTurk
 - mcemilg/GECTurk-generation
 ---
 # Model Card for Model ID

tokenizer.json CHANGED Viewed

@@ -964,15 +964,15 @@
   "pre_tokenizer": {
     "type": "Metaspace",
     "replacement": "▁",
-    "add_prefix_space": true,
-    "prepend_scheme": "always"
   },
   "post_processor": null,
   "decoder": {
     "type": "Metaspace",
     "replacement": "▁",
-    "add_prefix_space": true,
-    "prepend_scheme": "always"
   },
   "model": {
     "type": "Unigram",

   "pre_tokenizer": {
     "type": "Metaspace",
     "replacement": "▁",
+    "prepend_scheme": "always",
+    "split": true
   },
   "post_processor": null,
   "decoder": {
     "type": "Metaspace",
     "replacement": "▁",
+    "prepend_scheme": "always",
+    "split": true
   },
   "model": {
     "type": "Unigram",

tokenizer_config.json CHANGED Viewed

@@ -1,4 +1,6 @@
 {
   "added_tokens_decoder": {
     "0": {
       "content": "<PAD>",
@@ -939,10 +941,13 @@
   "clean_up_tokenization_spaces": false,
   "eos_token": "<EOS>",
   "extra_ids": 100,
   "model_max_length": 1024,
   "pad_token": "<PAD>",
-  "padding_side": "right",
   "tokenizer_class": "PreTrainedTokenizerFast",
   "truncation_side": "right",
   "unk_token": "<UNK>"
 }

 {
+  "add_bos_token": true,
+  "add_eos_token": true,
   "added_tokens_decoder": {
     "0": {
       "content": "<PAD>",
   "clean_up_tokenization_spaces": false,
   "eos_token": "<EOS>",
   "extra_ids": 100,
+  "max_length": 45,
   "model_max_length": 1024,
   "pad_token": "<PAD>",
+  "padding_side": "left",
+  "stride": 0,
   "tokenizer_class": "PreTrainedTokenizerFast",
   "truncation_side": "right",
+  "truncation_strategy": "longest_first",
   "unk_token": "<UNK>"
 }