Upload folder using huggingface_hub

Browse files

Files changed (6) hide show

README.md +54 -0
merges.txt +1 -0
special_tokens_map.json +5 -0
tokenizer.json +343 -0
tokenizer_config.json +37 -0
vocab.json +261 -0

README.md ADDED Viewed

	@@ -0,0 +1,54 @@

+---
+license: mit
+language:
+- dig
+tags:
+- tokenizer
+- bpe
+- flexitok
+- fineweb2
+---
+# Byte-Level BPE Tokenizer: ['digit'] (0K)
+A **Byte-Level BPE** tokenizer trained on **['digit']** data from Fineweb-2-HQ.
+## Training Details
+| Parameter | Value |
+|-----------|-------|
+| Algorithm | Byte-Level BPE |
+| Language | `['digit']` |
+| Target Vocab Size | 360 |
+| Final Vocab Size | 259 |
+| Pre-tokenizer | custom:addition_split_on_hyphen |
+| Number handling | individual |
+| Contraction handling | False |
+| Normalizer | NFC |
+| Special Tokens | `<s>`, `</s>`, `<pad>`, `<unk>` |
+| Training Shards | 2, ['train.chunk.00.jsonl', 'val.chunk.00.jsonl'] |
+## Usage
+```python
+from transformers import AutoTokenizer
+tokenizer = AutoTokenizer.from_pretrained("flexitok/maddition_digit_individual_minimal_v2")
+tokens = tokenizer.encode("Hello, world!")
+```
+## Files
+- `tokenizer.json` — Full HuggingFace tokenizer
+- `vocab.json` — Vocabulary mapping
+- `merges.txt` — BPE merge rules
+## Sample Encoding
+| Text | Tokens | Token IDs |
+|------|--------|-----------|
+| `22+9=31\nyirmi iki+dokuz=otuz bir\ntwenty two+nine=thirty one` | `2, 2, +, 9, =, 3, 1, \, n, y, i, r, m, i, Ġ, i, k, i, +, d` | `20, 20, 13, 27, 31, 21, 19, 62, 80, 91, 75, 84, 79, 75, 223, 75, 77, 75, 13, 70` |
+Command used to create this tokenizer:
+```bash
+['/home/gsa/tokenizers2/flexitok/tokenizer_training/train_tokenizers.py', 'algorithm=bpe', 'vocab_size=360', 'langs=[digit]', 'data_dir=/scratch/gsa/data/multilingual-addition/', 'output_dir=/scratch/gsa/trained_tokenizers/multilingual_addition', 'pretokenizer=custom:addition_split_on_hyphen', 'number_handling=individual', 'add_numbers=false', 'handle_contractions=false', 'unicode_normalization=nfc', 'use_byte_level_regex=false', 'byte_fallback=false', 'strip_zero_width=false', 'cjk_char_split=false', 'add_cjk_chars=false', 'max_lines=-1', 'test_string=22+9=31\\nyirmi iki+dokuz=otuz bir\\ntwenty two+nine=thirty one', 'hf.publish_to_hf=true', 'hf_repo_prefix=flexitok/', 'hf.hf_repo_id=flexitok/maddition_digit_individual_minimal_v2', 'hf.collections=[flexitok/multilingual_addition_tokenizers_minimal]']

merges.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ #version: 0.2

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,5 @@

+{
+  "bos_token": "<s>",
+  "eos_token": "</s>",
+  "pad_token": "<pad>"
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,343 @@

+{
+  "version": "1.0",
+  "truncation": null,
+  "padding": null,
+  "added_tokens": [
+    {
+      "id": 0,
+      "content": "<s>",
+      "single_word": false,
+      "lstrip": false,
+      "rstrip": false,
+      "normalized": false,
+      "special": true
+    },
+    {
+      "id": 1,
+      "content": "</s>",
+      "single_word": false,
+      "lstrip": false,
+      "rstrip": false,
+      "normalized": false,
+      "special": true
+    },
+    {
+      "id": 2,
+      "content": "<pad>",
+      "single_word": false,
+      "lstrip": false,
+      "rstrip": false,
+      "normalized": false,
+      "special": true
+    }
+  ],
+  "normalizer": {
+    "type": "NFC"
+  },
+  "pre_tokenizer": {
+    "type": "Sequence",
+    "pretokenizers": [
+      {
+        "type": "Split",
+        "pattern": {
+          "Regex": "[+=\\-]|[^\\S\\r\\n]*[\\n\\r]+|[^\\S\\r\\n]+"
+        },
+        "behavior": "Isolated",
+        "invert": false
+      },
+      {
+        "type": "Split",
+        "pattern": {
+          "Regex": "\\p{N}"
+        },
+        "behavior": "Isolated",
+        "invert": false
+      },
+      {
+        "type": "ByteLevel",
+        "add_prefix_space": false,
+        "trim_offsets": true,
+        "use_regex": false
+      }
+    ]
+  },
+  "post_processor": null,
+  "decoder": {
+    "type": "ByteLevel",
+    "add_prefix_space": true,
+    "trim_offsets": true,
+    "use_regex": true
+  },
+  "model": {
+    "type": "BPE",
+    "dropout": null,
+    "unk_token": null,
+    "continuing_subword_prefix": null,
+    "end_of_word_suffix": null,
+    "fuse_unk": false,
+    "byte_fallback": false,
+    "ignore_merges": false,
+    "vocab": {
+      "<s>": 0,
+      "</s>": 1,
+      "<pad>": 2,
+      "!": 3,
+      "\"": 4,
+      "#": 5,
+      "$": 6,
+      "%": 7,
+      "&": 8,
+      "'": 9,
+      "(": 10,
+      ")": 11,
+      "*": 12,
+      "+": 13,
+      ",": 14,
+      "-": 15,
+      ".": 16,
+      "/": 17,
+      "0": 18,
+      "1": 19,
+      "2": 20,
+      "3": 21,
+      "4": 22,
+      "5": 23,
+      "6": 24,
+      "7": 25,
+      "8": 26,
+      "9": 27,
+      ":": 28,
+      ";": 29,
+      "<": 30,
+      "=": 31,
+      ">": 32,
+      "?": 33,
+      "@": 34,
+      "A": 35,
+      "B": 36,
+      "C": 37,
+      "D": 38,
+      "E": 39,
+      "F": 40,
+      "G": 41,
+      "H": 42,
+      "I": 43,
+      "J": 44,
+      "K": 45,
+      "L": 46,
+      "M": 47,
+      "N": 48,
+      "O": 49,
+      "P": 50,
+      "Q": 51,
+      "R": 52,
+      "S": 53,
+      "T": 54,
+      "U": 55,
+      "V": 56,
+      "W": 57,
+      "X": 58,
+      "Y": 59,
+      "Z": 60,
+      "[": 61,
+      "\\": 62,
+      "]": 63,
+      "^": 64,
+      "_": 65,
+      "`": 66,
+      "a": 67,
+      "b": 68,
+      "c": 69,
+      "d": 70,
+      "e": 71,
+      "f": 72,
+      "g": 73,
+      "h": 74,
+      "i": 75,
+      "j": 76,
+      "k": 77,
+      "l": 78,
+      "m": 79,
+      "n": 80,
+      "o": 81,
+      "p": 82,
+      "q": 83,
+      "r": 84,
+      "s": 85,
+      "t": 86,
+      "u": 87,
+      "v": 88,
+      "w": 89,
+      "x": 90,
+      "y": 91,
+      "z": 92,
+      "{": 93,
+      "|": 94,
+      "}": 95,
+      "~": 96,
+      "¡": 97,
+      "¢": 98,
+      "£": 99,
+      "¤": 100,
+      "¥": 101,
+      "¦": 102,
+      "§": 103,
+      "¨": 104,
+      "©": 105,
+      "ª": 106,
+      "«": 107,
+      "¬": 108,
+      "®": 109,
+      "¯": 110,
+      "°": 111,
+      "±": 112,
+      "²": 113,
+      "³": 114,
+      "´": 115,
+      "µ": 116,
+      "¶": 117,
+      "·": 118,
+      "¸": 119,
+      "¹": 120,
+      "º": 121,
+      "»": 122,
+      "¼": 123,
+      "½": 124,
+      "¾": 125,
+      "¿": 126,
+      "À": 127,
+      "Á": 128,
+      "Â": 129,
+      "Ã": 130,
+      "Ä": 131,
+      "Å": 132,
+      "Æ": 133,
+      "Ç": 134,
+      "È": 135,
+      "É": 136,
+      "Ê": 137,
+      "Ë": 138,
+      "Ì": 139,
+      "Í": 140,
+      "Î": 141,
+      "Ï": 142,
+      "Ð": 143,
+      "Ñ": 144,
+      "Ò": 145,
+      "Ó": 146,
+      "Ô": 147,
+      "Õ": 148,
+      "Ö": 149,
+      "×": 150,
+      "Ø": 151,
+      "Ù": 152,
+      "Ú": 153,
+      "Û": 154,
+      "Ü": 155,
+      "Ý": 156,
+      "Þ": 157,
+      "ß": 158,
+      "à": 159,
+      "á": 160,
+      "â": 161,
+      "ã": 162,
+      "ä": 163,
+      "å": 164,
+      "æ": 165,
+      "ç": 166,
+      "è": 167,
+      "é": 168,
+      "ê": 169,
+      "ë": 170,
+      "ì": 171,
+      "í": 172,
+      "î": 173,
+      "ï": 174,
+      "ð": 175,
+      "ñ": 176,
+      "ò": 177,
+      "ó": 178,
+      "ô": 179,
+      "õ": 180,
+      "ö": 181,
+      "÷": 182,
+      "ø": 183,
+      "ù": 184,
+      "ú": 185,
+      "û": 186,
+      "ü": 187,
+      "ý": 188,
+      "þ": 189,
+      "ÿ": 190,
+      "Ā": 191,
+      "ā": 192,
+      "Ă": 193,
+      "ă": 194,
+      "Ą": 195,
+      "ą": 196,
+      "Ć": 197,
+      "ć": 198,
+      "Ĉ": 199,
+      "ĉ": 200,
+      "Ċ": 201,
+      "ċ": 202,
+      "Č": 203,
+      "č": 204,
+      "Ď": 205,
+      "ď": 206,
+      "Đ": 207,
+      "đ": 208,
+      "Ē": 209,
+      "ē": 210,
+      "Ĕ": 211,
+      "ĕ": 212,
+      "Ė": 213,
+      "ė": 214,
+      "Ę": 215,
+      "ę": 216,
+      "Ě": 217,
+      "ě": 218,
+      "Ĝ": 219,
+      "ĝ": 220,
+      "Ğ": 221,
+      "ğ": 222,
+      "Ġ": 223,
+      "ġ": 224,
+      "Ģ": 225,
+      "ģ": 226,
+      "Ĥ": 227,
+      "ĥ": 228,
+      "Ħ": 229,
+      "ħ": 230,
+      "Ĩ": 231,
+      "ĩ": 232,
+      "Ī": 233,
+      "ī": 234,
+      "Ĭ": 235,
+      "ĭ": 236,
+      "Į": 237,
+      "į": 238,
+      "İ": 239,
+      "ı": 240,
+      "Ĳ": 241,
+      "ĳ": 242,
+      "Ĵ": 243,
+      "ĵ": 244,
+      "Ķ": 245,
+      "ķ": 246,
+      "ĸ": 247,
+      "Ĺ": 248,
+      "ĺ": 249,
+      "Ļ": 250,
+      "ļ": 251,
+      "Ľ": 252,
+      "ľ": 253,
+      "Ŀ": 254,
+      "ŀ": 255,
+      "Ł": 256,
+      "ł": 257,
+      "Ń": 258
+    },
+    "merges": []
+  }
+}

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,37 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "extra_special_tokens": {},
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<pad>",
+  "tokenizer_class": "PreTrainedTokenizerFast",
+  "unk_token": null,
+  "number_handling": "individual"
+}

vocab.json ADDED Viewed

	@@ -0,0 +1,261 @@

+{
+  "ê": 169,
+  "W": 57,
+  "È": 135,
+  "±": 112,
+  "¨": 104,
+  "Ħ": 229,
+  "z": 92,
+  "®": 109,
+  "đ": 208,
+  "6": 24,
+  "ć": 198,
+  "ą": 196,
+  "Ì": 139,
+  "£": 99,
+  "Ā": 191,
+  "Ó": 146,
+  "V": 56,
+  "3": 21,
+  "¬": 108,
+  "Z": 60,
+  "ò": 177,
+  "Ë": 138,
+  "Ã": 130,
+  "-": 15,
+  "c": 69,
+  "ç": 166,
+  "U": 55,
+  "ü": 187,
+  "4": 22,
+  "9": 27,
+  "ª": 106,
+  "Õ": 148,
+  "¡": 97,
+  "d": 70,
+  "]": 63,
+  "G": 41,
+  "á": 160,
+  "î": 173,
+  "F": 40,
+  "Ĩ": 231,
+  "O": 49,
+  "·": 118,
+  "_": 65,
+  "ě": 218,
+  "É": 136,
+  "ā": 192,
+  "Č": 203,
+  "i": 75,
+  "³": 114,
+  "Ĳ": 241,
+  "q": 83,
+  "ă": 194,
+  "J": 44,
+  "Æ": 133,
+  "[": 61,
+  "ï": 174,
+  "A": 35,
+  "H": 42,
+  "ô": 179,
+  "&": 8,
+  "b": 68,
+  "*": 12,
+  "ģ": 226,
+  "ğ": 222,
+  "ë": 170,
+  "Ø": 151,
+  ">": 32,
+  "Î": 141,
+  "Ú": 153,
+  "u": 87,
+  "ð": 175,
+  "ĸ": 247,
+  "o": 81,
+  "ļ": 251,
+  "ē": 210,
+  "$": 6,
+  "õ": 180,
+  "%": 7,
+  "å": 164,
+  "I": 43,
+  "¦": 102,
+  "|": 94,
+  "Þ": 157,
+  "à": 159,
+  "µ": 116,
+  "<pad>": 2,
+  "Å": 132,
+  "Ð": 143,
+  "5": 23,
+  "Ď": 205,
+  "e": 71,
+  "8": 26,
+  "ī": 234,
+  "ß": 158,
+  "t": 86,
+  "ì": 171,
+  "Ė": 213,
+  "w": 89,
+  "T": 54,
+  "Ŀ": 254,
+  "Ĥ": 227,
+  "Ļ": 250,
+  "v": 88,
+  "ö": 181,
+  "ĩ": 232,
+  "ġ": 224,
+  "į": 238,
+  "Ľ": 252,
+  "Ö": 149,
+  "ı": 240,
+  "ĭ": 236,
+  "L": 46,
+  "2": 20,
+  "ł": 257,
+  "¹": 120,
+  "Ķ": 245,
+  "ä": 163,
+  "R": 52,
+  "ę": 216,
+  "~": 96,
+  "Ł": 256,
+  "»": 122,
+  "g": 73,
+  "#": 5,
+  "č": 204,
+  "Ü": 155,
+  "h": 74,
+  "Ċ": 201,
+  "ñ": 176,
+  "ķ": 246,
+  "ď": 206,
+  "Ġ": 223,
+  "Y": 59,
+  "k": 77,
+  "K": 45,
+  "û": 186,
+  "s": 85,
+  "'": 9,
+  "Í": 140,
+  "Ç": 134,
+  "½": 124,
+  "º": 121,
+  ":": 28,
+  "ó": 178,
+  ")": 11,
+  "M": 47,
+  "!": 3,
+  "Ĝ": 219,
+  "l": 78,
+  "\\": 62,
+  "ĺ": 249,
+  "Û": 154,
+  "Ě": 217,
+  "ù": 184,
+  "{": 93,
+  "¤": 100,
+  "<": 30,
+  "í": 172,
+  "¢": 98,
+  "þ": 189,
+  "r": 84,
+  "æ": 165,
+  "¶": 117,
+  "E": 39,
+  "`": 66,
+  "Ê": 137,
+  "B": 36,
+  "¿": 126,
+  "Ò": 145,
+  "Ï": 142,
+  "ÿ": 190,
+  "°": 111,
+  "S": 53,
+  "\"": 4,
+  "@": 34,
+  "Ă": 193,
+  ";": 29,
+  "Ĕ": 211,
+  "ľ": 253,
+  "è": 167,
+  "0": 18,
+  "P": 50,
+  "Ę": 215,
+  "¸": 119,
+  "Ī": 233,
+  "C": 37,
+  "p": 82,
+  "¯": 110,
+  ",": 14,
+  "Á": 128,
+  "Đ": 207,
+  "j": 76,
+  "À": 127,
+  "ĵ": 244,
+  "é": 168,
+  "ċ": 202,
+  "Ģ": 225,
+  "Ğ": 221,
+  "Ń": 258,
+  "f": 72,
+  "X": 58,
+  "ė": 214,
+  "y": 91,
+  "×": 150,
+  "©": 105,
+  "ĳ": 242,
+  "Ē": 209,
+  "ĝ": 220,
+  "ĕ": 212,
+  "ø": 183,
+  "n": 80,
+  "Ô": 147,
+  "/": 17,
+  "Ĺ": 248,
+  "Ñ": 144,
+  "ħ": 230,
+  "Ä": 131,
+  "?": 33,
+  "«": 107,
+  "İ": 239,
+  "¾": 125,
+  "ú": 185,
+  "ý": 188,
+  "x": 90,
+  "Ą": 195,
+  "+": 13,
+  "§": 103,
+  "a": 67,
+  "}": 95,
+  ".": 16,
+  "<s>": 0,
+  "²": 113,
+  "ŀ": 255,
+  "â": 161,
+  "Â": 129,
+  "Ý": 156,
+  "ã": 162,
+  "Ĵ": 243,
+  "Ù": 152,
+  "(": 10,
+  "m": 79,
+  "¥": 101,
+  "ĥ": 228,
+  "7": 25,
+  "=": 31,
+  "´": 115,
+  "Q": 51,
+  "N": 48,
+  "ĉ": 200,
+  "1": 19,
+  "÷": 182,
+  "¼": 123,
+  "Ĭ": 235,
+  "D": 38,
+  "^": 64,
+  "Ć": 197,
+  "</s>": 1,
+  "Į": 237,
+  "Ĉ": 199
+}