Spaces:

eson
/

tokenizer-arena

Running

eson commited on May 21

Commit

f652c69

•

1 Parent(s): 97354e0

remove lru_cache: has some bugs

Files changed (3) hide show

character_app.py CHANGED Viewed

@@ -18,7 +18,6 @@ abbr2name = {column[1]: column[0].split('-')[-1] for column in all_columns}
 def get_column_info(columns):
-    print(columns)
     markdown = ""
     for column in columns:
         markdown += f"- `num({column})`: num of tokens containing {abbr2name[column]} characters\n" \

 def get_column_info(columns):
     markdown = ""
     for column in columns:
         markdown += f"- `num({column})`: num of tokens containing {abbr2name[column]} characters\n" \

playground_examples.py CHANGED Viewed

@@ -37,7 +37,7 @@ examples = {
 more_examples = [
     # bert系列
-    ("bert-base-cased", "bert-base-uncased", "", ""),  # # clue VS kplug， bert VS clue
     ("bert-base-cased", "clue", "", "增加了[]()"),
     ("roberta-chinese-clue", "kplug", "", ""),

 more_examples = [
     # bert系列
+    ("google-bert/bert-base-cased", "google-bert/bert-base-uncased", "", ""),  # # clue VS kplug， bert VS clue
     ("bert-base-cased", "clue", "", "增加了[]()"),
     ("roberta-chinese-clue", "kplug", "", ""),

playground_util.py CHANGED Viewed

@@ -15,7 +15,7 @@ Buenos días!
 default_tokenizer_name_1 = "gradientai/Llama-3-8B-Instruct-Gradient-1048k"
 default_tokenizer_name_2 = "openai/gpt-4"
-@lru_cache
 def tokenize(
         text: str,
         tokenizer_name: str,

 default_tokenizer_name_1 = "gradientai/Llama-3-8B-Instruct-Gradient-1048k"
 default_tokenizer_name_2 = "openai/gpt-4"
+# @lru_cache
 def tokenize(
         text: str,
         tokenizer_name: str,