Spaces:

taka-yamakoshi
/

tokenizer-demo

Running

taka-yamakoshi commited on Jul 27, 2022

Commit

ef0b5c6

•

1 Parent(s): 145f48c

add default inputs

Files changed (1) hide show

app.py CHANGED Viewed

@@ -94,7 +94,7 @@ if __name__=='__main__':
     st.markdown(hide_table_row_index, unsafe_allow_html=True)
     # Title
-    st.markdown(generate_markdown('Tokenizer Demo:',size=32), unsafe_allow_html=True)
     st.markdown(generate_markdown('quick and easy way to explore how tokenizers work',size=24), unsafe_allow_html=True)
     # Select and load the tokenizer
@@ -135,8 +135,12 @@ if __name__=='__main__':
     else:
         if detokenize:
-            sentence = st.text_input(f'Tokenized IDs')
             num_tokens = DeTokenizeText(sentence)
         else:
-            sentence = st.text_input(f'Text')
             num_tokens = TokenizeText(sentence,tokenizer_name)

     st.markdown(hide_table_row_index, unsafe_allow_html=True)
     # Title
+    st.markdown(generate_markdown('WordPiece Explorer',size=32), unsafe_allow_html=True)
     st.markdown(generate_markdown('quick and easy way to explore how tokenizers work',size=24), unsafe_allow_html=True)
     # Select and load the tokenizer
     else:
         if detokenize:
+            if tokenizer_name.startswith('gpt2'):
+                default_tokens = tokenizer('Tokenizers decompose bigger words into smaller tokens')['input_ids']
+            else:
+                default_tokens = tokenizer('Tokenizers decompose bigger words into smaller tokens')['input_ids'][1:-1]
+            sentence = st.text_input(f'Tokenized IDs',value=' '.join(default_tokens))
             num_tokens = DeTokenizeText(sentence)
         else:
+            sentence = st.text_input(f'Text',value='Tokenizers decompose bigger words into smaller tokens')
             num_tokens = TokenizeText(sentence,tokenizer_name)