Spaces:

Annorita
/

tokenizer_comparison

Sleeping

Annorita commited on Jan 23, 2024

Commit

224f5e0

1 Parent(s): ab98424

rearrange

Files changed (2) hide show

app.py CHANGED Viewed

@@ -20,9 +20,12 @@ st.sidebar.subheader('Write the input sentence', divider='grey')
 input_data = st.sidebar.text_input('Input Sentence', 'Hello world!!!')
-res = get_res(model_name=model_name, input_sentence=input_data, single_print=False)
 #st.markdown('<style></style>')
 st.subheader('Tokenized result', divider='grey')
-st.markdown(res, unsafe_allow_html=True)

 input_data = st.sidebar.text_input('Input Sentence', 'Hello world!!!')
+res, token_num = get_res(model_name=model_name, input_sentence=input_data, single_print=False)
 #st.markdown('<style></style>')
 st.subheader('Tokenized result', divider='grey')
+st.markdown(res, unsafe_allow_html=True)
+st.subheader('Number of tokens', divider='grey')
+st.write(token_num)

utils.py CHANGED Viewed

@@ -17,9 +17,9 @@ def get_res(model_name, input_sentence, single_print=True):
     token_num = len(out)
     w = [ f'<span style="background-color:{next(color_iterator)}">{tokenizer.decode(x)}</span>' for x in out ]
-    res = ''.join(w) + f' {str(token_num)}'
     if single_print:
-        print(res)
     else:
-        return res

     token_num = len(out)
     w = [ f'<span style="background-color:{next(color_iterator)}">{tokenizer.decode(x)}</span>' for x in out ]
+    res = ''.join(w)
     if single_print:
+        print(res + str(token_num))
     else:
+        return res, token_num