Spaces:

taka-yamakoshi
/

tokenizer-demo

Running

taka-yamakoshi commited on Jul 1, 2022

Commit

228552f

•

1 Parent(s): 9d4d0bb

fix bugs

Files changed (1) hide show

app.py CHANGED Viewed

@@ -48,20 +48,25 @@ if __name__=='__main__':
     tokenizer = load_model('albert-xxlarge-v2')
     sent_cols = st.columns(2)
     num_tokens = {}
     for sent_id, sent_col in enumerate(sent_cols):
         with sent_col:
             sentence = st.text_input(f'Sentence {sent_id+1}')
-            input_sent = tokenizer(sentence)['input_ids']
-            decoded_sent = [tokenizer.decode([token]) for token in input_sent[1:-1]]
-            num_tokens[f'sent_{sent_id}'] = len(decoded_sent)
-            char_nums = [len(word)+2 for word in decoded_sent]
-            word_cols = st.columns(char_nums)
-            for word_col,word in zip(word_cols,decoded_sent):
-                with word_col:
-                    st.write(word)
-            st.write(f'{len(decoded_sent)} tokens')
-    if num_tokens[f'sent_1']==num_tokens[f'sent_2']:
-        st.subheader('Matched!')
-    else:
-        st.subheader('Not Matched...')

     tokenizer = load_model('albert-xxlarge-v2')
     sent_cols = st.columns(2)
     num_tokens = {}
+    sents = {}
     for sent_id, sent_col in enumerate(sent_cols):
         with sent_col:
             sentence = st.text_input(f'Sentence {sent_id+1}')
+            sents[f'sent_{sent_id}'] = sentence
+            if len(sentence)>0:
+                input_sent = tokenizer(sentence)['input_ids']
+                decoded_sent = [tokenizer.decode([token]) for token in input_sent[1:-1]]
+                num_tokens[f'sent_{sent_id}'] = len(decoded_sent)
+                char_nums = [len(word)+2 for word in decoded_sent]
+                word_cols = st.columns(char_nums)
+                for word_col,word in zip(word_cols,decoded_sent):
+                    with word_col:
+                        st.write(word)
+                st.write(f'{len(decoded_sent)} tokens')
+    if len(sents['sent_1'])>0 and len(sents['sent_2'])>0:
+        if num_tokens[f'sent_1']==num_tokens[f'sent_2']:
+            st.subheader('Matched!')
+        else:
+            st.subheader('Not Matched...')