Spaces:

jclian91
/

Chinese_Late_Chunking

Sleeping

jclian91 commited on Dec 25, 2024

Commit

072db73

verified ·

1 Parent(s): 6ade0b2

update app.py, add log

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,5 +1,6 @@
 import gradio as gr
 import numpy as np
 from transformers import AutoModel, AutoTokenizer
 # load model and tokenizer
@@ -10,6 +11,7 @@ model = AutoModel.from_pretrained('jinaai/jina-embeddings-v2-base-zh', trust_rem
 def chunk_by_sentences(input_text: str, tokenizer: callable, separator: str):
     inputs = tokenizer(input_text, return_tensors='pt', return_offsets_mapping=True)
     punctuation_mark_id = tokenizer.convert_tokens_to_ids(separator)
     print(f"separator: {separator}, punctuation_mark_id: {punctuation_mark_id}")
     sep_id = tokenizer.eos_token_id
     token_offsets = inputs['offset_mapping'][0]
@@ -57,6 +59,7 @@ def late_chunking(model_output, span_annotation, max_length=None):
 def embedding_retriever(query_input, text_input, separator):
     chunks, span_annotations = chunk_by_sentences(text_input, tokenizer, separator)
     print(f"chunks: ", chunks)
     inputs = tokenizer(text_input, return_tensors='pt', max_length=4096, truncation=True)

 import gradio as gr
 import numpy as np
+from datetime import datetime
 from transformers import AutoModel, AutoTokenizer
 # load model and tokenizer
 def chunk_by_sentences(input_text: str, tokenizer: callable, separator: str):
     inputs = tokenizer(input_text, return_tensors='pt', return_offsets_mapping=True)
     punctuation_mark_id = tokenizer.convert_tokens_to_ids(separator)
+    print("time: ", datetime.now())
     print(f"separator: {separator}, punctuation_mark_id: {punctuation_mark_id}")
     sep_id = tokenizer.eos_token_id
     token_offsets = inputs['offset_mapping'][0]
 def embedding_retriever(query_input, text_input, separator):
+    print(f"query: {query_input}")
     chunks, span_annotations = chunk_by_sentences(text_input, tokenizer, separator)
     print(f"chunks: ", chunks)
     inputs = tokenizer(text_input, return_tensors='pt', max_length=4096, truncation=True)