Spaces:

littlezebra
/

hellow-langChain

Sleeping

guangliang.yin commited on Feb 27, 2024

Commit

b0c2444

1 Parent(s): 11b895a

文章id优化

Files changed (1) hide show

app.py CHANGED Viewed

@@ -20,10 +20,24 @@ from langchain.chains.llm import LLMChain
 from langchain.chains.combine_documents import create_stuff_documents_chain
 from langchain.chains import StuffDocumentsChain
 from langchain_core.prompts import PromptTemplate
 chain: Optional[Callable] = None
 def web_loader(file, openai_key, puzhiai_key, zilliz_uri, user, password):
     if not file:
         return "please upload file"
@@ -38,11 +52,17 @@ def web_loader(file, openai_key, puzhiai_key, zilliz_uri, user, password):
         return "embeddings not"
     texts = [d.page_content for d in docs]
     docsearch = Zilliz.from_documents(
         docs,
         embedding=embeddings,
-        ids=[str(uuid.uuid4()) for _ in range(len(texts))],
         connection_args={
             "uri": zilliz_uri,
             "user": user,

 from langchain.chains.combine_documents import create_stuff_documents_chain
 from langchain.chains import StuffDocumentsChain
 from langchain_core.prompts import PromptTemplate
+import hashlib
 chain: Optional[Callable] = None
+def generate_article_id(content):
+    # 使用SHA-256哈希算法
+    sha256 = hashlib.sha256()
+    # 将文章内容编码为字节流并更新哈希对象
+    sha256.update(content.encode('utf-8'))
+    # 获取哈希值的十六进制表示
+    article_id = sha256.hexdigest()
+    return article_id
 def web_loader(file, openai_key, puzhiai_key, zilliz_uri, user, password):
     if not file:
         return "please upload file"
         return "embeddings not"
     texts = [d.page_content for d in docs]
+    article_ids = []
+    # 遍历texts列表
+    for text in texts:
+        # 使用generate_article_id函数生成文章ID，并将其添加到article_ids列表中
+        article_id = generate_article_id(text)
+        article_ids.append(article_id)
     docsearch = Zilliz.from_documents(
         docs,
         embedding=embeddings,
+        ids=article_ids,
         connection_args={
             "uri": zilliz_uri,
             "user": user,