Spaces:
Runtime error
Runtime error
Update app.py
Browse files
app.py
CHANGED
@@ -6,6 +6,8 @@ import pandas as pd
|
|
6 |
import time
|
7 |
from cnocr import CnOcr
|
8 |
import numpy as np
|
|
|
|
|
9 |
|
10 |
ocr = CnOcr() # 初始化ocr模型
|
11 |
history_max_len = 500 # 机器人记忆的最大长度
|
@@ -13,22 +15,12 @@ all_max_len = 2000 # 输入的最大长度
|
|
13 |
|
14 |
|
15 |
def get_text_emb(open_ai_key, text):
|
16 |
-
|
17 |
-
|
18 |
-
|
19 |
-
|
20 |
-
|
21 |
-
data
|
22 |
-
"model": "text-embedding-ada-002",
|
23 |
-
"input": text
|
24 |
-
}
|
25 |
-
result = requests.post(url=url,
|
26 |
-
data=json.dumps(data),
|
27 |
-
headers=headers
|
28 |
-
)
|
29 |
-
if result.status_code != 200:
|
30 |
-
raise Exception('API请求出错,状态码为:' + str(result.status_code) + ',错误信息为:' + result.json())
|
31 |
-
return result.json()['data'][0]['embedding']
|
32 |
|
33 |
|
34 |
def doc_index_self(open_ai_key, doc): # 文档向量化
|
@@ -37,10 +29,10 @@ def doc_index_self(open_ai_key, doc): # 文档向量化
|
|
37 |
for text in texts:
|
38 |
emb_list.append(get_text_emb(open_ai_key, text))
|
39 |
return texts, emb_list, gr.Textbox.update(visible=True), gr.Button.update(visible=True), gr.Markdown.update(
|
40 |
-
value="""操作说明 step 3:PDF解析提交成功! 🙋 可以开始对话啦~"""), gr.Chatbot.update(visible=True)
|
41 |
|
42 |
|
43 |
-
def
|
44 |
now_len = len(msg) # 当前输入的长度
|
45 |
his_bg = -1 # 历史记录的起始位置
|
46 |
for i in range(len(bot) - 1, -1, -1): # 从后往前遍历历史记录
|
@@ -96,29 +88,43 @@ def get_response(open_ai_key, msg, bot, doc_text_list, doc_embeddings): # 获
|
|
96 |
messages.append({"role": "user", "content": his[0]}) # 加入用户的历史记录
|
97 |
messages.append({"role": "assistant", "content": his[1]}) # 加入机器人的历史记录
|
98 |
messages.append({"role": "user", "content": msg}) # 加入用户的当前输入
|
|
|
|
|
|
|
|
|
|
|
|
|
99 |
|
100 |
-
|
101 |
-
|
102 |
-
|
103 |
-
"
|
104 |
-
"
|
105 |
-
|
106 |
-
|
107 |
-
|
108 |
-
|
109 |
-
|
110 |
-
|
111 |
-
|
112 |
-
|
113 |
-
|
114 |
-
|
115 |
-
|
116 |
-
|
117 |
-
res =
|
|
|
118 |
bot.append([msg, res]) # 加入历史记录
|
119 |
return bot[max(0, len(bot) - 3):] # 返回最近3轮的历史记录
|
120 |
|
121 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
122 |
def up_file(files): # 上传文件
|
123 |
doc_text_list = [] # 用于存储文档
|
124 |
for idx, file in enumerate(files): # 遍历文件
|
@@ -155,10 +161,26 @@ def up_file(files): # 上传文件
|
|
155 |
doc_text_list = [str(text).strip() for text in doc_text_list if len(str(text).strip()) > 0] # 去除空格
|
156 |
print(doc_text_list)
|
157 |
return gr.Textbox.update(value='\n'.join(doc_text_list), visible=True), gr.Button.update(
|
|
|
158 |
visible=True), gr.Markdown.update(
|
159 |
value="操作说明 step 2:确认PDF解析结果(可修正),点击“建立索引”,随后进行对话")
|
160 |
|
161 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
162 |
with gr.Blocks() as demo:
|
163 |
with gr.Row():
|
164 |
with gr.Column():
|
@@ -166,21 +188,27 @@ with gr.Blocks() as demo:
|
|
166 |
file = gr.File(file_types=['.pdf'], label='点击上传PDF,进行解析(支持多文档、表格、OCR)',
|
167 |
file_count='multiple') # 支持多文档、表格、OCR
|
168 |
txt = gr.Textbox(label='PDF解析结果', visible=False) # PDF解析结果
|
169 |
-
|
170 |
-
|
|
|
171 |
doc_text_state = gr.State([]) # 存储PDF解析结果
|
172 |
doc_emb_state = gr.State([]) # 存储PDF解析结果的embedding
|
|
|
|
|
173 |
with gr.Column():
|
174 |
md = gr.Markdown("""操作说明 step 1:点击左侧区域,上传PDF,进行解析""") # 操作说明
|
175 |
chat_bot = gr.Chatbot(visible=False) # 聊天机器人
|
176 |
msg_txt = gr.Textbox(label='消息框', placeholder='输入消息,点击发送', visible=False) # 消息框
|
177 |
-
|
178 |
-
chat_bu = gr.Button(value='发送', visible=False) # 发送按钮
|
179 |
|
180 |
-
file.change(up_file, [file], [txt, index_self_bu, md]) # 上传文件
|
181 |
index_self_bu.click(doc_index_self, [open_ai_key, txt],
|
182 |
-
[doc_text_state, doc_emb_state, msg_txt, chat_bu, md, chat_bot]) # 提交解析结果
|
183 |
-
|
|
|
|
|
|
|
|
|
184 |
|
185 |
if __name__ == "__main__":
|
186 |
demo.queue().launch()
|
|
|
6 |
import time
|
7 |
from cnocr import CnOcr
|
8 |
import numpy as np
|
9 |
+
import openai
|
10 |
+
from llama_index import GPTVectorStoreIndex, SimpleDirectoryReader, Prompt
|
11 |
|
12 |
ocr = CnOcr() # 初始化ocr模型
|
13 |
history_max_len = 500 # 机器人记忆的最大长度
|
|
|
15 |
|
16 |
|
17 |
def get_text_emb(open_ai_key, text):
|
18 |
+
openai.api_key = open_ai_key
|
19 |
+
response = openai.Embedding.create(
|
20 |
+
input=text,
|
21 |
+
model="text-embedding-ada-002"
|
22 |
+
)
|
23 |
+
return response['data'][0]['embedding']
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
24 |
|
25 |
|
26 |
def doc_index_self(open_ai_key, doc): # 文档向量化
|
|
|
29 |
for text in texts:
|
30 |
emb_list.append(get_text_emb(open_ai_key, text))
|
31 |
return texts, emb_list, gr.Textbox.update(visible=True), gr.Button.update(visible=True), gr.Markdown.update(
|
32 |
+
value="""操作说明 step 3:PDF解析提交成功! 🙋 可以开始对话啦~"""), gr.Chatbot.update(visible=True), 1
|
33 |
|
34 |
|
35 |
+
def get_response_by_self(open_ai_key, msg, bot, doc_text_list, doc_embeddings): # 获取机器人回复
|
36 |
now_len = len(msg) # 当前输入的长度
|
37 |
his_bg = -1 # 历史记录的起始位置
|
38 |
for i in range(len(bot) - 1, -1, -1): # 从后往前遍历历史记录
|
|
|
88 |
messages.append({"role": "user", "content": his[0]}) # 加入用户的历史记录
|
89 |
messages.append({"role": "assistant", "content": his[1]}) # 加入机器人的历史记录
|
90 |
messages.append({"role": "user", "content": msg}) # 加入用户的当前输入
|
91 |
+
openai.api_key = open_ai_key
|
92 |
+
chat_completion = openai.ChatCompletion.create(model="gpt-3.5-turbo", messages=messages) # 获取机器人的回复
|
93 |
+
res = chat_completion.choices[0].message.content # 获取机器人的回复
|
94 |
+
bot.append([msg, res]) # 加入历史记录
|
95 |
+
return bot[max(0, len(bot) - 3):] # 返回最近3轮的历史记录
|
96 |
+
|
97 |
|
98 |
+
def get_response_by_llama_index(open_ai_key, msg, bot, query_engine): # 获取机器人回复
|
99 |
+
openai.api_key = open_ai_key
|
100 |
+
template = (
|
101 |
+
"你是一个有用的助手,可以使用文章内容准确地回答问题。使用提供的文章来生成你的答案,但避免逐字复制文章。尽可能使用自己的话。准确、有用、简洁、清晰。文章内容如下: \n"
|
102 |
+
"---------------------\n"
|
103 |
+
"{context_str}"
|
104 |
+
"\n---------------------\n"
|
105 |
+
"{query_str}\n"
|
106 |
+
"请基于文章内容回答用户的问题。\n"
|
107 |
+
) # 定义模板
|
108 |
+
query_str = "历史对话如下:\n"
|
109 |
+
for his in bot: # 遍历历史记录
|
110 |
+
query_str += "用户:" + his[0] + "\n" # 加入用户的历史记录
|
111 |
+
query_str += "机器人:" + his[1] + "\n" # 加入机器人的历史记录
|
112 |
+
query_str += "用户:" + msg + "\n" # 加入用户的当前输入
|
113 |
+
qa_template = Prompt(template) # 将模板转换成Prompt对象
|
114 |
+
query_engine = query_engine.as_query_engine(text_qa_template=qa_template) # 建立查询引擎
|
115 |
+
res = query_engine.query(msg) # 获取回答
|
116 |
+
print(res) # 显示回答
|
117 |
bot.append([msg, res]) # 加入历史记录
|
118 |
return bot[max(0, len(bot) - 3):] # 返回最近3轮的历史记录
|
119 |
|
120 |
|
121 |
+
def get_response(open_ai_key, msg, bot, doc_text_list, doc_embeddings, query_engine, index_type): # 获取机器人回复
|
122 |
+
if index_type == 1:
|
123 |
+
return get_response_by_self(open_ai_key, msg, bot, doc_text_list, doc_embeddings)
|
124 |
+
else:
|
125 |
+
return get_response_by_llama_index(open_ai_key, msg, bot, query_engine)
|
126 |
+
|
127 |
+
|
128 |
def up_file(files): # 上传文件
|
129 |
doc_text_list = [] # 用于存储文档
|
130 |
for idx, file in enumerate(files): # 遍历文件
|
|
|
161 |
doc_text_list = [str(text).strip() for text in doc_text_list if len(str(text).strip()) > 0] # 去除空格
|
162 |
print(doc_text_list)
|
163 |
return gr.Textbox.update(value='\n'.join(doc_text_list), visible=True), gr.Button.update(
|
164 |
+
visible=True), gr.Button.update(
|
165 |
visible=True), gr.Markdown.update(
|
166 |
value="操作说明 step 2:确认PDF解析结果(可修正),点击“建立索引”,随后进行对话")
|
167 |
|
168 |
|
169 |
+
def doc_index_llama(open_ai_key, txt): # 建立索引
|
170 |
+
# 根据时间戳新建目录,保存txt文件
|
171 |
+
path = str(time.time())
|
172 |
+
import os
|
173 |
+
os.mkdir(path)
|
174 |
+
with open(path + '/doc.txt', mode='w', encoding='utf-8') as f:
|
175 |
+
f.write(txt)
|
176 |
+
openai.api_key = open_ai_key # 设置OpenAI API Key
|
177 |
+
documents = SimpleDirectoryReader(path).load_data() # 读取文档
|
178 |
+
index = GPTVectorStoreIndex.from_documents(documents) # 建立索引
|
179 |
+
query_engine = index.as_query_engine() # 建立查询引擎
|
180 |
+
return query_engine, gr.Textbox.update(visible=True), gr.Button.update(visible=True), gr.Markdown.update(
|
181 |
+
value="""操作说明 step 3:PDF解析提交成功! 🙋 可以开始对话啦~"""), gr.Chatbot.update(visible=True), 0
|
182 |
+
|
183 |
+
|
184 |
with gr.Blocks() as demo:
|
185 |
with gr.Row():
|
186 |
with gr.Column():
|
|
|
188 |
file = gr.File(file_types=['.pdf'], label='点击上传PDF,进行解析(支持多文档、表格、OCR)',
|
189 |
file_count='multiple') # 支持多文档、表格、OCR
|
190 |
txt = gr.Textbox(label='PDF解析结果', visible=False) # PDF解析结果
|
191 |
+
with gr.Row():
|
192 |
+
index_llama_bu = gr.Button(value='建立索引(by llama_index)', visible=False) # 建立索引(by llama_index)
|
193 |
+
index_self_bu = gr.Button(value='建立索引(by self)', visible=False) # 建立索引(by self)
|
194 |
doc_text_state = gr.State([]) # 存储PDF解析结果
|
195 |
doc_emb_state = gr.State([]) # 存储PDF解析结果的embedding
|
196 |
+
query_engine = gr.State([]) # 存储查询引擎
|
197 |
+
index_type = gr.State([]) # 存储索引类型
|
198 |
with gr.Column():
|
199 |
md = gr.Markdown("""操作说明 step 1:点击左侧区域,上传PDF,进行解析""") # 操作说明
|
200 |
chat_bot = gr.Chatbot(visible=False) # 聊天机器人
|
201 |
msg_txt = gr.Textbox(label='消息框', placeholder='输入消息,点击发送', visible=False) # 消息框
|
202 |
+
chat_bu = gr.Button(value='发送', visible=False) # 发送按钮
|
|
|
203 |
|
204 |
+
file.change(up_file, [file], [txt, index_self_bu, index_llama_bu, md]) # 上传文件
|
205 |
index_self_bu.click(doc_index_self, [open_ai_key, txt],
|
206 |
+
[doc_text_state, doc_emb_state, msg_txt, chat_bu, md, chat_bot, index_type]) # 提交解析结果
|
207 |
+
index_llama_bu.click(doc_index_llama, [open_ai_key, txt],
|
208 |
+
[query_engine, msg_txt, chat_bu, md, chat_bot, index_type]) # 提交解析结果
|
209 |
+
chat_bu.click(get_response,
|
210 |
+
[open_ai_key, msg_txt, chat_bot, doc_text_state, doc_emb_state, query_engine, index_type],
|
211 |
+
[chat_bot]) # 发送消息
|
212 |
|
213 |
if __name__ == "__main__":
|
214 |
demo.queue().launch()
|