Hanzoe commited on
Commit
a578544
·
1 Parent(s): 8a83f83

Add files via upload

Browse files
crazy_functions/理解PDF文档内容.py ADDED
@@ -0,0 +1,137 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ from request_llm.bridge_chatgpt import predict_no_ui
2
+ from toolbox import CatchException, report_execption, write_results_to_file, predict_no_ui_but_counting_down
3
+ import re
4
+ import unicodedata
5
+ fast_debug = False
6
+
7
+ def is_paragraph_break(match):
8
+ """
9
+ 根据给定的匹配结果来判断换行符是否表示段落分隔。
10
+ 如果换行符前为句子结束标志(句号,感叹号,问号),且下一个字符为大写字母,则换行符更有可能表示段落分隔。
11
+ 也可以根据之前的内容长度来判断段落是否已经足够长。
12
+ """
13
+ prev_char, next_char = match.groups()
14
+
15
+ # 句子结束标志
16
+ sentence_endings = ".!?"
17
+
18
+ # 设定一个最小段落长度阈值
19
+ min_paragraph_length = 140
20
+
21
+ if prev_char in sentence_endings and next_char.isupper() and len(match.string[:match.start(1)]) > min_paragraph_length:
22
+ return "\n\n"
23
+ else:
24
+ return " "
25
+
26
+ def normalize_text(text):
27
+ """
28
+ 通过把连字(ligatures)等文本特殊符号转换为其基本形式来对文本进行归一化处理。
29
+ 例如,将连字 "fi" 转换为 "f" 和 "i"。
30
+ """
31
+ # 对文本进行归一化处理,分解连字
32
+ normalized_text = unicodedata.normalize("NFKD", text)
33
+
34
+ # 替换其他特殊字符
35
+ cleaned_text = re.sub(r'[^\x00-\x7F]+', '', normalized_text)
36
+
37
+ return cleaned_text
38
+
39
+ def clean_text(raw_text):
40
+ """
41
+ 对从 PDF 提取出的原始文本进行清洗和格式化处理。
42
+ 1. 对原始文本进行归一化处理。
43
+ 2. 替换跨行的连词,例如 “Espe-\ncially” 转换为 “Especially”。
44
+ 3. 根据 heuristic 规则判断换行符是否是段落分隔,并相应地进行替换。
45
+ """
46
+ # 对文本进行归一化处理
47
+ normalized_text = normalize_text(raw_text)
48
+
49
+ # 替换跨行的连词
50
+ text = re.sub(r'(\w+-\n\w+)', lambda m: m.group(1).replace('-\n', ''), normalized_text)
51
+
52
+ # 根据前后相邻字符的特点,找到原文本中的换行符
53
+ newlines = re.compile(r'(\S)\n(\S)')
54
+
55
+ # 根据 heuristic 规则,用空格或段落分隔符替换原换行符
56
+ final_text = re.sub(newlines, lambda m: m.group(1) + is_paragraph_break(m) + m.group(2), text)
57
+
58
+ return final_text.strip()
59
+
60
+ def 解析PDF(file_name, top_p, temperature, chatbot, history, systemPromptTxt):
61
+ import time, glob, os, fitz
62
+ print('begin analysis on:', file_name)
63
+
64
+ with fitz.open(file_name) as doc:
65
+ file_content = ""
66
+ for page in doc:
67
+ file_content += page.get_text()
68
+ file_content = clean_text(file_content)
69
+ # print(file_content)
70
+ split_number = 10000
71
+ split_group = (len(file_content)//split_number)+1
72
+ for i in range(0,split_group):
73
+ if i==0:
74
+ prefix = "接下来请你仔细分析下面的论文,学习里面的内容(专业术语、公式、数学概念).并且注意:由于论文内容较多,将分批次发送,每次发送完之后,你只需要回答“接受完成”"
75
+ i_say = prefix + f'文件名是{file_name},文章内容第{i+1}部分是 ```{file_content[i*split_number:(i+1)*split_number]}```'
76
+ i_say_show_user = f'文件名是:\n{file_name},\n由于论文内容过长,将分批请求(共{len(file_content)}字符,将分为{split_group}批,每批{split_number}字符)。\n当前发送{i+1}/{split_group}部分'
77
+ elif i==split_group-1:
78
+ i_say = f'你只需要回答“所有论文接受完成,请进行下一步”。文章内容第{i+1}/{split_group}部分是 ```{file_content[i*split_number:]}```'
79
+ i_say_show_user = f'当前发送{i+1}/{split_group}部分'
80
+ else:
81
+ i_say = f'你只需要回答“接受完成”。文章内容第{i+1}/{split_group}部分是 ```{file_content[i*split_number:(i+1)*split_number]}```'
82
+ i_say_show_user = f'当前发送{i+1}/{split_group}部分'
83
+ chatbot.append((i_say_show_user, "[Local Message] waiting gpt response."))
84
+ gpt_say = yield from predict_no_ui_but_counting_down(i_say, i_say_show_user, chatbot, top_p, temperature, history=[]) # 带超时倒计时
85
+ while "完成" not in gpt_say:
86
+ i_say = f'你只需要回答“接受完成”。文章内容第{i+1}/{split_group}部分是 ```{file_content[i*split_number:(i+1)*split_number]}```'
87
+ i_say_show_user = f'出现error,重新发送{i+1}/{split_group}部分'
88
+ gpt_say = yield from predict_no_ui_but_counting_down(i_say, i_say_show_user, chatbot, top_p, temperature, history=[]) # 带超时倒计时
89
+ time.sleep(1)
90
+ chatbot[-1] = (i_say_show_user, gpt_say)
91
+ history.append(i_say_show_user); history.append(gpt_say)
92
+ yield chatbot, history, '正常'
93
+ time.sleep(2)
94
+
95
+ i_say = f'接下来,请你扮演一名专业的学术教授,利用你的所有知识并且结合这篇文章,回答我的问题。(请牢记:1.直到我说“退出”,你才能结束任务;2.所有问���需要紧密围绕文章内容;3.如果有公式,请使用tex渲染)'
96
+ chatbot.append((i_say, "[Local Message] waiting gpt response."))
97
+ yield chatbot, history, '正常'
98
+
99
+ # ** gpt request **
100
+ gpt_say = yield from predict_no_ui_but_counting_down(i_say, i_say, chatbot, top_p, temperature, history=history) # 带超时倒计时
101
+ chatbot[-1] = (i_say, gpt_say)
102
+ history.append(i_say); history.append(gpt_say)
103
+ yield chatbot, history, '正常'
104
+
105
+
106
+ @CatchException
107
+ def 理解PDF文档内容(txt, top_p, temperature, chatbot, history, systemPromptTxt, WEB_PORT):
108
+ import glob, os
109
+
110
+ # 基本信息:功能、贡献者
111
+ chatbot.append([
112
+ "函数插件功能?",
113
+ "理解PDF论文内容,并且将结合上下文内容,进行学术解答。函数插件贡献者: Hanzoe。"])
114
+ yield chatbot, history, '正常'
115
+
116
+ import tkinter as tk
117
+ from tkinter import filedialog
118
+
119
+ root = tk.Tk()
120
+ root.withdraw()
121
+ txt = filedialog.askopenfilename()
122
+
123
+ # 尝试导入依赖,如果缺少依赖,则给出安装建议
124
+ try:
125
+ import fitz
126
+ except:
127
+ report_execption(chatbot, history,
128
+ a = f"解析项目: {txt}",
129
+ b = f"导入软件依赖失败。使用该模块需要额外依赖,安装方法```pip install --upgrade pymupdf```。")
130
+ yield chatbot, history, '正常'
131
+ return
132
+
133
+ # 清空历史,以免输入溢出
134
+ history = []
135
+
136
+ # 开始正式执行任务
137
+ yield from 解析PDF(txt, top_p, temperature, chatbot, history, systemPromptTxt)