Spaces:

thefish1
/

space02

Running

App Files Files Community

thefish1 commited on Jul 29, 2024

Commit

86e0603

1 Parent(s): 692310d

update0729

Browse files

Files changed (1) hide show

app.py +195 -9

app.py CHANGED Viewed

@@ -108,11 +108,12 @@ def get_response_from_db(keywords_dict, class_name):
     else:
         return None, None, None
-def chatbot_response(message, history, max_tokens, temperature, top_p, window_size, threshold, user_weight, triggered_weight, api_key, state):
     initialize_openai_client(api_key)
-    current_turn = len(history) + 1
     triggered_keywords = state.get('triggered_keywords', {})
     combined_user_message = " ".join([h[0] for h in history[-window_size:]] + [message])
     combined_assistant_message = " ".join([h[1] for h in history[-window_size:]])
@@ -133,7 +134,7 @@ def chatbot_response(message, history, max_tokens, temperature, top_p, window_si
     if distance and distance < threshold:
         ad_message = f"{message} <sep>品牌<sep>{ad_summary}"
         messages = [{"role": "system", "content": "你是一个热情的聊天机器人，应微妙地嵌入广告内容。"}]
-        messages.extend([{"role": "user", "content": msg[0]}, {"role": "assistant", "content": msg[1]}] for msg in history)
         messages.append({"role": "user", "content": ad_message})
         for keyword in keywords_dict.keys():
@@ -141,7 +142,7 @@ def chatbot_response(message, history, max_tokens, temperature, top_p, window_si
                 triggered_keywords[keyword] = current_turn
     else:
         messages = [{"role": "system", "content": "你是一个热情的聊天机器人。"}]
-        messages.extend([{"role": "user", "content": msg[0]}, {"role": "assistant", "content": msg[1]}] for msg in history)
         messages.append({"role": "user", "content": message})
     response = openai_client.chat.completions.create(
@@ -152,16 +153,17 @@ def chatbot_response(message, history, max_tokens, temperature, top_p, window_si
         top_p=top_p,
     )
     state['triggered_keywords'] = triggered_keywords
-    print(f"triggered_keywords: {triggered_keywords}")
     return response.choices[0].message.content, state
 # Gradio UI
 demo = gr.Interface(
-    chatbot_response,
     inputs=[
         gr.Textbox(label="Message"),
-        gr.State(),  # History
         gr.Slider(minimum=1, maximum=2048, value=512, step=1, label="Max new tokens"),
         gr.Slider(minimum=0.1, maximum=4.0, value=0.7, step=0.1, label="Temperature"),
         gr.Slider(minimum=0.1, maximum=1.0, value=0.95, step=0.05, label="Top-p (nucleus sampling)"),
@@ -170,7 +172,7 @@ demo = gr.Interface(
         gr.Slider(minimum=1, maximum=5, value=2, step=1, label="Weight of keywords from users"),
         gr.Slider(minimum=0, maximum=2, value=0.5, step=0.5, label="Weight of triggered keywords"),
         gr.Textbox(label="API Key"),
-        gr.State(value={})  # Triggered keywords state
     ],
     outputs=[
         gr.Textbox(label="Response"),
@@ -180,7 +182,191 @@ demo = gr.Interface(
 if __name__ == "__main__":
     demo.launch(share=True)
-    print("cnm")

     else:
         return None, None, None
+def chatbot_response(message, max_tokens, temperature, top_p, window_size, threshold, user_weight, triggered_weight, api_key, state):
     initialize_openai_client(api_key)
+    history = state.get('history', [])
     triggered_keywords = state.get('triggered_keywords', {})
+    current_turn = len(history) + 1
     combined_user_message = " ".join([h[0] for h in history[-window_size:]] + [message])
     combined_assistant_message = " ".join([h[1] for h in history[-window_size:]])
     if distance and distance < threshold:
         ad_message = f"{message} <sep>品牌<sep>{ad_summary}"
         messages = [{"role": "system", "content": "你是一个热情的聊天机器人，应微妙地嵌入广告内容。"}]
+        messages += [{"role": "user", "content": msg[0]}, {"role": "assistant", "content": msg[1]}] for msg in history
         messages.append({"role": "user", "content": ad_message})
         for keyword in keywords_dict.keys():
                 triggered_keywords[keyword] = current_turn
     else:
         messages = [{"role": "system", "content": "你是一个热情的聊天机器人。"}]
+        messages += [{"role": "user", "content": msg[0]}, {"role": "assistant", "content": msg[1]}] for msg in history
         messages.append({"role": "user", "content": message})
     response = openai_client.chat.completions.create(
         top_p=top_p,
     )
+    history.append((message, response.choices[0].message.content))
+    state['history'] = history
     state['triggered_keywords'] = triggered_keywords
     return response.choices[0].message.content, state
 # Gradio UI
 demo = gr.Interface(
+    fn=chatbot_response,
     inputs=[
         gr.Textbox(label="Message"),
         gr.Slider(minimum=1, maximum=2048, value=512, step=1, label="Max new tokens"),
         gr.Slider(minimum=0.1, maximum=4.0, value=0.7, step=0.1, label="Temperature"),
         gr.Slider(minimum=0.1, maximum=1.0, value=0.95, step=0.05, label="Top-p (nucleus sampling)"),
         gr.Slider(minimum=1, maximum=5, value=2, step=1, label="Weight of keywords from users"),
         gr.Slider(minimum=0, maximum=2, value=0.5, step=0.5, label="Weight of triggered keywords"),
         gr.Textbox(label="API Key"),
+        gr.State(value={'history': [], 'triggered_keywords': {}})  # Combined state
     ],
     outputs=[
         gr.Textbox(label="Response"),
 if __name__ == "__main__":
     demo.launch(share=True)
+# import gradio as gr
+# from huggingface_hub import InferenceClient
+# import json
+# import random
+# import re
+# from load_data import load_data
+# from openai import OpenAI
+# from transformers import AutoTokenizer, AutoModel
+# import weaviate
+# import os
+# import torch
+# from tqdm import tqdm
+# import numpy as np
+# import time
+# # 设置缓存目录
+# os.environ['MPLCONFIGDIR'] = '/tmp/matplotlib'
+# os.environ['TRANSFORMERS_CACHE'] = '/tmp/huggingface_cache'
+# os.makedirs(os.environ['MPLCONFIGDIR'], exist_ok=True)
+# os.makedirs(os.environ['TRANSFORMERS_CACHE'], exist_ok=True)
+# # Weaviate 连接配置
+# WEAVIATE_API_KEY = "Y7c8DRmcxZ4nP5IJLwkznIsK84l6EdwfXwcH"
+# WEAVIATE_URL = "https://39nlafviqvard82k6y8btq.c0.asia-southeast1.gcp.weaviate.cloud"
+# weaviate_auth_config = weaviate.AuthApiKey(api_key=WEAVIATE_API_KEY)
+# weaviate_client = weaviate.Client(url=WEAVIATE_URL, auth_client_secret=weaviate_auth_config)
+# # 预训练模型配置
+# MODEL_NAME = "bert-base-chinese"
+# device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
+# tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
+# model = AutoModel.from_pretrained(MODEL_NAME)
+# # OpenAI 客户端
+# openai_client = None
+# def initialize_openai_client(api_key):
+#     global openai_client
+#     openai_client = OpenAI(api_key=api_key)
+# def extract_keywords(text):
+#     prompt = """
+#     你是一个关键词提取机器人。提取用户输入中的关键词，特别是名词和形容词，关键词之间用��格分隔。例如：苹果 电脑 裤子 蓝色 裙。
+#     """
+#     messages = [
+#         {"role": "system", "content": prompt},
+#         {"role": "user", "content": f"从下面的文本中提取五个关键词，以空格分隔：{text}"}
+#     ]
+#     response = openai_client.chat.completions.create(
+#         model="gpt-3.5-turbo",
+#         messages=messages,
+#         max_tokens=100,
+#         temperature=0.7,
+#         top_p=0.9,
+#     )
+#     keywords = response.choices[0].message.content.split(' ')
+#     return ','.join(keywords)
+# def match_keywords(query_keywords, ad_keywords_list, triggered_keywords, current_turn, window_size, threshold):
+#     best_match_distance = 0
+#     best_match_index = -1
+#     for i, ad_keywords in enumerate(ad_keywords_list):
+#         match_count = sum(
+#             any(
+#                 ad_keyword in keyword and
+#                 (keyword not in triggered_keywords or current_turn - triggered_keywords[keyword] > window_size)
+#             ) for keyword in query_keywords
+#         )
+#         if match_count > best_match_distance:
+#             best_match_distance = match_count
+#             best_match_index = i
+#     if best_match_distance >= threshold:
+#         for keyword in query_keywords:
+#             if any(ad_keyword in keyword for ad_keyword in ad_keywords_list[best_match_index]):
+#                 triggered_keywords[keyword] = current_turn
+#     return best_match_distance, best_match_index
+# def encode_keywords_to_avg(keywords, model, tokenizer, device):
+#     embeddings = []
+#     for keyword in tqdm(keywords):
+#         inputs = tokenizer(keyword, return_tensors='pt', padding=True, truncation=True, max_length=512)
+#         inputs.to(device)
+#         with torch.no_grad():
+#             outputs = model(**inputs)
+#         embeddings.append(outputs.last_hidden_state.mean(dim=1))
+#     avg_embedding = sum(embeddings) / len(embeddings)
+#     return avg_embedding
+# def get_response_from_db(keywords_dict, class_name):
+#     avg_vec = encode_keywords_to_avg(keywords_dict.keys(), model, tokenizer, device).numpy()
+#     response = (
+#         weaviate_client.query
+#         .get(class_name, ['keywords', 'summary'])
+#         .with_near_vector({'vector': avg_vec})
+#         .with_limit(1)
+#         .with_additional(['distance'])
+#         .do()
+#     )
+#     if class_name.capitalize() in response['data']['Get']:
+#         result = response['data']['Get'][class_name.capitalize()][0]
+#         return result['_additional']['distance'], result['summary'], result['keywords']
+#     else:
+#         return None, None, None
+# def chatbot_response(message, history, max_tokens, temperature, top_p, window_size, threshold, user_weight, triggered_weight, api_key, state):
+#     initialize_openai_client(api_key)
+#     current_turn = len(history) + 1
+#     triggered_keywords = state.get('triggered_keywords', {})
+#     combined_user_message = " ".join([h[0] for h in history[-window_size:]] + [message])
+#     combined_assistant_message = " ".join([h[1] for h in history[-window_size:]])
+#     user_keywords = extract_keywords(combined_user_message).split(',')
+#     assistant_keywords = extract_keywords(combined_assistant_message).split(',')
+#     keywords_dict = {keyword: user_weight for keyword in user_keywords}
+#     for keyword in assistant_keywords:
+#         keywords_dict[keyword] = keywords_dict.get(keyword, 0) + 1
+#     for keyword in list(keywords_dict.keys()):
+#         if keyword in triggered_keywords and current_turn - triggered_keywords[keyword] < window_size:
+#             keywords_dict[keyword] = triggered_weight
+#     distance, ad_summary, ad_keywords = get_response_from_db(keywords_dict, class_name="ad_DB02")
+#     if distance and distance < threshold:
+#         ad_message = f"{message} <sep>品牌<sep>{ad_summary}"
+#         messages = [{"role": "system", "content": "你是一个热情的聊天机器人，应微妙地嵌入广告内容。"}]
+#         messages.extend([{"role": "user", "content": msg[0]}, {"role": "assistant", "content": msg[1]}] for msg in history)
+#         messages.append({"role": "user", "content": ad_message})
+#         for keyword in keywords_dict.keys():
+#             if any(ad_keyword in keyword for ad_keyword in ad_keywords.split(',')):
+#                 triggered_keywords[keyword] = current_turn
+#     else:
+#         messages = [{"role": "system", "content": "你是一个热情的聊天机器人。"}]
+#         messages.extend([{"role": "user", "content": msg[0]}, {"role": "assistant", "content": msg[1]}] for msg in history)
+#         messages.append({"role": "user", "content": message})
+#     response = openai_client.chat.completions.create(
+#         model="gpt-3.5-turbo",
+#         messages=messages,
+#         max_tokens=max_tokens,
+#         temperature=temperature,
+#         top_p=top_p,
+#     )
+#     state['triggered_keywords'] = triggered_keywords
+#     print(f"triggered_keywords: {triggered_keywords}")
+#     return response.choices[0].message.content, state
+# # Gradio UI
+# demo = gr.Interface(
+#     chatbot_response,
+#     inputs=[
+#         gr.Textbox(label="Message"),
+#         gr.State(),  # History
+#         gr.Slider(minimum=1, maximum=2048, value=512, step=1, label="Max new tokens"),
+#         gr.Slider(minimum=0.1, maximum=4.0, value=0.7, step=0.1, label="Temperature"),
+#         gr.Slider(minimum=0.1, maximum=1.0, value=0.95, step=0.05, label="Top-p (nucleus sampling)"),
+#         gr.Slider(minimum=1, maximum=5, value=2, step=1, label="Window size"),
+#         gr.Slider(minimum=0.01, maximum=0.20, value=0.08, step=0.01, label="Distance threshold"),
+#         gr.Slider(minimum=1, maximum=5, value=2, step=1, label="Weight of keywords from users"),
+#         gr.Slider(minimum=0, maximum=2, value=0.5, step=0.5, label="Weight of triggered keywords"),
+#         gr.Textbox(label="API Key"),
+#         gr.State(value={})  # Triggered keywords state
+#     ],
+#     outputs=[
+#         gr.Textbox(label="Response"),
+#         gr.State()  # Return the updated state
+#     ]
+# )
+# if __name__ == "__main__":
+#     demo.launch(share=True)
+#     print("cnm")