Spaces:

linpershey
/

sheetbot

Runtime error

App Files Files Community

linpershey commited on May 2, 2024

Commit

7cfd43a

1 Parent(s): c1ead4a

fix wrong prompt format

Browse files

Files changed (2) hide show

app.py +2 -1
sheet.py +17 -12

app.py CHANGED Viewed

@@ -17,6 +17,7 @@ load_dotenv()
 logger = logging.getLogger(__name__)
 logger.setLevel(logging.DEBUG)
 def plot_wordcloud( text):
     """
@@ -71,7 +72,7 @@ def do( business_id, business_name, address):
     crawled_results = pd.DataFrame(crawled_results)
     # logger.debug(crawled_results)
-    extracted_results = extract_results( crawled_results)
     # logger.error(extracted_results['extracted_results'].columns)
     extracted_results = extracted_results['extracted_results'][ [ 'business_id', 'business_name', 'address', 'category', 'evidence', 'phone_number', 'description', 'store_name'] ]

 logger = logging.getLogger(__name__)
 logger.setLevel(logging.DEBUG)
+classes = list([ x for x in category2supercategory.keys() if len(x)>0])
 def plot_wordcloud( text):
     """
     crawled_results = pd.DataFrame(crawled_results)
     # logger.debug(crawled_results)
+    extracted_results = extract_results( crawled_results, classes=classes)
     # logger.error(extracted_results['extracted_results'].columns)
     extracted_results = extracted_results['extracted_results'][ [ 'business_id', 'business_name', 'address', 'category', 'evidence', 'phone_number', 'description', 'store_name'] ]

sheet.py CHANGED Viewed

@@ -99,18 +99,22 @@ def compose_analysis( client, query, search_results, classes: list, model: str =
     Return
         response: str
     """
-    chat_completion = client.chat.completions.create(
-        messages=[
-            {
-                "role": "system",
-                "content": f'''
                     As a helpful and rigorous retail analyst, given the provided query and a list of search results for the query,
-                    your task is to first identify relevant information of the identical store based on store name and proxmity of address if known. After that, extract `store_name`, `address`, `description`, `category` and `phone_number` from the found relevant information, where `category` can only be {",".join("`"+x+"`" for x in classes)}.
                     It's very important to omit unrelated results. Do not make up any assumption.
                     Please think step by step, and output in json format. An example output json is like {"store_name": "...", "address": "...", "description": "... products, service or highlights ...", "category": "...", "phone_number": "..."}
                     If no relevant information has been found, simply output json with empty values.
                     I'll tip you and guarantee a place in heaven you do a great job completely according to my instruction.
                 '''
             },
             {
                 "role": "user",
@@ -150,7 +154,7 @@ def test_compose_analysis():
 def compose_classication(
         client,
         evidence,
-        classes: list = ['小吃店', '日式料理(含居酒屋，串燒)', '火(鍋／爐)', '東南亞料理(不含日韓)', '海鮮熱炒',  '特色餐廳(含雞、鵝、牛、羊肉)', '傳統餐廳', '燒烤', '韓式料理(含火鍋，烤肉)', '西餐廳(含美式，義式，墨式)'],
         backup_classes: list = [ '中式', '西式'],
         model: str = 'gpt-3.5-turbo-0125'
     ) -> str:
@@ -382,12 +386,13 @@ def extract_results( data: pd.DataFrame, classes: list ):
         business_id = d[2]
         business_name = d[3]
         address = d[6]
         query = compose_query( address, business_name)
         try:
             ana_res = compose_analysis( client, query = query, search_results = evidence, classes = classes)
             ana_res = json.loads(ana_res)
         except Exception as e:
-            print(f"# ANALYSIS error {e}: i = {i}, evidence = {evidence}")
             empty_indices.append(i)
             continue
@@ -630,8 +635,8 @@ category2supercategory = {
         "西餐廳(含美式，義式，墨式)": "西式",
         "中式": "中式",
         "西式": "西式",
-        "西餐廳（餐酒館、酒吧、飛鏢吧、pub、lounge bar）": "西式",
-        "西餐廳（土耳其、漢堡、薯條、法式、歐式、印度）": "西式",
         "早餐": ""
     }
@@ -647,7 +652,7 @@ supercategory2category = {
             "燒烤",
             "韓式料理(含火鍋，烤肉)"
         ],
-        "西式": ["西餐廳(含美式，義式，墨式)", "西餐廳（餐酒館、酒吧、標吧、pub、lounge bar）", "西餐廳（土耳其、漢堡、法式、歐式、印度）"],
         "": ["早餐"]
     }
@@ -671,7 +676,7 @@ if __name__=='__main__':
     parser.add_argument("--combined_file_path", type=str, default="data/gpt3.5/combined_results.joblib")
     parser.add_argument("--postprocessed_results", type=str, default="data/gpt3.5/postprocessed_results.joblib")
     parser.add_argument("--formatted_results", type=str, default="data/gpt3.5/formatted_results.csv")
-    parser.add_argument("--classes", type=list, default=['小吃店', '日式料理(含居酒屋，串燒)', '火(鍋／爐)', '東南亞料理(不含日韓)', '海鮮熱炒',  '特色餐廳(含雞、鵝、牛、羊肉)', '傳統餐廳', '燒烤', '韓式料理(含火鍋，烤肉)', '西餐廳(含美式，義式，墨式)'])
     parser.add_argument("--backup_classes", type=list, default=['中式', '西式'])
     parser.add_argument("--strategy", type=str, default='replace', choices=['replace', 'patch'])
     parser.add_argument("--n_processes", type=int, default=4)

     Return
         response: str
     """
+    categories = ", ".join([ "`"+x+"`" for x in classes if x!='早餐' ])+ " or " + "`早餐`"
+    # print(f"categoreis: {categories}")
+    system_prompt = '''
                     As a helpful and rigorous retail analyst, given the provided query and a list of search results for the query,
+                    your task is to first identify relevant information of the identical store based on store name and proxmity of address if known. After that, extract `store_name`, `address`, `description`, `category` and `phone_number` from the found relevant information, where `category` can only be `小吃店`, `日式料理(含居酒屋，串燒)`, `火(鍋／爐)`, `東南亞料理(不含日韓)`, `海鮮熱炒`,  `特色餐廳(含雞、鵝、牛、羊肉)`, `傳統餐廳`, `燒烤`, `韓式料理(含火鍋，烤肉)`, `西餐廳(含美式，義式，墨式)`, `西餐廳(餐酒館、酒吧、飛鏢吧、pub、lounge bar)`, `西餐廳(土耳其、漢堡、薯條、法式、歐式、印度)` or `早餐`.
                     It's very important to omit unrelated results. Do not make up any assumption.
                     Please think step by step, and output in json format. An example output json is like {"store_name": "...", "address": "...", "description": "... products, service or highlights ...", "category": "...", "phone_number": "..."}
                     If no relevant information has been found, simply output json with empty values.
                     I'll tip you and guarantee a place in heaven you do a great job completely according to my instruction.
                 '''
+    # print(f"system prompt = {system_prompt}")
+    chat_completion = client.chat.completions.create(
+        messages=[
+            {
+                "role": "system",
+                "content": system_prompt
             },
             {
                 "role": "user",
 def compose_classication(
         client,
         evidence,
+        classes: list = ['小吃店', '日式料理(含居酒屋，串燒)', '火(鍋／爐)', '東南亞料理(不含日韓)', '海鮮熱炒',  '特色餐廳(含雞、鵝、牛、羊肉)', '傳統餐廳', '燒烤', '韓式料理(含火鍋，烤肉)', '西餐廳(含美式，義式，墨式)', ],
         backup_classes: list = [ '中式', '西式'],
         model: str = 'gpt-3.5-turbo-0125'
     ) -> str:
         business_id = d[2]
         business_name = d[3]
         address = d[6]
+        ana_res = None
         query = compose_query( address, business_name)
         try:
             ana_res = compose_analysis( client, query = query, search_results = evidence, classes = classes)
             ana_res = json.loads(ana_res)
         except Exception as e:
+            print(f"# ANALYSIS error {e}: i = {i}, ana_res = {ana_res}")
             empty_indices.append(i)
             continue
         "西餐廳(含美式，義式，墨式)": "西式",
         "中式": "中式",
         "西式": "西式",
+        "西餐廳(餐酒館、酒吧、飛鏢吧、pub、lounge bar)": "西式",
+        "西餐廳(土耳其、漢堡、薯條、法式、歐式、印度)": "西式",
         "早餐": ""
     }
             "燒烤",
             "韓式料理(含火鍋，烤肉)"
         ],
+        "西式": ["西餐廳(含美式，義式，墨式)", "西餐廳(餐酒館、酒吧、飛鏢吧、pub、lounge bar)", "西餐廳(土耳其、漢堡、薯條、法式、歐式、印度)"],
         "": ["早餐"]
     }
     parser.add_argument("--combined_file_path", type=str, default="data/gpt3.5/combined_results.joblib")
     parser.add_argument("--postprocessed_results", type=str, default="data/gpt3.5/postprocessed_results.joblib")
     parser.add_argument("--formatted_results", type=str, default="data/gpt3.5/formatted_results.csv")
+    parser.add_argument("--classes", type=list, default=['小吃店', '日式料理(含居酒屋，串燒)', '火(鍋／爐)', '東南亞料理(不含日韓)', '海鮮熱炒',  '特色餐廳(含雞、鵝、牛、羊肉)', '傳統餐廳', '燒烤', '韓式料理(含火鍋，烤肉)', '西餐廳(含美式，義式，墨式)', '西餐廳(餐酒館、酒吧、飛鏢吧、pub、lounge bar)', '西餐廳(土耳其、漢堡、薯條、法式、歐式、印度)', '早餐'])
     parser.add_argument("--backup_classes", type=list, default=['中式', '西式'])
     parser.add_argument("--strategy", type=str, default='replace', choices=['replace', 'patch'])
     parser.add_argument("--n_processes", type=int, default=4)