Spaces:

webshop
/

amazon_shop

Runtime error

App Files Files Community

John Yang commited on Jul 1, 2022

Commit

7a50274

1 Parent(s): 4b9c9b6

Revert to working version

Browse files

Files changed (2) hide show

.gitignore +1 -7
predict_help.py +11 -11

.gitignore CHANGED Viewed

@@ -1,7 +1 @@
-*.csv
-*.pyc
-*.txt
-.DS_Store
-run.py


1	+ *.pyc

predict_help.py CHANGED Viewed

@@ -17,6 +17,7 @@ class Page(Enum):
 HEADER_ = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.64 Safari/537.36'
 DEBUG_HTML = "temp.html"
 NUM_PROD_LIMIT = 10
 API = '85956985fae328bfe5a759a2984448d2'
@@ -26,11 +27,11 @@ def get_url(url):
     return proxy_url
 # Query -> Search Result ASINs
-def parse_results(query, page_num=None, verbose=True):
     url = 'https://www.amazon.com/s?k=' + query.replace(" ", "+")
     if page_num is not None:
         url += "&page=" + str(page_num)
-    if verbose:
         print("Search Results URL:", url)
     webpage = requests.get(url, headers={'User-Agent': HEADER_, 'Accept-Language': 'en-US, en;q=0.5'})
     soup = BeautifulSoup(webpage.content, 'html.parser')
@@ -51,26 +52,25 @@ def parse_results(query, page_num=None, verbose=True):
         result = {
             'asin': asin,
             'Title': title.text.strip(),
-            'Price': price.text.strip().strip("$") if isinstance(price, str) else price
         }
         results.append(result)
-    if verbose:
         print("Scraped", len(results), "products")
     return results
 # Scrape information of each product
-def parse_item_page(asin, verbose=True):
     product_dict = {}
     product_dict["asin"] = asin
     url = f"https://www.amazon.com/dp/{asin}"
-    if verbose:
         print("Item Page URL:", url)
     begin = time.time()
     webpage = requests.get(url, headers={'User-Agent': HEADER_, 'Accept-Language': 'en-US, en;q=0.5'})
     end = time.time()
-    if verbose:
-        print("Item page scraping took", end-begin, "seconds")
     soup = BeautifulSoup(webpage.content, "html.parser")
     # Title
@@ -195,9 +195,9 @@ def convert_dict_to_actions(page_type, products=None, asin=None, page_num=None,
     if page_type == Page.RESULTS:
         info["valid"] = ['click[back to search]']
         if products is None or page_num is None or num_prods is None:
-            print("Page Num:", page_num)
-            print("# of Products:", num_prods)
-            print("Products: ", products)
             raise Exception('Provide `products`, `num_prods`, `page_num` to get `results` valid actions')
         # Decide whether to add `next >` as clickable based on # of search results
         if num_prods > 10:

 HEADER_ = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.64 Safari/537.36'
 DEBUG_HTML = "temp.html"
+VERBOSE = True
 NUM_PROD_LIMIT = 10
 API = '85956985fae328bfe5a759a2984448d2'
     return proxy_url
 # Query -> Search Result ASINs
+def parse_results(query, page_num=None):
     url = 'https://www.amazon.com/s?k=' + query.replace(" ", "+")
     if page_num is not None:
         url += "&page=" + str(page_num)
+    if VERBOSE:
         print("Search Results URL:", url)
     webpage = requests.get(url, headers={'User-Agent': HEADER_, 'Accept-Language': 'en-US, en;q=0.5'})
     soup = BeautifulSoup(webpage.content, 'html.parser')
         result = {
             'asin': asin,
             'Title': title.text.strip(),
+            'Price': price.text.strip().strip("$")
         }
         results.append(result)
+    if VERBOSE:
         print("Scraped", len(results), "products")
     return results
 # Scrape information of each product
+def parse_item_page(asin):
     product_dict = {}
     product_dict["asin"] = asin
     url = f"https://www.amazon.com/dp/{asin}"
+    if VERBOSE:
         print("Item Page URL:", url)
     begin = time.time()
     webpage = requests.get(url, headers={'User-Agent': HEADER_, 'Accept-Language': 'en-US, en;q=0.5'})
     end = time.time()
+    print("Item page scraping took", end-begin, "seconds")
     soup = BeautifulSoup(webpage.content, "html.parser")
     # Title
     if page_type == Page.RESULTS:
         info["valid"] = ['click[back to search]']
         if products is None or page_num is None or num_prods is None:
+            print(page_num)
+            print(num_prods)
+            print(products)
             raise Exception('Provide `products`, `num_prods`, `page_num` to get `results` valid actions')
         # Decide whether to add `next >` as clickable based on # of search results
         if num_prods > 10: