Spaces:

tregu0458
/

web_crawler_powered_by_pegasus

Sleeping

App Files Files Community

tregu0458 commited on Jun 11, 2024

Commit

8e1d1f4

verified ·

1 Parent(s): b30439e

Update app.py

Browse files

Files changed (1) hide show

app.py +6 -10

app.py CHANGED Viewed

@@ -12,11 +12,8 @@ def pegasus_web_crawler(input_url, output_dir, exclude_selectors, include_domain
     error_message = ""
     pegasus_output = ""
-    input_url = 'https://www.example.com/path/to/page'
     domain_pattern = r'^(?:https?:\/\/)?(?:[^@\n]+@)?(?:www\.)?([^:\/\n]+)'
-        # URLからドメインを抽出
     matched = re.match(domain_pattern, input_url)
     if matched:
         domain = matched.group(1)
@@ -30,10 +27,10 @@ def pegasus_web_crawler(input_url, output_dir, exclude_selectors, include_domain
         replaced_url = "combined_output"
     combined_output_filename = replaced_url + ".txt"
     try:
         combined_output_path = os.path.join(output_dir, combined_output_filename)
-        os.makedirs(os.path.dirname(combined_output_path), exist_ok=True)
         with open(combined_output_path, "w") as file:
             file.write("")
@@ -45,7 +42,7 @@ def pegasus_web_crawler(input_url, output_dir, exclude_selectors, include_domain
         exclude_keywords = exclude_keywords.split(",") if exclude_keywords else []
         pegasus = Pegasus(
-            output_dir=output_dir,
             exclude_selectors=exclude_selectors,
             include_domain=include_domain,
             exclude_keywords=exclude_keywords,
@@ -77,13 +74,12 @@ def pegasus_web_crawler(input_url, output_dir, exclude_selectors, include_domain
         # 標準出力を元に戻す
         sys.stdout = stdout_backup
-        txt_files = [f for f in os.listdir(os.path.join(output_dir, include_domain)) if f.endswith(output_extension)]
         combined_text = ""
         for f in txt_files:
-            with open(os.path.join(output_dir, include_domain, f), "r") as file:
                 combined_text += file.read()
-        # combined_output_path = os.path.join(output_dir, "combined_output.txt")
         with open(combined_output_path, "w") as file:
             file.write(combined_text)

     error_message = ""
     pegasus_output = ""
     domain_pattern = r'^(?:https?:\/\/)?(?:[^@\n]+@)?(?:www\.)?([^:\/\n]+)'
+    # URLからドメインを抽出
     matched = re.match(domain_pattern, input_url)
     if matched:
         domain = matched.group(1)
         replaced_url = "combined_output"
     combined_output_filename = replaced_url + ".txt"
     try:
+        output_subdir = os.path.join(output_dir, include_domain)
+        os.makedirs(output_subdir, exist_ok=True)
         combined_output_path = os.path.join(output_dir, combined_output_filename)
         with open(combined_output_path, "w") as file:
             file.write("")
         exclude_keywords = exclude_keywords.split(",") if exclude_keywords else []
         pegasus = Pegasus(
+            output_dir=output_subdir,
             exclude_selectors=exclude_selectors,
             include_domain=include_domain,
             exclude_keywords=exclude_keywords,
         # 標準出力を元に戻す
         sys.stdout = stdout_backup
+        txt_files = [f for f in os.listdir(output_subdir) if f.endswith(output_extension)]
         combined_text = ""
         for f in txt_files:
+            with open(os.path.join(output_subdir, f), "r") as file:
                 combined_text += file.read()
         with open(combined_output_path, "w") as file:
             file.write(combined_text)