news_summarizer / news_scraper.py
Kota Takahashi
ファーストコミット
a08962e
raw
history blame
4.89 kB
import requests
from bs4 import BeautifulSoup
import re
from time import sleep
class Scraper:
def __init__(self):
"""
Scraperクラスを初期化し、requestsセッションを作成する。
"""
self.session = requests.Session()
def _fetch_content(self, url):
"""
指定されたURLのコンテンツを取得する。
Parameters:
- url (str): 取得するウェブページのURL。
Returns:
- content (bytes): 取得したコンテンツのバイトデータ。
"""
response = self.session.get(url)
response.raise_for_status() # HTTPエラーが発生した場合は例外を投げる
return response.content
def _parse_html(self, html):
"""
HTMLコンテンツをBeautifulSoupでパースする。
Parameters:
- html (bytes): パースするHTMLコンテンツ。
Returns:
- soup (BeautifulSoup): パースされたBeautifulSoupオブジェクト。
"""
soup = BeautifulSoup(html, 'html.parser')
return soup
class YahooNewsScraper(Scraper):
base_url = "https://news.yahoo.co.jp/"
def get_news_urls(self):
"""
Yahooニュースのトップページから最新ニュース記事のURLを取得する
Parameters:
- なし
Returns:
- article_url_list (list): ニュース記事のURLリスト(最大5件)
"""
content = self._fetch_content(self.base_url)
soup = self._parse_html(content)
news_list = soup.select('section.topics a') # 'topics'セクション内のすべての<a>タグを選択
article_url_list = [tag.get('href') for tag in news_list if tag.get('href')] # href属性を抽出
return article_url_list[:5] # 最初の5つのURLを返す
def get_article_url(self, index=0):
"""
指定したインデックスのニュース記事のURLを取得する
Parameters:
- index (int): 取得したい記事のインデックス (デフォルトは0)
Returns:
- article_url (str): 指定されたインデックスの記事のURL
Raises:
- IndexError: インデックスが範囲外の場合に発生
"""
article_urls = self.get_news_urls()
if index >= len(article_urls):
raise IndexError("URLが取得できませんでした") # インデックスが範囲外の場合は例外を投げる
return article_urls[index]
def get_article_detail_url(self, article_url):
"""
記事ページから詳細記事のURLを取得する
Parameters:
- article_url (str): ニュース記事のURL
Returns:
- detail_url (str): 記事の詳細ページのURL
Raises:
- ValueError: 詳細ページのURLが見つからない場合に発生
"""
content = self._fetch_content(article_url)
soup = self._parse_html(content)
detail_url_tag = soup.select_one('a:-soup-contains("記事全文を読む")') # "記事全文を読む"を含むリンクを選択
if detail_url_tag:
return detail_url_tag.get('href') # タグのhref属性を返す
else:
raise ValueError("ニュース記事が見つかりませんでした") # タグが見つからない場合はエラーを出力
def get_full_article_text(self, detail_url):
"""
詳細記事の全文を取得し、不要な文字を削除する
Parameters:
- detail_url (str): 記事の詳細ページのURL
Returns:
- full_text (str): 記事の全文テキスト
"""
content = self._fetch_content(detail_url)
soup = BeautifulSoup(content, 'html.parser')
paragraphs = soup.select('article div.article_body p') # 記事本文内のすべての<p>タグを選択
full_text = ''.join([p.text for p in paragraphs]) # すべての段落のテキストを結合
return re.sub(r"[\u3000\n\r]", "", full_text) # 不要な文字を削除
def scrape_article(self, index=0):
"""
指定されたインデックスの記事をスクレイプし、全文を取得する
Parameters:
- index (int): スクレイプする記事のインデックス (デフォルトは0)
Returns:
- full_text (str): スクレイプされた記事の全文テキスト
"""
article_url = self.get_article_url(index)
sleep(1) # サーバー負荷を避けるために1秒待機
detail_url = self.get_article_detail_url(article_url)
sleep(1) # サーバー負荷を避けるためにさらに1秒待機
article_text = self.get_full_article_text(detail_url)
return article_text, detail_url