Spaces:

shach1995
/

news_summarizer

Sleeping

App Files Files Community

Kota Takahashi commited on Jun 1, 2024

Commit

a08962e

1 Parent(s): c311dc0

ファーストコミット

Browse files

Files changed (9) hide show

.gitignore +37 -0
app.py +73 -0
cosine_similarity_calculator.py +74 -0
ja/ja.bin +3 -0
ja/ja.bin.syn0.npy +3 -0
ja/ja.bin.syn1neg.npy +3 -0
news_scraper.py +131 -0
summerizer.py +38 -0
tidif_calclator.py +53 -0

.gitignore ADDED Viewed

	@@ -0,0 +1,37 @@

+# Byte-compiled / optimized / DLL files
+__pycache__/
+*.py[cod]
+*$py.class
+# Caches and logs
+*.log
+logs/
+*.cache/
+# Environment variables
+.env
+# Static files (usually collected by Django's collectstatic)
+/static/
+# Media files
+/media/
+# Database
+*.sqlite3
+# IDE specific files
+.idea/
+.vscode/
+# Dependency directories
+venv/
+env/
+# Compiled Python files
+*.pyc
+*.pyo
+*.pyd
+# macOS
+.DS_Store

app.py ADDED Viewed

	@@ -0,0 +1,73 @@

+import streamlit as st
+from news_scraper import YahooNewsScraper
+from tidif_calclator import JapaneseTextVectorizer
+from cosine_similarity_calculator import CosineSimilarityCalculator
+from summerizer import TextSummarizer
+st.title("ニュース検索アプリ")
+# 初期化
+best_article_text = None
+best_article_url = None
+best_max_word = None
+max_word = None
+best_max_value = -1  # cos類似度は0以上なので、初期値を-1に設定
+num_news = 5
+# セッションステートの初期化
+if 'news_fetched' not in st.session_state:
+    st.session_state['news_fetched'] = False
+    st.session_state['article_text_list'] = []
+    st.session_state['article_url_list'] = []
+if st.button('最新ニュース取得'):
+    with st.spinner('ニュースを取得中...'):
+        # yahooニュースをスクレイピング
+        scraper = YahooNewsScraper()
+        article_text_list = []
+        article_url_list = []
+        for i in range(num_news):
+            article_text, detail_url = scraper.scrape_article(i)
+            article_text_list.append(article_text)
+            article_url_list.append(detail_url)
+        st.session_state['news_fetched'] = True  # 処理完了フラグを設定
+        st.session_state['article_text_list'] = article_text_list  # セッションステートに保存
+        st.session_state['article_url_list'] = article_url_list
+    st.write("取得完了しました")
+if st.session_state['news_fetched']:
+    search_word = st.text_input('名詞', placeholder='名詞を入力してください', max_chars=10, help='10文字以内の名詞')
+    if st.button('要約作成'):
+        article_text_list = st.session_state['article_text_list']
+        article_url_list = st.session_state['article_url_list']
+        for temp_article_text, temp_article_url in zip(article_text_list, article_url_list):
+            # TD-IDF値を計算
+            vectorizer = JapaneseTextVectorizer()
+            tfidf_dict = vectorizer.fit_transform(temp_article_text)
+            # cos類似度を計算
+            word_similarity = CosineSimilarityCalculator()
+            article_keyword_list = list(tfidf_dict.keys())
+            result_word_similarity = word_similarity.calculate_similarity(search_word, article_keyword_list)
+            # None でない値のみを抽出
+            filtered_data = {k: v for k, v in result_word_similarity.items() if v is not None}
+            # 最大値を持つキーとその値を取得
+            if filtered_data:  # filtered_dataが空でないことを確認
+                max_word = max(filtered_data, key=filtered_data.get)
+                max_value = filtered_data[max_word]
+                # 最大値がこれまでの最大値より大きければ更新
+                if max_value > best_max_value:
+                    best_max_value = max_value
+                    best_max_word = max_word
+                    best_article_text = temp_article_text
+                    best_article_url = temp_article_url
+        # テキストを要約
+        summarizer = TextSummarizer()
+        summary_text = summarizer.summarize(best_article_text, max_length=30, min_length=20)
+        st.write(f'最も類似度が高いワードは「{best_max_word}」でした')
+        st.write(f'url：{best_article_url}')
+        st.text_area("要約:", summary_text, height=20)

cosine_similarity_calculator.py ADDED Viewed

	@@ -0,0 +1,74 @@

+import gensim
+from sklearn.metrics.pairwise import cosine_similarity
+class CosineSimilarityCalculator:
+    model_path = 'ja/ja.bin'
+    def __init__(self):
+        """
+        CosineSimilarityCalculatorクラスを初期化し、
+        事前トレーニング済みのWord2Vecモデルをロード
+        Parameters:
+        - なし。
+        Returns:
+        - なし。
+        """
+        self.model = gensim.models.Word2Vec.load(CosineSimilarityCalculator.model_path)
+    def _convert_to_2d_array(self, vector):
+        """
+        埋め込みベクトルを2次元配列に変換
+        Parameters:
+        - vector (numpy.ndarray): 変換する1次元配列のベクトル
+        Returns:
+        - vector_2d (numpy.ndarray): 変換後の2次元配列のベクトル
+        """
+        return vector.reshape(1, -1)
+    def _calculate_cosine_similarity(self, embedding1, embedding2):
+        """
+        コサイン類似度を計算
+        Parameters:
+        - embedding1 (numpy.ndarray): 1つ目の埋め込みベクトル（2次元配列）
+        - embedding2 (numpy.ndarray): 2つ目の埋め込みベクトル（2次元配列）
+        Returns:
+        - similarity (numpy.ndarray): コサイン類似度
+        """
+        return cosine_similarity(embedding1, embedding2)
+    def calculate_similarity(self, search_word, article_keyword_list):
+        """
+        指定された検索ワードと記事のキーワードリストの間のコサイン類似度を計算
+        Parameters:
+        - search_word (str): 検索ワード
+        - article_keyword_list (list): 記事のキーワードリスト
+        Returns:
+        - similarities (dict): 記事キーワードとそれぞれの検索ワードのコサイン類似度を含む辞書を作成し、モデルにない単語の場合はNoneを返す
+        """
+        # 検索ワードの埋め込みベクトルを取得
+        if search_word in self.model.wv:
+            search_embedding = self.model.wv[search_word]
+        else:
+            print(f"{search_word} は本モデルの語彙にありません。")
+            return None
+        similarities = {}
+        # 記事キーワードの埋め込みベクトルを取得し、コサイン類似度を計算
+        for keyword in article_keyword_list:
+            if keyword in self.model.wv:
+                keyword_embedding = self.model.wv[keyword]
+                search_embedding_2d = self._convert_to_2d_array(search_embedding)
+                keyword_embedding_2d = self._convert_to_2d_array(keyword_embedding)
+                similarity = self._calculate_cosine_similarity(search_embedding_2d, keyword_embedding_2d)
+                similarities[keyword] = similarity[0][0]
+            else:
+                similarities[keyword] = None
+        return similarities

ja/ja.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0b7f970b78b76dd1785c5e665af83c63e0c0c6129d27fcbbb39025eaf3d48a64
+size 4187227

ja/ja.bin.syn0.npy ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6a336b13ed39aba8ea4846d14b2140b2db5444d2a8c96c91387f077c2786be1d
+size 60129680

ja/ja.bin.syn1neg.npy ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d13900fbeee5e3dd84ac6cc64de3e18c27c61f8c2f2eba7fb3c364213f53799e
+size 60129680

news_scraper.py ADDED Viewed

	@@ -0,0 +1,131 @@

+import requests
+from bs4 import BeautifulSoup
+import re
+from time import sleep
+class Scraper:
+    def __init__(self):
+        """
+        Scraperクラスを初期化し、requestsセッションを作成する。
+        """
+        self.session = requests.Session()
+    def _fetch_content(self, url):
+        """
+        指定されたURLのコンテンツを取得する。
+        Parameters:
+        - url (str): 取得するウェブページのURL。
+        Returns:
+        - content (bytes): 取得したコンテンツのバイトデータ。
+        """
+        response = self.session.get(url)
+        response.raise_for_status()  # HTTPエラーが発生した場合は例外を投げる
+        return response.content
+    def _parse_html(self, html):
+        """
+        HTMLコンテンツをBeautifulSoupでパースする。
+        Parameters:
+        - html (bytes): パースするHTMLコンテンツ。
+        Returns:
+        - soup (BeautifulSoup): パースされたBeautifulSoupオブジェクト。
+        """
+        soup = BeautifulSoup(html, 'html.parser')
+        return soup
+class YahooNewsScraper(Scraper):
+    base_url = "https://news.yahoo.co.jp/"
+    def get_news_urls(self):
+        """
+        Yahooニュースのトップページから最新ニュース記事のURLを取得する
+        Parameters:
+        - なし
+        Returns:
+        - article_url_list (list): ニュース記事のURLリスト（最大5件）
+        """
+        content = self._fetch_content(self.base_url)
+        soup = self._parse_html(content)
+        news_list = soup.select('section.topics a')  # 'topics'セクション内のすべての<a>タグを選択
+        article_url_list = [tag.get('href') for tag in news_list if tag.get('href')]  # href属性を抽出
+        return article_url_list[:5]  # 最初の5つのURLを返す
+    def get_article_url(self, index=0):
+        """
+        指定したインデックスのニュース記事のURLを取得する
+        Parameters:
+        - index (int): 取得したい記事のインデックス (デフォルトは0)
+        Returns:
+        - article_url (str): 指定されたインデックスの記事のURL
+        Raises:
+        - IndexError: インデックスが範囲外の場合に発生
+        """
+        article_urls = self.get_news_urls()
+        if index >= len(article_urls):
+            raise IndexError("URLが取得できませんでした")  # インデックスが範囲外の場合は例外を投げる
+        return article_urls[index]
+    def get_article_detail_url(self, article_url):
+        """
+        記事ページから詳細記事のURLを取得する
+        Parameters:
+        - article_url (str): ニュース記事のURL
+        Returns:
+        - detail_url (str): 記事の詳細ページのURL
+        Raises:
+        - ValueError: 詳細ページのURLが見つからない場合に発生
+        """
+        content = self._fetch_content(article_url)
+        soup = self._parse_html(content)
+        detail_url_tag = soup.select_one('a:-soup-contains("記事全文を読む")')  # "記事全文を読む"を含むリンクを選択
+        if detail_url_tag:
+            return detail_url_tag.get('href')  # タグのhref属性を返す
+        else:
+            raise ValueError("ニュース記事が見つかりませんでした")  # タグが見つからない場合はエラーを出力
+    def get_full_article_text(self, detail_url):
+        """
+        詳細記事の全文を取得し、不要な文字を削除する
+        Parameters:
+        - detail_url (str): 記事の詳細ページのURL
+        Returns:
+        - full_text (str): 記事の全文テキスト
+        """
+        content = self._fetch_content(detail_url)
+        soup = BeautifulSoup(content, 'html.parser')
+        paragraphs = soup.select('article div.article_body p')  # 記事本文内のすべての<p>タグを選択
+        full_text = ''.join([p.text for p in paragraphs])  # すべての段落のテキストを結合
+        return re.sub(r"[\u3000\n\r]", "", full_text)  # 不要な文字を削除
+    def scrape_article(self, index=0):
+        """
+        指定されたインデックスの記事をスクレイプし、全文を取得する
+        Parameters:
+        - index (int): スクレイプする記事のインデックス (デフォルトは0)
+        Returns:
+        - full_text (str): スクレイプされた記事の全文テキスト
+        """
+        article_url = self.get_article_url(index)
+        sleep(1)  # サーバー負荷を避けるために1秒待機
+        detail_url = self.get_article_detail_url(article_url)
+        sleep(1)  # サーバー負荷を避けるためにさらに1秒待機
+        article_text = self.get_full_article_text(detail_url)
+        return article_text, detail_url

summerizer.py ADDED Viewed

	@@ -0,0 +1,38 @@

+from transformers import pipeline, T5Tokenizer, T5ForConditionalGeneration
+class TextSummarizer:
+    model_name = "sonoisa/t5-base-japanese"
+    tokenizer_name = "sonoisa/t5-base-japanese"
+    def __init__(self):
+        """
+        TextSummarizerクラスを初期化し、トークナイザ、モデル、パイプラインを設定
+        Parameters:
+        - なし
+        Returns:
+        - な。
+        """
+        # トークナイザを個別に初期化し、legacy=Falseを指定
+        self.tokenizer = T5Tokenizer.from_pretrained(self.tokenizer_name, legacy=False)
+        # モデルを個別に初期化
+        self.model = T5ForConditionalGeneration.from_pretrained(self.model_name)
+        # パイプラインを初期化
+        self.summarizer = pipeline("summarization", model=self.model, tokenizer=self.tokenizer)
+    def summarize(self, text, max_length=20, min_length=10):
+        """
+        テキストを要約
+        Parameters:
+        - text (str): 要約する対象のテキスト。
+        - max_length (int): 要約の最大長 (デフォルトは20)
+        - min_length (int): 要約の最小長 (デフォルトは10)
+        Returns:
+        - summary_text (str): 要約されたテキスト
+        """
+        summary = self.summarizer(text, max_length=max_length, min_length=min_length, do_sample=False)
+        return summary[0]['summary_text']

tidif_calclator.py ADDED Viewed

	@@ -0,0 +1,53 @@

+import MeCab
+import re
+from sklearn.feature_extraction.text import TfidfVectorizer
+class JapaneseTextVectorizer:
+    def __init__(self):
+        """。
+        MeCabのTaggerとTF-IDFベクトライザーを初期化
+        """
+        self.mecab_tagger = MeCab.Tagger()
+        self.tfidf_model = TfidfVectorizer(token_pattern='(?u)\\b\\w+\\b', norm=None)
+        self.vocab_list = []
+    def _extract_nouns(self, text):
+        """
+        テキストから名詞を抽出
+        Parameters:
+        - text (str): 名詞を抽出する対象のテキスト
+        Returns:
+        - nouns (list): 抽出された名詞リスト
+        """
+        node = self.mecab_tagger.parseToNode(text)
+        nouns = []
+        while node:
+            word = node.surface
+            hinshi = node.feature.split(",")[0]
+            if hinshi == "名詞":
+                if (not word.isnumeric()) and (not re.match(r'^[\u3040-\u309F]+$', word)):
+                    # 名詞が数値と平仮名のみの場合は除き、それ以外の名詞を保存
+                    nouns.append(word)
+            node = node.next
+        return nouns
+    def fit_transform(self, text):
+        """
+        テキストをTF-IDF表現に変換
+        Parameters:
+        - text (str): TF-IDF表現に変換する対象のテキスト
+        Returns:
+        - tfidf_dict (dict): 単語とそのTF-IDF値を格納した辞書
+        """
+        nouns = self._extract_nouns(text)
+        self.tfidf_model.fit(nouns)
+        vocab_text = " ".join(nouns)
+        tfidf_vec = self.tfidf_model.transform([vocab_text]).toarray()[0]
+        tfidf_dict = dict(zip(self.tfidf_model.get_feature_names_out(), tfidf_vec))
+        tfidf_dict = {word: num_val for word, num_val in tfidf_dict.items() if num_val > 0}
+        # TF-IDF値で辞書をソートし、上位5つの要素を取得
+        top_tfidf = dict(sorted(tfidf_dict.items(), key=lambda x: x[1], reverse=True)[:5])
+        return top_tfidf