Spaces:

mya-mya
/

HimitsudoguSearch

Build error

Mya-Mya commited on Aug 13, 2022

Commit

9f1a6f8

•

1 Parent(s): e9b49df

Squashed commit of the following:

commit d2752e15374f35abd5db689869e92d1f63f79616
Author: Mya-Mya <39019907+Mya-Mya@users.noreply.github.com>
Date: Sat Aug 13 23:46:15 2022 +0900

Create apps

commit 0093e017053f317dc126f7e743c199d02c4f6771
Author: Mya-Mya <39019907+Mya-Mya@users.noreply.github.com>
Date: Sat Aug 13 23:45:58 2022 +0900

Update frontend.py

commit 53c9b7fadb24ee0b482327507dc03fa41f1360b5
Author: Mya-Mya <39019907+Mya-Mya@users.noreply.github.com>
Date: Sat Aug 13 23:45:56 2022 +0900

Delete backend.py

commit f0f53b78d0caaeed81a8f97c754c74e352fde63e
Author: Mya-Mya <39019907+Mya-Mya@users.noreply.github.com>
Date: Sat Aug 13 23:45:46 2022 +0900

Create ambiguous_search_backends.py

commit ab080f60db316d536cb913da1fbf0fb4253e4b35
Author: Mya-Mya <39019907+Mya-Mya@users.noreply.github.com>
Date: Sat Aug 13 23:45:43 2022 +0900

Create classic_search_backends.py

commit c414d550d4199032c3102b8821336cafe6b9722e
Author: Mya-Mya <39019907+Mya-Mya@users.noreply.github.com>
Date: Sat Aug 13 23:45:34 2022 +0900

Update himitsudogu_db.pkl

commit e4de043bfad19382a10f84e3e240c06245471dc0
Author: Mya-Mya <39019907+Mya-Mya@users.noreply.github.com>
Date: Sat Aug 13 23:45:28 2022 +0900

Create 1.pkl

commit 4db15a6d5e4ba8cc533c904f9c39378493b979be
Author: Mya-Mya <39019907+Mya-Mya@users.noreply.github.com>
Date: Sat Aug 13 23:45:23 2022 +0900

Delete localtest.py

Files changed (9) hide show

ambiguous_search_backends.py +60 -0
app.py +6 -46
backend.py +0 -6
classic_search_backends.py +32 -0
frontend.py +88 -14
himitsudogu_db.pkl +2 -2
localtest.py +0 -35
nobert_app.py +8 -0
old_himitsudogu_db/1.pkl +3 -0

ambiguous_search_backends.py ADDED Viewed

	@@ -0,0 +1,60 @@

+from abc import ABC, abstractmethod
+from pandas import DataFrame
+from transformers import BertJapaneseTokenizer, BertModel
+import pickle
+import numpy as np
+class AmbiguousSearchBackend(ABC):
+    @abstractmethod
+    def submit(self, query: str) -> DataFrame:
+        pass
+class DummyAmbiguousSearchBackend(AmbiguousSearchBackend):
+    def submit(self, query: str) -> DataFrame:
+        return DataFrame(
+            {
+                "類似度": [1, 0.9, 0.8, 0.7],
+                "名前": ["A", "B", "C", "D"],
+                "説明": ["a", "b", "c", "d"],
+            }
+        )
+class SBAmbiguousSearchBackend(AmbiguousSearchBackend):
+    def __init__(self):
+        super().__init__()
+        with open("./himitsudogu_db.pkl", "rb") as file:
+            self.himitsudogu_db: dict = pickle.load(file)
+        self.feature_matrix = self.himitsudogu_db["feature_matrix_s"][
+            "sonoisa/sentence-bert-base-ja-mean-tokens-v2"
+        ]
+        # モデルsonoisa/sentence-bert-base-ja-mean-tokens-v2を使用する
+        self.tokenizer = BertJapaneseTokenizer.from_pretrained(
+            "sonoisa/sentence-bert-base-ja-mean-tokens-v2"
+        )
+        self.model = BertModel.from_pretrained(
+            "sonoisa/sentence-bert-base-ja-mean-tokens-v2"
+        )
+    def submit(self, query: str) -> DataFrame:
+        # 文章を形態素解析し、形態素ID列へ変換
+        tokenized = self.tokenizer(query, return_tensors="pt")
+        # 言語モデルへ形態素ID列を代入
+        output = self.model(**tokenized)
+        # 文章の特徴ベクトルを取得
+        pooler_output = output["pooler_output"]
+        query_feature_vector = pooler_output[0].detach().numpy()
+        query_feature_unit_vector = query_feature_vector/np.linalg.norm(query_feature_vector)
+        # 各ひみつ道具の説明文の特徴ベクトルとの内積を取る
+        cs_s = self.feature_matrix @ query_feature_unit_vector
+        # 内積が大きかったもの順にひみつ道具を表示するようにする
+        ranked_index_s = np.argsort(cs_s)[::-1]
+        output = DataFrame(columns=["類似度", "名前", "説明"])
+        for rank, i in enumerate(ranked_index_s[:20], 1):
+            output.loc[rank] = [
+                cs_s[i],
+                self.himitsudogu_db["name_s"][i],
+                self.himitsudogu_db["description_s"][i],
+            ]
+        return output

app.py CHANGED Viewed

@@ -1,48 +1,8 @@
-from backend import Backend
 import frontend
-import numpy as np
-from pandas import DataFrame
-from transformers import BertJapaneseTokenizer, BertModel
-import pickle
-with open("./himitsudogu_db.pkl", "rb") as file:
-    himitsudogu_db: dict = pickle.load(file)
-class HFBackend(Backend):
-    def __init__(self):
-        super().__init__()
-        self.feature_matrix = himitsudogu_db["feature_matrix_s"][
-            "sonoisa/sentence-bert-base-ja-mean-tokens-v2"
-        ]
-        # モデルsonoisa/sentence-bert-base-ja-mean-tokens-v2を使用する
-        self.tokenizer = BertJapaneseTokenizer.from_pretrained(
-            "sonoisa/sentence-bert-base-ja-mean-tokens-v2"
-        )
-        self.model = BertModel.from_pretrained(
-            "sonoisa/sentence-bert-base-ja-mean-tokens-v2"
-        )
-    def on_submit_button_press(self, query: str) -> DataFrame:
-        # 文章を形態素解析し、形態素ID列へ変換
-        tokenized = self.tokenizer(query, return_tensors="pt")
-        # 言語モデルへ形態素ID列を代入
-        output = self.model(**tokenized)
-        # 文章の特徴ベクトルを取得
-        pooler_output = output["pooler_output"]
-        query_feature_vector = pooler_output[0].detach().numpy()
-        # 各ひみつ道具の説明文の特徴ベクトルとの内積を取る
-        cs_s = self.feature_matrix @ query_feature_vector
-        # 内積が大きかったもの順にひみつ道具を表示するようにする
-        ranked_index_s = np.argsort(cs_s)[::-1]
-        output = DataFrame(columns=["類似度", "名前", "説明"])
-        for rank, i in enumerate(ranked_index_s[:20], 1):
-            output.loc[rank] = [
-                cs_s[i],
-                himitsudogu_db["name_s"][i],
-                himitsudogu_db["description_s"][i],
-            ]
-        return output
-frontend.launch_frontend(backend=HFBackend())

+from ambiguous_search_backends import SBAmbiguousSearchBackend
+from classic_search_backends import ImplClassicSearchBackend
 import frontend
+frontend.launch_frontend(
+    ambiguous_search_backend=SBAmbiguousSearchBackend(),
+    classic_search_backend=ImplClassicSearchBackend(),
+)

backend.py DELETED Viewed

@@ -1,6 +0,0 @@
-from abc import ABC,abstractmethod
-from pandas import DataFrame
-class Backend(ABC):
-    @abstractmethod
-    def on_submit_button_press(self,query:str)->DataFrame:
-        pass

classic_search_backends.py ADDED Viewed

	@@ -0,0 +1,32 @@

+from abc import ABC, abstractmethod
+from pandas import DataFrame
+import re
+import pickle
+class ClassicSearchBackend(ABC):
+    @abstractmethod
+    def submit(self, query:str)->DataFrame:
+        pass
+    @abstractmethod
+    def get_num_items(self)->int:
+        pass
+class ImplClassicSearchBackend(ClassicSearchBackend):
+    def __init__(self):
+        super().__init__()
+        with open("./himitsudogu_db.pkl", "rb") as file:
+            self.himitsudogu_db: dict = pickle.load(file)
+    def submit(self, query: str) -> DataFrame:
+        pattern = ".*"+query+".*"
+        output = DataFrame(columns=["名前","説明"])
+        for i,(name,description) in enumerate(zip(
+            self.himitsudogu_db["name_s"],self.himitsudogu_db["description_s"]
+            )):
+            if re.match(pattern,name+description):
+                output.loc[i] = [
+                    name,
+                    description
+                ]
+        return output
+    def get_num_items(self)->int:
+        return len(self.himitsudogu_db["name_s"])

frontend.py CHANGED Viewed

@@ -1,15 +1,89 @@
-from gradio import Blocks,Row,Group,Markdown,Textbox,Button,DataFrame as GRDataFrame
-from backend import Backend
-def launch_frontend(backend:Backend):
     with Blocks() as frontend:
-        Markdown("""
-        自然言語処理モデル"Sentence BERT"を使って、ドラえもんのひみつ道具をあいまい検索。
-        自分の言葉でひみつ道具を説明してください。
-        """)
-        with Group():
-            query_textbox = Textbox(label="ひみつ道具の説明",max_lines=1)
-            submit_button = Button("検索")
-        result_table = GRDataFrame(label="検索結果")
-        submit_button.click(backend.on_submit_button_press,inputs=query_textbox,outputs=result_table)
-    frontend.launch()

+from gradio import (
+    update,
+    Blocks,
+    Row,
+    Examples,
+    Group,
+    Markdown,
+    Textbox,
+    Button,
+    Tabs,
+    TabItem,
+    DataFrame as GRDataFrame,
+)
+from ambiguous_search_backends import AmbiguousSearchBackend
+from classic_search_backends import ClassicSearchBackend
+def launch_frontend(
+    ambiguous_search_backend: AmbiguousSearchBackend,
+    classic_search_backend: ClassicSearchBackend,
+):
+    def on_ambiguous_search_click(query: str):
+        result = ambiguous_search_backend.submit(query)
+        return GRDataFrame.update(value=result, visible=True)
+    def on_ambiguous_search_query_clear_click():
+        return Textbox.update(value="")
+    def on_classic_search_click(query: str):
+        result = classic_search_backend.submit(query)
+        return GRDataFrame.update(value=result, visible=True)
     with Blocks() as frontend:
+        Markdown("## Himitsudogu Search")
+        with Tabs():
+            with TabItem("あいまい検索"):
+                Markdown(
+                    """
+                自然言語処理モデル"Sentence BERT"を使って、ドラえもんのひみつ道具をあいまい検索。
+                """
+                )
+                query_textbox = Textbox(
+                    label="自分の言葉でひみつ道具を説明してください", max_lines=1
+                )
+                with Row():
+                    submit_button = Button("検索", variant="primary")
+                    clear_button = Button("クリア")
+                result_table = GRDataFrame(visible=False)
+                Examples(
+                    examples=[
+                        "ふりかけると水を色々な性質にできる",
+                        "小さいカメラが飛ぶ",
+                        "壁を通り抜けられるようにする輪",
+                        "地図をいじって実際の町の建物などの位置を変える",
+                        "歌声を綺麗にする",
+                    ],
+                    inputs=query_textbox,
+                )
+                submit_button.click(
+                    on_ambiguous_search_click,
+                    inputs=query_textbox,
+                    outputs=result_table,
+                )
+                clear_button.click(
+                    on_ambiguous_search_query_clear_click,
+                    inputs=None,
+                    outputs=query_textbox,
+                )
+            with TabItem("古典検索"):
+                Markdown(
+                    f"""
+                キーワードから検索。
+                検索可能なひみつ道具は全{classic_search_backend.get_num_items()}種類。
+                """
+                )
+                query_textbox = Textbox(label="キーワード", max_lines=1)
+                with Row():
+                    submit_button = Button("検索", variant="primary")
+                result_table = GRDataFrame(visible=False)
+                submit_button.click(
+                    on_classic_search_click,
+                    inputs=query_textbox,
+                    outputs=result_table,
+                )
+    frontend.launch()

himitsudogu_db.pkl CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0cb7f694ed31065ed801d932082a802042a3a224662c7cb45f01651d5ba43ccc
-size 20793904

 version https://git-lfs.github.com/spec/v1
+oid sha256:f87a588b29a0dfcfd4eb53710cec37613dd5d873c13772c6cb7b570ae5264a65
+size 4203008

localtest.py DELETED Viewed

@@ -1,35 +0,0 @@
-from backend import Backend
-import frontend
-import numpy as np
-from pandas import DataFrame
-import pickle
-with open("./himitsudogu_db.pkl", "rb") as file:
-    himitsudogu_db: dict = pickle.load(file)
-class LocaltestBackend(Backend):
-    """
-    ローカル開発環境にSentence BERTを連れ込んでくるのは無理なので、
-    文章をベクトル化する行程は乱数発生とする。
-    """
-    def __init__(self):
-        super().__init__()
-        self.feature_matrix = himitsudogu_db["feature_matrix_s"][
-            "sonoisa/sentence-bert-base-ja-mean-tokens-v2"
-        ]
-    def on_submit_button_press(self, query: str) -> DataFrame:
-        query_feature_vector = np.random.random((768,))
-        cs_s = self.feature_matrix @ query_feature_vector
-        ranked_index_s = np.argsort(cs_s)[::-1]
-        output = DataFrame(columns=["類似度", "名前", "説明"])
-        for rank, i in enumerate(ranked_index_s[:20], 1):
-            output.loc[rank] = [
-                cs_s[i],
-                himitsudogu_db["name_s"][i],
-                himitsudogu_db["description_s"][i],
-            ]
-        return output
-frontend.launch_frontend(backend=LocaltestBackend())

nobert_app.py ADDED Viewed

	@@ -0,0 +1,8 @@

+from ambiguous_search_backends import DummyAmbiguousSearchBackend
+from classic_search_backends import ImplClassicSearchBackend
+import frontend
+frontend.launch_frontend(
+    ambiguous_search_backend=DummyAmbiguousSearchBackend(),
+    classic_search_backend=ImplClassicSearchBackend(),
+)

old_himitsudogu_db/1.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0cb7f694ed31065ed801d932082a802042a3a224662c7cb45f01651d5ba43ccc
+size 20793904