Spaces:

hon9kon9ize
/

canto-songs-finder

Sleeping

App Files Files Community

indiejoseph commited on Aug 1, 2024

Commit

4260211

verified ·

1 Parent(s): f1249b7

Upload 3 files

Browse files

Files changed (4) hide show

.gitattributes +1 -0
app.py +97 -0
emb.json +3 -0
requirements.txt +2 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+emb.json filter=lfs diff=lfs merge=lfs -text

app.py ADDED Viewed

	@@ -0,0 +1,97 @@

+import pandas as pd
+import numpy as np
+import asyncio
+from sentence_transformers import SentenceTransformer
+model = SentenceTransformer("hon9kon9ize/bert-large-cantonese")
+df = None
+def get_dataframe():
+    global df
+    if df is not None:
+        return df
+    df = pd.read_json("emb.json")
+    df = df.drop_duplicates(subset=["artist_name", "track_name"])
+    return df
+def cosine_similarity(a, b):
+    return np.dot(a, b) / (np.linalg.norm(a) * np.linalg.norm(b))
+def find_songs(text):
+    df = get_dataframe()
+    text_embedding = get_embedding(text)
+    df["similarity"] = df["lyrics_embedding"].apply(
+        lambda x: cosine_similarity(x, text_embedding)
+    )
+    df = df.sort_values(by="similarity", ascending=False)
+    top_5 = df.head(5)
+    return "### 以下係你嘅歌名推介：\n" + "\n".join(
+        [
+            f"- {row['artist_name']} 嘅 **[「{row['track_name']}」](https://open.spotify.com/track/{row['track_id']})**（相似度：{row['similarity']:.2f}）"
+            for _, row in top_5.iterrows()
+        ]
+    )
+def get_embedding(text):
+    return model.encode(text)
+# Create Gradio application
+import gradio as gr
+async def create_demo():
+    example1 = """故事開始於一個悲傷的雨夜，主角站在街頭，淋雨中凝視著遠方。心裡充滿了對一段失去的愛情的痛苦和迷惘。回想起往事，他感到愛情並非他當初所想像的那麼美好，無法找到回到對方身邊的路，更不用說如何忘記過往。
+淚水在眼底打轉，他感到迷失，不知道該往哪裡去，只是心中不斷地呼喚著對方的名字，渴望重新找回失去的愛。他開始思考，是應該安靜地離開這段過往，還是勇敢地留下來，面對愛情的種種無奈。
+在迷惘中，他決定給自己一個機會。或許他應該離開，或者他應該在原地等待，等待對方明白他所付出的愛是永遠不會離開的。這段故事充滿了對愛情的掙扎、遺憾和無奈，卻也帶著一絲希望和堅持。結局如何，只有時間能給予答案。"""
+    example2 = "我唔搵唔返一啲嘢，搵唔返。"
+    example3 = "香港有國安法"
+    example4 = "雞！全部都係雞！"
+    description = """呢個 space 利用咗廣東話 Bert 語言模型，將歌詞轉換成向量，再用 cosine similarity 計算輸入嘅文字同 2394 首粵語歌唧歌詞之間嘅相似度，嚟畀出個歌名推介。
+⚠️ 要註意!呢個唔係關鍵字搜尋，而係用文字嘅意思去比對每首歌嘅歌詞內容，所以有時候會有啲奇怪嘅結果。
+"""
+    css = """
+.output {
+  padding: 10px;
+  min-height: 200px;
+}
+"""
+    demo = gr.Interface(
+        fn=find_songs,
+        css=css,
+        inputs=[
+            gr.Textbox(
+                label="求其打啲嘢去搵歌名",
+                lines=5,
+                placeholder="請輸入歌詞",
+            ),
+        ],
+        outputs=[
+            gr.Markdown(elem_classes="output"),
+        ],
+        examples=[example1, example2, example3, example4],
+        title="粵語流行歌相似度",
+        description=description,
+        analytics_enabled=False,
+        allow_flagging=False,
+    )
+    return demo
+# Run the application
+if __name__ == "__main__":
+    demo = asyncio.run(create_demo())
+    demo.launch()

emb.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:42d86b95f9d4422c247ac916161fa1a86f8fb886a29414866365b6b5717f49b1
+size 50336246

requirements.txt ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ gradio==4.39.0
2	+ sentence_transformers==3.0.1