Spaces:

taishi-i
/

awesome-japanese-nlp-resources-search

Running

File size: 3,198 Bytes

c5b16f9
 
1864742
 
c5b16f9
94349ba
650b6f6
 
 
 
94349ba
 
650b6f6
 
2fcc9e9
650b6f6
 
 
 
 
 
2fcc9e9
 
650b6f6
 
 
2fcc9e9
94349ba
650b6f6
94349ba
 
ed8d73f
2759288
 
 
 
2fcc9e9
 
 
 
 
 
 
 
 
ed8d73f
 
 
 
 
 
2759288
 
2fcc9e9
2759288
 
650b6f6
94349ba
 
1864742
 
 
 
7ce3b6b
1864742
 
94349ba
1864742
 
 
2fcc9e9
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
ed8d73f
 
 
 
 
 
41ccd9e
 
 
94349ba
2fcc9e9
ed8d73f
 
 
2fcc9e9
 
ed8d73f
 
 
 
 
 
 
 
2fcc9e9
94349ba
1864742

import json

import gradio as gr
import pandas as pd


def read_json(file_name):
    with open(file_name, "r") as f:
        json_data = json.load(f)
    return json_data


json_file = "awesome-japanese-nlp-resources-search.json"
json_data = read_json(json_file)
data = {"project_name": [], "source": [], "description": [], "languages": []}

for data_json in json_data:
    url = data_json["url"]
    description = data_json["description"]
    project_name = data_json["project_name"]
    source = data_json["source"]
    languages = data_json["languages"]

    data["project_name"].append(f"[{project_name}]({url})")
    data["source"].append(source)
    data["description"].append(description)
    data["languages"].append(", ".join(languages))

data = pd.DataFrame(data)


def show_search_results(language_filter, queries, source_checkbox):
    queries = queries.lower()
    queries = queries.split()

    df_search = data

    if language_filter:
        regex_pattern = r"\b" + language_filter + r"\b"
        df_search = df_search[
            df_search["languages"].str.contains(
                regex_pattern, case=False, regex=True, na=False
            )
        ]

    if "GitHub" not in source_checkbox:
        df_search = df_search[df_search["source"] != "GitHub"]

    if "Hugging Face" not in source_checkbox:
        df_search = df_search[df_search["source"] != "Hugging Face"]

    for query in queries:
        contained_description = data["description"].str.contains(query)

        contained_project_name = data["project_name"].str.contains(query)
        df_search = df_search[contained_description | contained_project_name]
    return df_search


with gr.Blocks() as demo:
    gr.Markdown(
        """
    # Awesome Japanese NLP resources search 🔎
    You can search for open-source software from [1250+ Japanese NLP repositories](https://github.com/taishi-i/awesome-japanese-nlp-resources).
    """
    )

    query = gr.Textbox(
        label="Search English or Japanese words", placeholder="llm"
    )
    languages = [
        "Python",
        "Jupyter Notebook",
        "Java",
        "C++",
        "JavaScript",
        "TypeScript",
        "C#",
        "Rust",
        "Go",
        "C",
        "Kotlin",
        "Ruby",
        "Perl",
        "Lua",
        "PHP",
        "Julia",
        "R",
        "Swift",
        "Haskell",
        "Scala",
    ]

    language_selector = gr.Dropdown(
        label="Programming Language",
        choices=languages,
    )

    source_checkbox = gr.CheckboxGroup(
        ["GitHub", "Hugging Face"],
        value=["GitHub", "Hugging Face"],
        label="Source",
    )

    df = gr.DataFrame(
        value=data, type="pandas", datatype="markdown", height=1000
    )

    query.change(
        fn=show_search_results,
        inputs=[language_selector, query, source_checkbox],
        outputs=df,
    )
    language_selector.change(
        fn=show_search_results,
        inputs=[language_selector, query, source_checkbox],
        outputs=df,
    )
    source_checkbox.change(
        fn=show_search_results,
        inputs=[language_selector, query, source_checkbox],
        outputs=df,
    )

demo.launch()