Spaces:

flax-community
/

gpt2-indonesian-test

Runtime error

App Files Files Community

Galuh Sahid commited on Aug 1, 2021

Commit

a4af9d2

•

1 Parent(s): bcdac5a

Init

Browse files

Files changed (7) hide show

.gitignore +2 -0
SessionState.py +107 -0
app.py +134 -0
huggingwayang.png +0 -0
lid.176.ftz +3 -0
prompts.py +36 -0
requirements.txt +9 -0

.gitignore ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ gpt2-demo
2	+ __pycache__

SessionState.py ADDED Viewed

	@@ -0,0 +1,107 @@

+"""Hack to add per-session state to Streamlit.
+Usage
+-----
+>>> import SessionState
+>>>
+>>> session_state = SessionState.get(user_name='', favorite_color='black')
+>>> session_state.user_name
+''
+>>> session_state.user_name = 'Mary'
+>>> session_state.favorite_color
+'black'
+Since you set user_name above, next time your script runs this will be the
+result:
+>>> session_state = get(user_name='', favorite_color='black')
+>>> session_state.user_name
+'Mary'
+"""
+try:
+    import streamlit.ReportThread as ReportThread
+    from streamlit.server.Server import Server
+except Exception:
+    # Streamlit >= 0.65.0
+    import streamlit.report_thread as ReportThread
+    from streamlit.server.server import Server
+class SessionState(object):
+    def __init__(self, **kwargs):
+        """A new SessionState object.
+        Parameters
+        ----------
+        **kwargs : any
+            Default values for the session state.
+        Example
+        -------
+        >>> session_state = SessionState(user_name='', favorite_color='black')
+        >>> session_state.user_name = 'Mary'
+        ''
+        >>> session_state.favorite_color
+        'black'
+        """
+        for key, val in kwargs.items():
+            setattr(self, key, val)
+def get(**kwargs):
+    """Gets a SessionState object for the current session.
+    Creates a new object if necessary.
+    Parameters
+    ----------
+    **kwargs : any
+        Default values you want to add to the session state, if we're creating a
+        new one.
+    Example
+    -------
+    >>> session_state = get(user_name='', favorite_color='black')
+    >>> session_state.user_name
+    ''
+    >>> session_state.user_name = 'Mary'
+    >>> session_state.favorite_color
+    'black'
+    Since you set user_name above, next time your script runs this will be the
+    result:
+    >>> session_state = get(user_name='', favorite_color='black')
+    >>> session_state.user_name
+    'Mary'
+    """
+    # Hack to get the session object from Streamlit.
+    ctx = ReportThread.get_report_ctx()
+    this_session = None
+    current_server = Server.get_current()
+    if hasattr(current_server, '_session_infos'):
+        # Streamlit < 0.56
+        session_infos = Server.get_current()._session_infos.values()
+    else:
+        session_infos = Server.get_current()._session_info_by_id.values()
+    for session_info in session_infos:
+        s = session_info.session
+        if (
+            # Streamlit < 0.54.0
+            (hasattr(s, '_main_dg') and s._main_dg == ctx.main_dg)
+            or
+            # Streamlit >= 0.54.0
+            (not hasattr(s, '_main_dg') and s.enqueue == ctx.enqueue)
+            or
+            # Streamlit >= 0.65.2
+            (not hasattr(s, '_main_dg') and s._uploaded_file_mgr == ctx.uploaded_file_mgr)
+        ):
+            this_session = s
+    if this_session is None:
+        raise RuntimeError(
+            "Oh noes. Couldn't get your Streamlit Session object. "
+            'Are you doing something fancy with threads?')
+    # Got the session object! Now let's attach some state into it.
+    if not hasattr(this_session, '_custom_session_state'):
+        this_session._custom_session_state = SessionState(**kwargs)
+    return this_session._custom_session_state
+__all__ = ['get']

app.py ADDED Viewed

	@@ -0,0 +1,134 @@

+import json
+import requests
+from mtranslate import translate
+from prompts import PROMPT_LIST
+import streamlit as st
+import random
+from transformers import GPT2Tokenizer, GPT2LMHeadModel
+import fasttext
+import SessionState
+LOGO = "huggingwayang.png"
+MODELS = {
+    "GPT-2 Small": "flax-community/gpt2-small-indonesian",
+    "GPT-2 Medium": "flax-community/gpt2-medium-indonesian",
+    "GPT-2 Small Finetuned on Indonesian Journals": "Galuh/id-journal-gpt2"
+}
+headers = {}
+@st.cache(show_spinner=False, persist=True)
+def load_gpt(model_type, text):
+    print("Loading model...")
+    model = GPT2LMHeadModel.from_pretrained(MODELS[model_type])
+    tokenizer = GPT2Tokenizer.from_pretrained(MODELS[model_type])
+    return model, tokenizer
+def get_image(text: str):
+    url = "https://wikisearch.uncool.ai/get_image/"
+    try:
+        payload = {
+            "text": text,
+            "image_width": 400
+        }
+        data = json.dumps(payload)
+        response = requests.request("POST", url, headers=headers, data=data)
+        print(response.content)
+        image = json.loads(response.content.decode("utf-8"))["url"]
+    except:
+        image = ""
+    return image
+st.set_page_config(page_title="Indonesian GPT-2 Demo")
+st.title("Indonesian GPT-2")
+# ft_model = fasttext.load_model('lid.176.ftz')
+# Sidebar
+st.sidebar.image(LOGO)
+st.sidebar.subheader("Configurable parameters")
+max_len = st.sidebar.number_input(
+    "Maximum length",
+    value=100,
+    help="The maximum length of the sequence to be generated."
+)
+temp = st.sidebar.slider(
+    "Temperature",
+    value=1.0,
+    min_value=0.0,
+    max_value=100.0,
+    help="The value used to module the next token probabilities."
+)
+top_k = st.sidebar.number_input(
+    "Top k",
+    value=50,
+    help="The number of highest probability vocabulary tokens to keep for top-k-filtering."
+)
+top_p = st.sidebar.number_input(
+    "Top p",
+    value=1.0,
+    help=" If set to float < 1, only the most probable tokens with probabilities that add up to top_p or higher are kept for generation."
+)
+st.markdown(
+    """
+    This demo uses the [small](https://huggingface.co/flax-community/gpt2-small-indonesian) and
+    [medium](https://huggingface.co/flax-community/gpt2-medium-indonesian) Indonesian GPT2 model
+    trained on the Indonesian [Oscar](https://huggingface.co/datasets/oscar), [MC4](https://huggingface.co/datasets/mc4)
+    and [Wikipedia](https://huggingface.co/datasets/wikipedia) dataset. We created it as part of the
+    [Huggingface JAX/Flax event](https://discuss.huggingface.co/t/open-to-the-community-community-week-using-jax-flax-for-nlp-cv/).
+    The demo supports "multi language" ;-), feel free to try a prompt on your language. We are also experimenting with
+    the sentence based image search using Wikipedia passages encoded with distillbert, and search the encoded sentence
+    in the encoded passages using Facebook's Faiss.
+    """
+)
+model_name = st.selectbox('Model',(['GPT-2 Small', 'GPT-2 Medium', 'GPT-2 Small Finetuned on Indonesian Journals']))
+if model_name in ["GPT-2 Small", "GPT-2 Medium"]:
+    prompt_group_name = "GPT-2"
+elif model_name in ["GPT-2 Small Finetuned on Indonesian Journals"]:
+    prompt_group_name = "Indonesian Journals"
+ALL_PROMPTS = list(PROMPT_LIST[prompt_group_name].keys())+["Custom"]
+prompt = st.selectbox('Prompt', ALL_PROMPTS, index=len(ALL_PROMPTS)-1)
+session_state = SessionState.get(prompt_box=None)
+if prompt == "Custom":
+    prompt_box = "Enter your text here"
+else:
+    prompt_box = random.choice(PROMPT_LIST[prompt_group_name][prompt])
+session_state.prompt_box = prompt_box
+text = st.text_area("Enter text", session_state.prompt_box)
+if st.button("Run"):
+    with st.spinner(text="Getting results..."):
+        st.subheader("Result")
+        model, tokenizer = load_gpt(model_name, text)
+        input_ids = tokenizer.encode(text, return_tensors='pt')
+        output = model.generate(input_ids=input_ids,
+                                max_length=max_len,
+                                temperature=temp,
+                                top_k=top_k,
+                                top_p=top_p,
+                                repetition_penalty=2.0)
+        text = tokenizer.decode(output[0],
+                                skip_special_tokens=True)
+        st.write(text.replace("\n", "  \n"))
+        st.text("Translation")
+        translation = translate(text, "en", "id")

huggingwayang.png ADDED Viewed

lid.176.ftz ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8f3472cfe8738a7b6099e8e999c3cbfae0dcd15696aac7d7738a8039db603e83
+size 938013

prompts.py ADDED Viewed

	@@ -0,0 +1,36 @@

+PROMPT_LIST = {
+    "GPT-2": {
+    "Resep masakan (recipe)": [
+        "Berikut adalah cara memasak sate ayam: ",
+        "Langkah-langkah membuat kastengel: ",
+        "Berikut adalah bahan-bahan membuat nastar: "
+    ],
+    "Puisi (poetry)": [
+        "Aku ingin jadi merpati\nTerbang di langit yang damai\nBernyanyi-nyanyi tentang masa depan\n",
+        "Terdiam aku satu persatu dengan tatapan binar\nSenyawa merasuk dalam sukma membuat lara\nKefanaan membentuk kelemahan"
+    ],
+    "Cerpen (short story)": [
+        "Putri memakai sepatunya dengan malas. Kalau bisa, selama seminggu ini ia bolos sekolah saja. Namun, Mama pasti akan marah. Ulangan tengah semester telah selesai. Minggu ini, di sekolah sedang berlangsung pekan olahraga.",
+        "\"Wah, hari ini cerah sekali ya,\" ucap Budi ketika ia keluar rumah.",
+        "Sewindu sudah kita tak berjumpa, rinduku padamu sudah tak terkira."
+    ],
+    "Sejarah (history)": [
+        "Mohammad Natsir adalah seorang ulama, politisi, dan pejuang kemerdekaan Indonesia.",
+        "Ir. H. Soekarno adalah Presiden pertama Republik Indonesia. Ia adalah seorang tokoh perjuangan yang memainkan peranan penting dalam memerdekakan bangsa Indonesia",
+        "Borobudur adalah sebuah candi Buddha yang terletak di sebelah barat laut Yogyakarta. Monumen ini merupakan model alam semesta dan dibangun sebagai tempat suci untuk memuliakan Buddha"
+    ],
+    "English": [
+        "Deoxyribonucleic acid is a molecule composed of two polynucleotide chains that coil around each other",
+        "Javanese is the largest of the Austronesian languages in number of native speakers"
+    ],
+    "German": [
+        "Eine Meerjungfrau, auch Seejungfrau oder Fischweib, ist ein weibliches Fabelwesen, ein Mischwesen aus Frauen- und Fischkörper",
+        "Der Mond ist der einzige natürliche Satellit der Erde"
+    ]},
+    "Indonesian Journals": {
+        "Biologi (biology)": ["Tujuan  penelitian ini untuk menentukan keanekaragaman Arthropoda pada lahan pertanian kacang", "Identifikasi spesies secara molekuler sangat diperlukan dalam mempelajari taksonomi", "Penelitian ini bertujuan untuk menentukan identitas invertebrata laut dari Perairan Papua dengan teknik DNA barcoding"],
+        "Psikologi (psychology)": ["Penelitian ini bertujuan untuk mengetahui perilaku wirausaha remaja yang diprediksi dari motivasi intrinsik", "Tujuan dari penelitian ini adalah untuk mendapatkan data empiris mengenai gambaran peta bakat mahasiswa Fakultas Psikologi Unjani"],
+        "Ekonomi (economics)": ["Faktor kepuasan dan kepercayaan konsumen merupakan dua faktor kunci dalam meningkatkan penetrasi e-commerce. Peneltiian yang dilakukan", "Penelitian ini bertujuan untuk menganalisis pola konsumsi pangan di Indonesia", "Model GTAP diimplementasikan untuk melihat dampak yang ditimbulkan pada PDB"],
+        "Teknologi Informasi (IT)": ["pembuatan aplikasi ini menggunakan pengembangan metode Waterfall dan dirancang mengguynakan Unified Modeling Language (UML) dengan bahasa pemrograman", "Berdasarkan masalah tersebut, maka penulis termotivasi untuk membangun Pengembangan Sistem Informasi Manajemen"]
+    }
+}

requirements.txt ADDED Viewed

	@@ -0,0 +1,9 @@

+transformers
+streamlit
+requests==2.24.0
+requests-toolbelt==0.9.1
+mtranslate
+-f https://download.pytorch.org/whl/torch_stable.html
+torch==1.7.1+cpu; sys_platform == 'linux'
+torch==1.7.1; sys_platform == 'darwin'
+fasttext