Spaces:

loubnabnl
/

the-stack-bot

Runtime error

App Files Files Community

loubnabnl HF staff commited on Jan 14, 2023

Commit

7659c19

1 Parent(s): f6c8688

update app

Browse files

Files changed (3) hide show

app.py +11 -21
utils/languages.json +3 -3
utils/table_contents.md +1 -1

app.py CHANGED Viewed

@@ -39,7 +39,7 @@ def load_model(values, language):
     model = values["model"]
     if not model:
         text = f"""No model is available for {language.capitalize()}. If you trained a model on this language, let us know in\
-        in the [Community tab](https://huggingface.co/spaces/loubnabnl/the-stack-bot/discussions) to feature your model!\n\
         You can also train your own model on The Stack using the instructions below 🚀"""
         st.write(text)
         if st.button("Fine-tune your own model", key=4):
@@ -50,8 +50,8 @@ def load_model(values, language):
         ```python
         from transformers import AutoModelForCausalLM, AutoTokenizer
-        tokenizer = AutoTokenizer.from_pretrained({model})
-        model = AutoModelForCausalLM.from_pretrained({model}, trust_remote_code=True)
         inputs = tokenizer.encode("def print_hello_world():", return_tensors="pt")
         outputs = model.generate(inputs)
@@ -60,7 +60,6 @@ def load_model(values, language):
         """
         st.markdown(text)
         st.markdown(code)
-        st.write(f"The scores of this model are the following: {values['scores']}")
 def generate_code(
    demo, gen_prompt, max_new_tokens=40, temperature=0.2, seed=0
@@ -78,31 +77,24 @@ def generate_code(
         generated_text = ""
     return generated_text
-def init_nested_buttons():
-    if "Models trained on dataset" not in st.session_state:
-        st.session_state["Models trained on dataset"] = False
-    if "Generate code" not in st.session_state:
-        st.session_state["Generate code"] = False
-    if st.button("Models trained on dataset"):
-        st.session_state["Models trained on dataset"] = not st.session_state["Models trained on dataset"]
 languages = load_languages()
 col1, col2 = st.columns([1, 1.5])
 with col1:
-    selected_language = st.selectbox("Select one of 358 languages in The Stack", list(languages.keys()), key=1)
 st.write(f"Here's how you can load the {selected_language.capitalize()} subset of The Stack:")
 code = how_to_load(selected_language)
-if st.button("More info about the dataset", key=2):
     st.write(f"The dataset contains {languages[selected_language]['num_examples']} examples.")
     # we can add some stats about files
-init_nested_buttons()
-if st.session_state["Models trained on dataset"]:
     load_model(languages[selected_language], selected_language)
     if languages[selected_language]["model"] and languages[selected_language]["gradio_demo"]:
@@ -114,8 +106,6 @@ if st.session_state["Models trained on dataset"]:
         ).strip()
         if st.button("Generate code"):
-            st.session_state["Generate code"] = not st.session_state["Generate code"]
-        if st.session_state["Generate code"]:
             with st.spinner("Generating code..."):
                 generated_text = generate_code(
                     demo=languages[selected_language]["gradio_demo"],

     model = values["model"]
     if not model:
         text = f"""No model is available for {language.capitalize()}. If you trained a model on this language, let us know in\
+        in the [Community tab](https://huggingface.co/spaces/loubnabnl/the-stack-bot/discussions) to feature your model!\n\n\
         You can also train your own model on The Stack using the instructions below 🚀"""
         st.write(text)
         if st.button("Fine-tune your own model", key=4):
         ```python
         from transformers import AutoModelForCausalLM, AutoTokenizer
+        tokenizer = AutoTokenizer.from_pretrained("{model}")
+        model = AutoModelForCausalLM.from_pretrained("{model}", trust_remote_code=True)
         inputs = tokenizer.encode("def print_hello_world():", return_tensors="pt")
         outputs = model.generate(inputs)
         """
         st.markdown(text)
         st.markdown(code)
 def generate_code(
    demo, gen_prompt, max_new_tokens=40, temperature=0.2, seed=0
         generated_text = ""
     return generated_text
 languages = load_languages()
+st.header("Languages of The Stack 📑")
+st.markdown("The Stack contains over 6TB of permissively-licensed source code files covering 358 programming languages. Select one to get started:")
 col1, col2 = st.columns([1, 1.5])
 with col1:
+    selected_language = st.selectbox("Programming Language", list(languages.keys()), label_visibility="collapsed", key=1)
 st.write(f"Here's how you can load the {selected_language.capitalize()} subset of The Stack:")
 code = how_to_load(selected_language)
+with st.expander("More info about the dataset"):
     st.write(f"The dataset contains {languages[selected_language]['num_examples']} examples.")
     # we can add some stats about files
+st.header("Models trained on The Stack 🤖")
+st.write("Here we show models trained on the language you select as part of BigCode project.")
+with st.expander(f"Models trained on {selected_language.capitalize()}"):
     load_model(languages[selected_language], selected_language)
     if languages[selected_language]["model"] and languages[selected_language]["gradio_demo"]:
         ).strip()
         if st.button("Generate code"):
             with st.spinner("Generating code..."):
                 generated_text = generate_code(
                     demo=languages[selected_language]["gradio_demo"],

utils/languages.json CHANGED Viewed

@@ -1,6 +1,6 @@
-{"python": {"num_examples": 10, "model": "bigcode/santacoder", "scores": {"HumanEval-pass@1": 10, "HumanEval-pass@10": 20, "HumanEval-pass@100": 40}, "gradio_demo": "https://loubnabnl-santa-demo.hf.space"},
-"java": {"num_examples": 10, "model": "bigcode/santacoder", "scores": { "HumanEval-pass@1": 10, "HumanEval-pass@10": 20, "HumanEval-pass@100": 40}, "gradio_demo": "https://loubnabnl-santa-demo.hf.space"},
-"javascript": {"num_examples": 10, "model": "bigcode/santacoder", "scores": { "HumanEval-pass@1": 10, "HumanEval-pass@10": 20, "HumanEval-pass@100": 40}, "gradio_demo": "https://loubnabnl-santa-demo.hf.space"},
 "typescript": {"num_examples": 10, "model": ""},
 "go": {"num_examples": 10, "model": ""},
 "php": {"num_examples": 10, "model": ""},

+{"python": {"num_examples": 10, "model": "bigcode/santacoder", "gradio_demo": "https://loubnabnl-santa-demo.hf.space"},
+"java": {"num_examples": 10, "model": "bigcode/santacoder", "gradio_demo": "https://loubnabnl-santa-demo.hf.space"},
+"javascript": {"num_examples": 10, "model": "bigcode/santacoder", "gradio_demo": "https://loubnabnl-santa-demo.hf.space"},
 "typescript": {"num_examples": 10, "model": ""},
 "go": {"num_examples": 10, "model": ""},
 "php": {"num_examples": 10, "model": ""},

utils/table_contents.md CHANGED Viewed

@@ -6,4 +6,4 @@
 3 - Demos for code generation
-If you trained a model on The Stack, let us know so we can feature it! 🚀


6
7	3 - Demos for code generation
8
9	+ If you trained a model on The Stack, let us know in the [Community tab](https://huggingface.co/spaces/loubnabnl/the-stack-bot/discussions) so we can feature it! 🚀