Spaces:

codeparrot
/

code-generation-models

Running

loubnabnl HF Staff commited on May 25, 2022

Commit

fa5e188

1 Parent(s): 0c4db1f

add link to github-code data

Files changed (1) hide show

app.py CHANGED Viewed

@@ -6,6 +6,9 @@ import json
 import pandas as pd
 import requests
 @st.cache(allow_output_mutation=True)
 def load_tokenizer(model_ckpt):
     return AutoTokenizer.from_pretrained(model_ckpt)
@@ -40,7 +43,7 @@ if selected_task == " ":
 elif selected_task == "Pretraining datasets":
     st.title("Pretraining datasets 📚")
-    st.markdown("Preview of some code files from Github repositories")
     df = pd.read_csv("utils/data_preview.csv")
     st.dataframe(df)
     for model in selected_models:
@@ -57,7 +60,7 @@ elif selected_task == "Model architecture":
         st.markdown(f"## {model}")
         st.markdown(text)
         if model == "InCoder":
-            st.image("https://huggingface.co/datasets/loubnabnl/repo-images/raw/main/incoder.png", caption="Figure 1: InCoder training", width=700)
 elif selected_task == "Model evaluation":
     st.title("Code models evaluation 📊")

 import pandas as pd
 import requests
+GITHUB_CODE = "https://huggingface.co/datasets/lvwerra/github-code"
+INCODER_IMG = "https://huggingface.co/datasets/loubnabnl/repo-images/raw/main/incoder.png"
 @st.cache(allow_output_mutation=True)
 def load_tokenizer(model_ckpt):
     return AutoTokenizer.from_pretrained(model_ckpt)
 elif selected_task == "Pretraining datasets":
     st.title("Pretraining datasets 📚")
+    st.markdown(f"Preview of some code files from Github repositories in [Github-code dataset]({GITHUB_CODE}):")
     df = pd.read_csv("utils/data_preview.csv")
     st.dataframe(df)
     for model in selected_models:
         st.markdown(f"## {model}")
         st.markdown(text)
         if model == "InCoder":
+            st.image(INCODER_IMG, caption="Figure 1: InCoder training", width=700)
 elif selected_task == "Model evaluation":
     st.title("Code models evaluation 📊")