Spaces:
Sleeping
Sleeping
sources
Browse files
app.py
CHANGED
@@ -10,15 +10,21 @@ from streamlit_extras.stylable_container import stylable_container
|
|
10 |
import subprocess
|
11 |
|
12 |
|
|
|
|
|
|
|
|
|
|
|
13 |
# ===== SOME SETTING UP =====
|
14 |
|
15 |
# Setting up the app's page
|
16 |
-
st.set_page_config(page_title="
|
17 |
|
18 |
# Path to the statics directory
|
19 |
statics = "./static"
|
20 |
|
21 |
# Making the radio widgets' titles bigger
|
|
|
22 |
st.markdown(
|
23 |
"""<style>
|
24 |
div[class*="stRadio"] > label > div[data-testid="stMarkdownContainer"] > p {
|
@@ -28,6 +34,7 @@ div[class*="stRadio"] > label > div[data-testid="stMarkdownContainer"] > p {
|
|
28 |
""", unsafe_allow_html=True)
|
29 |
|
30 |
# Hiding the possibility to display pictures fullscreen
|
|
|
31 |
st.markdown(
|
32 |
"""<style>
|
33 |
button[title="View fullscreen"]{
|
@@ -83,10 +90,17 @@ st.sidebar.markdown("Avec ses 2200 collaborateurs, l’[Inrap](https://www.inrap
|
|
83 |
|
84 |
st.sidebar.markdown("Financé avec le soutien du [Fonds National pour la Science Ouverte](https://www.ouvrirlascience.fr/accueil/) et réalisé en collaboration avec l’infrastructure de recherche [Métopes](http://www.metopes.fr/) ([Université de Caen Normandie](https://www.unicaen.fr/) - [CNRS](https://www.cnrs.fr/fr)), [ARCHES](https://www.inrap.fr/arches-etude-composition-et-processus-pour-une-edition-structuree-des-rapports-d-17145) vise à explorer l’amélioration de la diffusion et de l’exploitation des rapports d’opération à l’aide du format de balisage XML-TEI, permettant d’encoder tant la structuration formelle que le contenu sémantique d’un document. Dans cette optique, vingt-et-un rapports de fouilles de l’Inrap ont été annotés pour entraîner un modèle de reconnaissance des entités nommées (représentant plus de 80 000 entités annotées). Cette application vise à tester la manipulation du modèle, tant avec des fichiers XML que texte brut.")
|
85 |
|
|
|
|
|
86 |
st.sidebar.write("")
|
87 |
|
88 |
-
st.sidebar.
|
89 |
|
|
|
|
|
|
|
|
|
|
|
90 |
# Display logos
|
91 |
col1, col2, col3 = st.sidebar.columns(3)
|
92 |
col1.image(f"{statics}/logo_inrap.png", width=100)
|
@@ -150,7 +164,7 @@ def load_ner():
|
|
150 |
:returns: loaded fr_arches model
|
151 |
:rtype: spacy.lang.fr.French
|
152 |
"""
|
153 |
-
|
154 |
ner = spacy.load("fr_arches")
|
155 |
# To try to reduce memory usage
|
156 |
config = {"attrs": {"tensor": None}}
|
@@ -679,7 +693,7 @@ def main():
|
|
679 |
st.write("")
|
680 |
with st.expander("Au sujet du mapping XML des entités nommées"):
|
681 |
st.markdown(
|
682 |
-
"**Les entités nommées ont été converties comme suit :** \n\n- **CHRONOLOGIE :** ```<date>``` \n- **MOBILIER :** ```<objectType>``` \n- **STRUCTURE :** ```<name type=\"structure\">``` \n- **MATERIAU :** ```<material>``` \n- **ID :** ```<idno type=\"entite\">``` \n- **TECHNIQUE_STYLE :** ```<name type=\"technique_style\">``` \n- **DECOR :** ```<name type=\"decor\">``` \n- **ESPECE :** ```<name type=\"espece\">``` \n- **EDIFICE :** ```<placeName type=\"edifice\">``` \n- **PEUPLE_CULTURE :** ```<orgName type=\"peuple_culture\">``` \n- **PERSONNE :** ```<persName>``` \n- **ORG :** ```<orgName>``` \n- **GPE :** ```<placeName>``` \n- **LOC :** ```<geogName>``` \n- **LIEUDIT_SITE :** ```<placeName type=\"lieudit_site\">```")
|
683 |
st.write("")
|
684 |
st.write("")
|
685 |
|
@@ -714,6 +728,7 @@ def main():
|
|
714 |
# Display the modified XML
|
715 |
with st.expander("Contenu XML modifié"):
|
716 |
# Wrap the code
|
|
|
717 |
with stylable_container(
|
718 |
"codeblock",
|
719 |
"""
|
|
|
10 |
import subprocess
|
11 |
|
12 |
|
13 |
+
# This app was initially inspired by Lucas Terriel's NER4Archives Visualizer App (2022-2023), https://huggingface.co/spaces/ner4archives/ner4archives-NEL-vizualizer-app/tree/main
|
14 |
+
# Check out the NER4Archives project (INRIA-ALMAnaCH/Archives nationales) : https://github.com/NER4Archives-project
|
15 |
+
|
16 |
+
|
17 |
+
|
18 |
# ===== SOME SETTING UP =====
|
19 |
|
20 |
# Setting up the app's page
|
21 |
+
st.set_page_config(page_title="Arches Demo", page_icon="🏺")
|
22 |
|
23 |
# Path to the statics directory
|
24 |
statics = "./static"
|
25 |
|
26 |
# Making the radio widgets' titles bigger
|
27 |
+
# Source : arnaud, https://discuss.streamlit.io/t/how-to-change-font-size-of-streamlit-radio-widget-title/35945/2
|
28 |
st.markdown(
|
29 |
"""<style>
|
30 |
div[class*="stRadio"] > label > div[data-testid="stMarkdownContainer"] > p {
|
|
|
34 |
""", unsafe_allow_html=True)
|
35 |
|
36 |
# Hiding the possibility to display pictures fullscreen
|
37 |
+
# Source : AvratanuBiswas, https://discuss.streamlit.io/t/hide-fullscreen-option-when-displaying-images-using-st-image/19792/2
|
38 |
st.markdown(
|
39 |
"""<style>
|
40 |
button[title="View fullscreen"]{
|
|
|
90 |
|
91 |
st.sidebar.markdown("Financé avec le soutien du [Fonds National pour la Science Ouverte](https://www.ouvrirlascience.fr/accueil/) et réalisé en collaboration avec l’infrastructure de recherche [Métopes](http://www.metopes.fr/) ([Université de Caen Normandie](https://www.unicaen.fr/) - [CNRS](https://www.cnrs.fr/fr)), [ARCHES](https://www.inrap.fr/arches-etude-composition-et-processus-pour-une-edition-structuree-des-rapports-d-17145) vise à explorer l’amélioration de la diffusion et de l’exploitation des rapports d’opération à l’aide du format de balisage XML-TEI, permettant d’encoder tant la structuration formelle que le contenu sémantique d’un document. Dans cette optique, vingt-et-un rapports de fouilles de l’Inrap ont été annotés pour entraîner un modèle de reconnaissance des entités nommées (représentant plus de 80 000 entités annotées). Cette application vise à tester la manipulation du modèle, tant avec des fichiers XML que texte brut.")
|
92 |
|
93 |
+
st.sidebar.markdown("Le corpus a été annoté à l'aide d'[INCEpTION](https://inception-project.github.io/), tandis que les modèles de [segmentation](https://huggingface.co/a-menu/fr_arches_sentencizer) et de [reconnaissance des entités nommées](https://huggingface.co/a-menu/fr_arches) ont été entraînés et évalués avec [spaCy](https://spacy.io/). Les modalités de [citation](https://huggingface.co/spaces/a-menu/arches_demo/blob/main/CITATION.cff) de l'application peuvent être retrouvées dans le [dépôt](https://huggingface.co/spaces/a-menu/arches_demo/tree/main) de celle-ci.")
|
94 |
+
|
95 |
st.sidebar.write("")
|
96 |
|
97 |
+
st.sidebar.markdown("*ARCHES (Inrap), janvier 2024*")
|
98 |
|
99 |
+
st.sidebar.write("")
|
100 |
+
st.sidebar.write("")
|
101 |
+
|
102 |
+
st.sidebar.header("Partenaires")
|
103 |
+
st.sidebar.write("")
|
104 |
# Display logos
|
105 |
col1, col2, col3 = st.sidebar.columns(3)
|
106 |
col1.image(f"{statics}/logo_inrap.png", width=100)
|
|
|
164 |
:returns: loaded fr_arches model
|
165 |
:rtype: spacy.lang.fr.French
|
166 |
"""
|
167 |
+
|
168 |
ner = spacy.load("fr_arches")
|
169 |
# To try to reduce memory usage
|
170 |
config = {"attrs": {"tensor": None}}
|
|
|
693 |
st.write("")
|
694 |
with st.expander("Au sujet du mapping XML des entités nommées"):
|
695 |
st.markdown(
|
696 |
+
"**Les entités nommées ont été converties comme suit :** \n\n- **CHRONOLOGIE :** ```<date>``` \n- **MOBILIER :** ```<objectType>``` \n- **STRUCTURE :** ```<name type=\"structure\">``` \n- **MATERIAU :** ```<material>``` \n- **ID :** ```<idno type=\"entite\">``` \n- **TECHNIQUE_STYLE :** ```<name type=\"technique_style\">``` \n- **DECOR :** ```<name type=\"decor\">``` \n- **ESPECE :** ```<name type=\"espece\">``` \n- **EDIFICE :** ```<placeName type=\"edifice\">``` \n- **PEUPLE_CULTURE :** ```<orgName type=\"peuple_culture\">``` \n- **PERSONNE :** ```<persName>``` \n- **ORG :** ```<orgName>``` \n- **GPE :** ```<placeName>``` \n- **LOC :** ```<geogName>``` \n- **LIEUDIT_SITE :** ```<placeName type=\"lieudit_site\">```\n- **Entité inconnue :** ```<name type=\"generique\">```")
|
697 |
st.write("")
|
698 |
st.write("")
|
699 |
|
|
|
728 |
# Display the modified XML
|
729 |
with st.expander("Contenu XML modifié"):
|
730 |
# Wrap the code
|
731 |
+
# Source : blackary, https://discuss.streamlit.io/t/st-code-on-multiple-lines/50511/8
|
732 |
with stylable_container(
|
733 |
"codeblock",
|
734 |
"""
|