a-menu commited on
Commit
1cc581b
1 Parent(s): 659fe57
Files changed (1) hide show
  1. app.py +19 -4
app.py CHANGED
@@ -10,15 +10,21 @@ from streamlit_extras.stylable_container import stylable_container
10
  import subprocess
11
 
12
 
 
 
 
 
 
13
  # ===== SOME SETTING UP =====
14
 
15
  # Setting up the app's page
16
- st.set_page_config(page_title="ARCHES | Visualisation & extraction", page_icon="🏺")
17
 
18
  # Path to the statics directory
19
  statics = "./static"
20
 
21
  # Making the radio widgets' titles bigger
 
22
  st.markdown(
23
  """<style>
24
  div[class*="stRadio"] > label > div[data-testid="stMarkdownContainer"] > p {
@@ -28,6 +34,7 @@ div[class*="stRadio"] > label > div[data-testid="stMarkdownContainer"] > p {
28
  """, unsafe_allow_html=True)
29
 
30
  # Hiding the possibility to display pictures fullscreen
 
31
  st.markdown(
32
  """<style>
33
  button[title="View fullscreen"]{
@@ -83,10 +90,17 @@ st.sidebar.markdown("Avec ses 2200 collaborateurs, l’[Inrap](https://www.inrap
83
 
84
  st.sidebar.markdown("Financé avec le soutien du [Fonds National pour la Science Ouverte](https://www.ouvrirlascience.fr/accueil/) et réalisé en collaboration avec l’infrastructure de recherche [Métopes](http://www.metopes.fr/) ([Université de Caen Normandie](https://www.unicaen.fr/) - [CNRS](https://www.cnrs.fr/fr)), [ARCHES](https://www.inrap.fr/arches-etude-composition-et-processus-pour-une-edition-structuree-des-rapports-d-17145) vise à explorer l’amélioration de la diffusion et de l’exploitation des rapports d’opération à l’aide du format de balisage XML-TEI, permettant d’encoder tant la structuration formelle que le contenu sémantique d’un document. Dans cette optique, vingt-et-un rapports de fouilles de l’Inrap ont été annotés pour entraîner un modèle de reconnaissance des entités nommées (représentant plus de 80 000 entités annotées). Cette application vise à tester la manipulation du modèle, tant avec des fichiers XML que texte brut.")
85
 
 
 
86
  st.sidebar.write("")
87
 
88
- st.sidebar.header("Partenaires")
89
 
 
 
 
 
 
90
  # Display logos
91
  col1, col2, col3 = st.sidebar.columns(3)
92
  col1.image(f"{statics}/logo_inrap.png", width=100)
@@ -150,7 +164,7 @@ def load_ner():
150
  :returns: loaded fr_arches model
151
  :rtype: spacy.lang.fr.French
152
  """
153
-
154
  ner = spacy.load("fr_arches")
155
  # To try to reduce memory usage
156
  config = {"attrs": {"tensor": None}}
@@ -679,7 +693,7 @@ def main():
679
  st.write("")
680
  with st.expander("Au sujet du mapping XML des entités nommées"):
681
  st.markdown(
682
- "**Les entités nommées ont été converties comme suit :** \n\n- **CHRONOLOGIE :** ```<date>``` \n- **MOBILIER :** ```<objectType>``` \n- **STRUCTURE :** ```<name type=\"structure\">``` \n- **MATERIAU :** ```<material>``` \n- **ID :** ```<idno type=\"entite\">``` \n- **TECHNIQUE_STYLE :** ```<name type=\"technique_style\">``` \n- **DECOR :** ```<name type=\"decor\">``` \n- **ESPECE :** ```<name type=\"espece\">``` \n- **EDIFICE :** ```<placeName type=\"edifice\">``` \n- **PEUPLE_CULTURE :** ```<orgName type=\"peuple_culture\">``` \n- **PERSONNE :** ```<persName>``` \n- **ORG :** ```<orgName>``` \n- **GPE :** ```<placeName>``` \n- **LOC :** ```<geogName>``` \n- **LIEUDIT_SITE :** ```<placeName type=\"lieudit_site\">```")
683
  st.write("")
684
  st.write("")
685
 
@@ -714,6 +728,7 @@ def main():
714
  # Display the modified XML
715
  with st.expander("Contenu XML modifié"):
716
  # Wrap the code
 
717
  with stylable_container(
718
  "codeblock",
719
  """
 
10
  import subprocess
11
 
12
 
13
+ # This app was initially inspired by Lucas Terriel's NER4Archives Visualizer App (2022-2023), https://huggingface.co/spaces/ner4archives/ner4archives-NEL-vizualizer-app/tree/main
14
+ # Check out the NER4Archives project (INRIA-ALMAnaCH/Archives nationales) : https://github.com/NER4Archives-project
15
+
16
+
17
+
18
  # ===== SOME SETTING UP =====
19
 
20
  # Setting up the app's page
21
+ st.set_page_config(page_title="Arches Demo", page_icon="🏺")
22
 
23
  # Path to the statics directory
24
  statics = "./static"
25
 
26
  # Making the radio widgets' titles bigger
27
+ # Source : arnaud, https://discuss.streamlit.io/t/how-to-change-font-size-of-streamlit-radio-widget-title/35945/2
28
  st.markdown(
29
  """<style>
30
  div[class*="stRadio"] > label > div[data-testid="stMarkdownContainer"] > p {
 
34
  """, unsafe_allow_html=True)
35
 
36
  # Hiding the possibility to display pictures fullscreen
37
+ # Source : AvratanuBiswas, https://discuss.streamlit.io/t/hide-fullscreen-option-when-displaying-images-using-st-image/19792/2
38
  st.markdown(
39
  """<style>
40
  button[title="View fullscreen"]{
 
90
 
91
  st.sidebar.markdown("Financé avec le soutien du [Fonds National pour la Science Ouverte](https://www.ouvrirlascience.fr/accueil/) et réalisé en collaboration avec l’infrastructure de recherche [Métopes](http://www.metopes.fr/) ([Université de Caen Normandie](https://www.unicaen.fr/) - [CNRS](https://www.cnrs.fr/fr)), [ARCHES](https://www.inrap.fr/arches-etude-composition-et-processus-pour-une-edition-structuree-des-rapports-d-17145) vise à explorer l’amélioration de la diffusion et de l’exploitation des rapports d’opération à l’aide du format de balisage XML-TEI, permettant d’encoder tant la structuration formelle que le contenu sémantique d’un document. Dans cette optique, vingt-et-un rapports de fouilles de l’Inrap ont été annotés pour entraîner un modèle de reconnaissance des entités nommées (représentant plus de 80 000 entités annotées). Cette application vise à tester la manipulation du modèle, tant avec des fichiers XML que texte brut.")
92
 
93
+ st.sidebar.markdown("Le corpus a été annoté à l'aide d'[INCEpTION](https://inception-project.github.io/), tandis que les modèles de [segmentation](https://huggingface.co/a-menu/fr_arches_sentencizer) et de [reconnaissance des entités nommées](https://huggingface.co/a-menu/fr_arches) ont été entraînés et évalués avec [spaCy](https://spacy.io/). Les modalités de [citation](https://huggingface.co/spaces/a-menu/arches_demo/blob/main/CITATION.cff) de l'application peuvent être retrouvées dans le [dépôt](https://huggingface.co/spaces/a-menu/arches_demo/tree/main) de celle-ci.")
94
+
95
  st.sidebar.write("")
96
 
97
+ st.sidebar.markdown("*ARCHES (Inrap), janvier 2024*")
98
 
99
+ st.sidebar.write("")
100
+ st.sidebar.write("")
101
+
102
+ st.sidebar.header("Partenaires")
103
+ st.sidebar.write("")
104
  # Display logos
105
  col1, col2, col3 = st.sidebar.columns(3)
106
  col1.image(f"{statics}/logo_inrap.png", width=100)
 
164
  :returns: loaded fr_arches model
165
  :rtype: spacy.lang.fr.French
166
  """
167
+
168
  ner = spacy.load("fr_arches")
169
  # To try to reduce memory usage
170
  config = {"attrs": {"tensor": None}}
 
693
  st.write("")
694
  with st.expander("Au sujet du mapping XML des entités nommées"):
695
  st.markdown(
696
+ "**Les entités nommées ont été converties comme suit :** \n\n- **CHRONOLOGIE :** ```<date>``` \n- **MOBILIER :** ```<objectType>``` \n- **STRUCTURE :** ```<name type=\"structure\">``` \n- **MATERIAU :** ```<material>``` \n- **ID :** ```<idno type=\"entite\">``` \n- **TECHNIQUE_STYLE :** ```<name type=\"technique_style\">``` \n- **DECOR :** ```<name type=\"decor\">``` \n- **ESPECE :** ```<name type=\"espece\">``` \n- **EDIFICE :** ```<placeName type=\"edifice\">``` \n- **PEUPLE_CULTURE :** ```<orgName type=\"peuple_culture\">``` \n- **PERSONNE :** ```<persName>``` \n- **ORG :** ```<orgName>``` \n- **GPE :** ```<placeName>``` \n- **LOC :** ```<geogName>``` \n- **LIEUDIT_SITE :** ```<placeName type=\"lieudit_site\">```\n- **Entité inconnue :** ```<name type=\"generique\">```")
697
  st.write("")
698
  st.write("")
699
 
 
728
  # Display the modified XML
729
  with st.expander("Contenu XML modifié"):
730
  # Wrap the code
731
+ # Source : blackary, https://discuss.streamlit.io/t/st-code-on-multiple-lines/50511/8
732
  with stylable_container(
733
  "codeblock",
734
  """