Spaces:

merve
/

vision_papers

Runtime error

App Files Files Community

lbourdois commited on 26 days ago

Commit

70e4469

•

1 Parent(s): 1fe2f91

Upload 8 files

Browse files

Files changed (9) hide show

.gitattributes +2 -0
pages/30_GOT.py +2 -2
pages/31_Aria.py +187 -0
pages/Aria/image_0.png +3 -0
pages/Aria/image_1.png +0 -0
pages/Aria/image_2.png +3 -0
pages/Aria/image_3.png +0 -0
pages/Aria/image_4.png +0 -0
pages/Aria/video_1.mp4 +0 -0

.gitattributes CHANGED Viewed

@@ -37,3 +37,5 @@ pages/4M-21/video_1.mp4 filter=lfs diff=lfs merge=lfs -text
 pages/Depth[[:space:]]Anything/video_1.mp4 filter=lfs diff=lfs merge=lfs -text
 pages/RT-DETR/video_1.mp4 filter=lfs diff=lfs merge=lfs -text
 pages/KOSMOS-2/video_1.mp4 filter=lfs diff=lfs merge=lfs -text

 pages/Depth[[:space:]]Anything/video_1.mp4 filter=lfs diff=lfs merge=lfs -text
 pages/RT-DETR/video_1.mp4 filter=lfs diff=lfs merge=lfs -text
 pages/KOSMOS-2/video_1.mp4 filter=lfs diff=lfs merge=lfs -text
+pages/Aria/image_0.png filter=lfs diff=lfs merge=lfs -text
+pages/Aria/image_2.png filter=lfs diff=lfs merge=lfs -text

pages/30_GOT.py CHANGED Viewed

@@ -189,7 +189,7 @@ with col2:
 with col3:
     if lang == "en":
         if st.button("Next paper", use_container_width=True):
-            switch_page("Home")
     else:
         if st.button("Papier suivant", use_container_width=True):
-            switch_page("Home")

 with col3:
     if lang == "en":
         if st.button("Next paper", use_container_width=True):
+            switch_page("Aria")
     else:
         if st.button("Papier suivant", use_container_width=True):
+            switch_page("Aria")

pages/31_Aria.py ADDED Viewed

	@@ -0,0 +1,187 @@

+import streamlit as st
+from streamlit_extras.switch_page_button import switch_page
+translations = {
+'en': {'title': 'Aria',
+    'original_tweet':
+       """
+       [Original tweet](https://x.com/mervenoyann/status/1844356121370427546) (October 10, 2024)
+       """,
+    'tweet_1':
+        """
+	This is the BEST vision language model I have ever tried!
+	<br>
+	Aria is a new model by @rhymes_ai_ : a 25.3B multimodal model that can take image/video inputs 🤩
+	<br>
+	They release the model with Apache-2.0 license and fine-tuning scripts as well 👏
+	I tested it extensively, keep reading to learn more 🧶
+        """,
+    'tweet_2':
+        """
+	The model is open-sourced [here](huggingface.co/rhymes-ai/Aria)
+	<br>
+	The authors have released fine-tuning examples on RefCOCO, NextQA and NLVR and [inference examples](github.com/rhymes-ai/Aria)
+	<br>
+	Try the demo [here](rhymes.ai)
+	<br>
+	It's super nice that you can get started with this model using 🤗 Transformers.
+        """,
+    'tweet_3':
+        """
+	I saw on the paper that it can debug screenshot of code??? 🤯
+	So I tried it on piece of code that calculates KL-div and it understood very well!
+	""",
+    'tweet_4':
+        """
+	The model has very impressive OCR capabilities even with the bad handwriting  📝
+	 """,
+    'tweet_5':
+        """
+	Real world knowledge ⇓
+	""",
+    'ressources':
+        """
+        Ressources:
+        [Aria: An Open Multimodal Native Mixture-of-Experts Model](https://arxiv.org/abs/2410.05993)
+        by Dongxu Li, Yudong Liu, Haoning Wu, Yue Wang, Zhiqi Shen, Bowen Qu, Xinyao Niu, Guoyin Wang, Bei Chen, Junnan Li (2024)
+        [GitHub](https://github.com/rhymes-ai/Aria)
+        [Model](https://huggingface.co/rhymes-ai/Aria)
+        """
+      },
+'fr': {
+    'title': 'Aria',
+    'original_tweet':
+       """
+       [Tweet de base](https://x.com/mervenoyann/status/1844356121370427546) (en anglais) (10 ocotbre 2024)
+       """,
+    'tweet_1':
+        """
+	C'est le MEILLEUR modèle de langage-vision que j'ai jamais essayé !
+	<br>
+	Aria est un nouveau modèle de @rhymes_ai_ : de 25,3Mds paramètres ce un modèle multimodal peut prendre des images et des vidéos en entrée 🤩
+	<br>
+	Ils publient le modèle avec une licence Apache-2.0 et des scripts fine-tuning 👏
+	Je l'ai testé en profondeur, continuez à lire pour en savoir plus 🧶
+        """,
+    'tweet_2':
+        """
+	Le modèle est en libre accès [ici](huggingface.co/rhymes-ai/Aria)
+	<br>
+	Les auteurs ont publié des exemples de finetuning sur RefCOCO, NextQA et NLVR et des [exemples d'inférence](github.com/rhymes-ai/Aria).
+	<br>
+	Essayez la démo [ici](rhymes.ai)
+	<br>
+	C'est super sympa de pouvoir utiliser avec ce modèle en utilisant 🤗 Transformers
+        """,
+    'tweet_3':
+        """
+	J'ai vu sur le papier qu'il pouvait déboguer des captures d'écran de code ? ??? 🤯
+	J'ai donc essayé sur un bout de code qui calcule la divergence de Kullback-Leibler et il a très bien compris !
+	""",
+    'tweet_4':
+        """
+	Le modèle possède des capacités d'OCR très impressionnantes, même avec une mauvaise écriture.  📝
+	""",
+    'tweet_5':
+        """
+	Connaissance du monde réel ⇓
+	""",
+    'ressources':
+        """
+        Ressources :
+        [Aria: An Open Multimodal Native Mixture-of-Experts Model](https://arxiv.org/abs/2410.05993)
+        de Dongxu Li, Yudong Liu, Haoning Wu, Yue Wang, Zhiqi Shen, Bowen Qu, Xinyao Niu, Guoyin Wang, Bei Chen, Junnan Li (2024)
+        [GitHub](https://github.com/rhymes-ai/Aria)
+        [Model](https://huggingface.co/rhymes-ai/Aria)
+        """
+    }
+}
+def language_selector():
+    languages = {'EN': '🇬🇧', 'FR': '🇫🇷'}
+    selected_lang = st.selectbox('', options=list(languages.keys()), format_func=lambda x: languages[x], key='lang_selector')
+    return 'en' if selected_lang == 'EN' else 'fr'
+left_column, right_column = st.columns([5, 1])
+# Add a selector to the right column
+with right_column:
+    lang = language_selector()
+# Add a title to the left column
+with left_column:
+    st.title(translations[lang]["title"])
+st.success(translations[lang]["original_tweet"], icon="ℹ️")
+st.markdown(""" """)
+st.markdown(translations[lang]["tweet_1"], unsafe_allow_html=True)
+st.markdown(""" """)
+st.video("pages/Aria/video_1.mp4", format="video/mp4")
+st.markdown(""" """)
+st.markdown(translations[lang]["tweet_2"], unsafe_allow_html=True)
+st.markdown(""" """)
+st.image("pages/Aria/image_0.png", use_column_width=True)
+st.markdown(""" """)
+with st.expander ("Code"):
+    st.code("""
+	from transformers import AutoModelForCausalLM, AutoProcessor
+	model_id_or_path = "rhymes-ai/Aria"
+	model = AutoModelForCausalLM.from_pretrained(model_id_or_path, device_map="auto", torch_dtype=torch.bfloat16, trust_remote_code=True)
+	processor = AutoProcessor.from_pretrained(model_id_or_path, trust_remote_code=True)
+   	 """)
+st.markdown(""" """)
+st.markdown(translations[lang]["tweet_3"], unsafe_allow_html=True)
+st.markdown(""" """)
+st.image("pages/Aria/image_1.png", use_column_width=True)
+st.markdown(""" """)
+st.markdown(translations[lang]["tweet_4"], unsafe_allow_html=True)
+st.markdown(""" """)
+st.image("pages/Aria/image_2.png", use_column_width=True)
+st.image("pages/Aria/image_3.png", use_column_width=True)
+st.markdown(""" """)
+st.markdown(translations[lang]["tweet_5"], unsafe_allow_html=True)
+st.markdown(""" """)
+st.image("pages/Aria/image_4.png", use_column_width=True)
+st.markdown(""" """)
+st.info(translations[lang]["ressources"], icon="📚")
+st.markdown(""" """)
+st.markdown(""" """)
+st.markdown(""" """)
+col1, col2, col3= st.columns(3)
+with col1:
+    if lang == "en":
+        if st.button('Previous paper', use_container_width=True):
+            switch_page("GOT")
+    else:
+        if st.button('Papier précédent', use_container_width=True):
+            switch_page("GOT")
+with col2:
+    if lang == "en":
+        if st.button("Home", use_container_width=True):
+            switch_page("Home")
+    else:
+        if st.button("Accueil", use_container_width=True):
+            switch_page("Home")
+with col3:
+    if lang == "en":
+        if st.button("Next paper", use_container_width=True):
+            switch_page("Home")
+    else:
+        if st.button("Papier suivant", use_container_width=True):
+            switch_page("Home")

pages/Aria/image_0.png ADDED Viewed

Git LFS Details

SHA256: 6f3bfcaac960618859d998466ae695d3dab3ee8b51a8f5d188cc247e099b3bff
Pointer size: 132 Bytes
Size of remote file: 1.61 MB

pages/Aria/image_1.png ADDED Viewed

pages/Aria/image_2.png ADDED Viewed

Git LFS Details

SHA256: d6a49f0b152b3785861be507da6ae95ca9872e727c1cd907fd061f7356bb2145
Pointer size: 133 Bytes
Size of remote file: 16.9 MB

pages/Aria/image_3.png ADDED Viewed

pages/Aria/image_4.png ADDED Viewed

pages/Aria/video_1.mp4 ADDED Viewed

Binary file (655 kB). View file