Spaces:

flax-community
/

image-captioning

Runtime error

App Files Files Community

ydshieh commited on Oct 22, 2021

Commit

6f0178d

•

1 Parent(s): 5dfe197

update UI and samples

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

app.py +31 -26
model.py +14 -4
samples/COCO_val2014_000000581632.jpg +0 -0
samples/COCO_val2014_000000581683.jpg +0 -0
samples/COCO_val2014_000000581702.jpg +0 -0
samples/COCO_val2014_000000581717.jpg +0 -0
samples/COCO_val2014_000000581726.jpg +0 -0
samples/COCO_val2014_000000581736.jpg +0 -0
samples/COCO_val2014_000000581781.jpg +0 -0
samples/COCO_val2014_000000581827.jpg +0 -0
samples/COCO_val2014_000000581829.jpg +0 -0
samples/COCO_val2014_000000581863.jpg +0 -0
samples/COCO_val2014_000000581899.jpg +0 -0
samples/COCO_val2017_000000006771.jpg +0 -0
samples/COCO_val2017_000000021903.jpg +0 -0
samples/COCO_val2017_000000030213.jpg +0 -0
samples/COCO_val2017_000000039956.jpg +0 -0
samples/COCO_val2017_000000045472.jpg +0 -0
samples/COCO_val2017_000000053505.jpg +0 -0
samples/COCO_val2017_000000057597.jpg +0 -0
samples/COCO_val2017_000000059386.jpg +0 -0
samples/COCO_val2017_000000067406.jpg +0 -0
samples/COCO_val2017_000000069795.jpg +0 -0
samples/COCO_val2017_000000084431.jpg +0 -0
samples/COCO_val2017_000000088432.jpg +0 -0
samples/COCO_val2017_000000100238.jpg +0 -0
samples/COCO_val2017_000000104619.jpg +0 -0
samples/COCO_val2017_000000104803.jpg +0 -0
samples/COCO_val2017_000000124442.jpg +0 -0
samples/COCO_val2017_000000125936.jpg +0 -0
samples/COCO_val2017_000000132703.jpg +0 -0
samples/COCO_val2017_000000146155.jpg +0 -0
samples/COCO_val2017_000000149770.jpg +0 -0
samples/COCO_val2017_000000152120.jpg +0 -0
samples/COCO_val2017_000000154431.jpg +0 -0
samples/COCO_val2017_000000161609.jpg +0 -0
samples/COCO_val2017_000000163258.jpg +0 -0
samples/COCO_val2017_000000168593.jpg +0 -0
samples/COCO_val2017_000000170116.jpg +0 -0
samples/COCO_val2017_000000172330.jpg +0 -0
samples/COCO_val2017_000000173371.jpg +0 -0
samples/COCO_val2017_000000175535.jpg +0 -0
samples/COCO_val2017_000000178469.jpg +0 -0
samples/COCO_val2017_000000180188.jpg +0 -0
samples/COCO_val2017_000000180296.jpg +0 -0
samples/COCO_val2017_000000181969.jpg +0 -0
samples/COCO_val2017_000000190676.jpg +0 -0
samples/COCO_val2017_000000199055.jpg +0 -0
samples/COCO_val2017_000000204186.jpg +0 -0
samples/COCO_val2017_000000213547.jpg +0 -0

app.py CHANGED Viewed

@@ -1,4 +1,5 @@
 import streamlit as st
 # Designing the interface
@@ -7,56 +8,60 @@ st.write("[Yih-Dar SHIEH](https://huggingface.co/ydshieh)")
 st.sidebar.markdown(
     """
-    An image captioning model [ViT-GPT2](https://huggingface.co/flax-community/vit-gpt2) by combining the ViT model with the GPT2 model.
-    [Part of the [Huggingface JAX/Flax event](https://discuss.huggingface.co/t/open-to-the-community-community-week-using-jax-flax-for-nlp-cv/).]\n
-    The encoder (ViT) and decoder (GPT2) are combined using Hugging Face transformers' `FlaxVisionEncoderDecoderModel`.
     The pretrained weights of both models are loaded, with a set of randomly initialized cross-attention weights.
     The model is trained on the COCO 2017 dataset for about 6900 steps (batch_size=256).
     """
 )
-#image = Image.open('samples/val_000000039769.jpg')
-#show = st.image(image, use_column_width=True)
-#show.image(image, 'Preloaded Image', use_column_width=True)
 with st.spinner('Loading and compiling ViT-GPT2 model ...'):
     from model import *
-    # st.sidebar.write(f'Vit-GPT2 model loaded :)')
-st.sidebar.title("Select a sample image")
-sample_name = st.sidebar.selectbox(
-    "Please choose an image",
-    sample_fns
 )
-sample_name = f"COCO_val2014_{sample_name.replace('.jpg', '').zfill(12)}.jpg"
 sample_path = os.path.join(sample_dir, sample_name)
-image = Image.open(sample_path)
-show = st.image(image, width=480)
-show.image(image, '\n\nSelected Image', width=480)
 # For newline
 st.sidebar.write('\n')
 with st.spinner('Generating image caption ...'):
     caption = predict(image)
     caption_en = caption
-    st.header(f'**Prediction (in English)**: {caption_en}')
-    # caption_en = translator.translate(caption, src='fr', dest='en').text
-    # st.header(f'**Prediction (in French) **{caption}')
-    # st.header(f'**English Translation**: {caption_en}')
 st.sidebar.header("ViT-GPT2 predicts:")
 st.sidebar.write(f"**English**: {caption}")
 image.close()

 import streamlit as st
+import requests
 # Designing the interface
 st.sidebar.markdown(
     """
+    An image captioning model by combining ViT model with GPT2 model.
+    The encoder (ViT) and decoder (GPT2) are combined using Hugging Face transformers' [Vision-To-Text Encoder-Decoder
+    framework](https://huggingface.co/transformers/master/model_doc/visionencoderdecoder.html).
     The pretrained weights of both models are loaded, with a set of randomly initialized cross-attention weights.
     The model is trained on the COCO 2017 dataset for about 6900 steps (batch_size=256).
+    [Follow-up work of [Huggingface JAX/Flax event](https://discuss.huggingface.co/t/open-to-the-community-community-week-using-jax-flax-for-nlp-cv/).]\n
     """
 )
 with st.spinner('Loading and compiling ViT-GPT2 model ...'):
     from model import *
+st.sidebar.title("Select a sample image")
+image_id = st.sidebar.selectbox(
+    "Please choose a sample image",
+    sample_image_ids
 )
+random_image_id = None
+if st.sidebar.button("Random COCO 2017 (val) images"):
+    random_image_id = get_random_image_id()
+if random_image_id is not None:
+    image_id = random_image_id
+st.write(image_id)
+sample_name = f"COCO_val2017_{str(image_id).zfill(12)}.jpg"
 sample_path = os.path.join(sample_dir, sample_name)
+if os.path.isfile(sample_path):
+    image = Image.open(sample_path)
+else:
+    url = f"http://images.cocodataset.org/val2017/{str(image_id).zfill(12)}.jpg"
+    image = Image.open(requests.get(url, stream=True).raw)
+resized = image.resize(size=(384, 384))
+show = st.image(resized, width=384)
+show.image(resized, '\n\nSelected Image', width=384)
+resized.close()
 # For newline
 st.sidebar.write('\n')
 with st.spinner('Generating image caption ...'):
     caption = predict(image)
     caption_en = caption
+    st.header(f'Predicted caption:\n\n')
+    st.subheader(caption_en)
 st.sidebar.header("ViT-GPT2 predicts:")
 st.sidebar.write(f"**English**: {caption}")
 image.close()

model.py CHANGED Viewed

@@ -1,12 +1,13 @@
 import os, shutil
 from PIL import Image
 import jax
 from transformers import FlaxVisionEncoderDecoderModel, ViTFeatureExtractor, AutoTokenizer
 from huggingface_hub import hf_hub_download
-from googletrans import Translator
-translator = Translator()
 # create target model directory
 model_dir = './models/'
@@ -65,4 +66,13 @@ _compile()
 sample_dir = './samples/'
-sample_fns = tuple([f"{int(f.replace('COCO_val2014_', '').replace('.jpg', ''))}.jpg" for f in os.listdir(sample_dir) if f.startswith('COCO_val2014_')])

+import json
 import os, shutil
+import random
 from PIL import Image
 import jax
 from transformers import FlaxVisionEncoderDecoderModel, ViTFeatureExtractor, AutoTokenizer
 from huggingface_hub import hf_hub_download
 # create target model directory
 model_dir = './models/'
 sample_dir = './samples/'
+sample_image_ids = tuple([int(f.replace('COCO_val2017_', '').replace('.jpg', '')) for f in os.listdir(sample_dir) if f.startswith('COCO_val2017_')])
+with open(os.path.join(sample_dir, "coco-val2017-img-ids.json"), "r", encoding="UTF-8") as fp:
+    coco_2017_val_image_ids = json.load(fp)
+def get_random_image_id():
+    image_id = random.sample(coco_2017_val_image_ids, k=1)[0]
+    return image_id

samples/COCO_val2014_000000581632.jpg DELETED Viewed

Binary file (212 kB)

samples/COCO_val2014_000000581683.jpg DELETED Viewed

Binary file (231 kB)

samples/COCO_val2014_000000581702.jpg DELETED Viewed

Binary file (214 kB)

samples/COCO_val2014_000000581717.jpg DELETED Viewed

Binary file (155 kB)

samples/COCO_val2014_000000581726.jpg DELETED Viewed

Binary file (238 kB)

samples/COCO_val2014_000000581736.jpg DELETED Viewed

Binary file (180 kB)

samples/COCO_val2014_000000581781.jpg DELETED Viewed

Binary file (246 kB)

samples/COCO_val2014_000000581827.jpg DELETED Viewed

Binary file (297 kB)

samples/COCO_val2014_000000581829.jpg DELETED Viewed

Binary file (226 kB)

samples/COCO_val2014_000000581863.jpg DELETED Viewed

Binary file (196 kB)

samples/COCO_val2014_000000581899.jpg DELETED Viewed

Binary file (218 kB)

samples/COCO_val2017_000000006771.jpg ADDED Viewed

samples/COCO_val2017_000000021903.jpg ADDED Viewed

samples/COCO_val2017_000000030213.jpg ADDED Viewed

samples/COCO_val2017_000000039956.jpg ADDED Viewed

samples/COCO_val2017_000000045472.jpg ADDED Viewed

samples/COCO_val2017_000000053505.jpg ADDED Viewed

samples/COCO_val2017_000000057597.jpg ADDED Viewed

samples/COCO_val2017_000000059386.jpg ADDED Viewed

samples/COCO_val2017_000000067406.jpg ADDED Viewed

samples/COCO_val2017_000000069795.jpg ADDED Viewed

samples/COCO_val2017_000000084431.jpg ADDED Viewed

samples/COCO_val2017_000000088432.jpg ADDED Viewed

samples/COCO_val2017_000000100238.jpg ADDED Viewed

samples/COCO_val2017_000000104619.jpg ADDED Viewed

samples/COCO_val2017_000000104803.jpg ADDED Viewed

samples/COCO_val2017_000000124442.jpg ADDED Viewed

samples/COCO_val2017_000000125936.jpg ADDED Viewed

samples/COCO_val2017_000000132703.jpg ADDED Viewed

samples/COCO_val2017_000000146155.jpg ADDED Viewed

samples/COCO_val2017_000000149770.jpg ADDED Viewed

samples/COCO_val2017_000000152120.jpg ADDED Viewed

samples/COCO_val2017_000000154431.jpg ADDED Viewed

samples/COCO_val2017_000000161609.jpg ADDED Viewed

samples/COCO_val2017_000000163258.jpg ADDED Viewed

samples/COCO_val2017_000000168593.jpg ADDED Viewed

samples/COCO_val2017_000000170116.jpg ADDED Viewed

samples/COCO_val2017_000000172330.jpg ADDED Viewed

samples/COCO_val2017_000000173371.jpg ADDED Viewed

samples/COCO_val2017_000000175535.jpg ADDED Viewed

samples/COCO_val2017_000000178469.jpg ADDED Viewed

samples/COCO_val2017_000000180188.jpg ADDED Viewed

samples/COCO_val2017_000000180296.jpg ADDED Viewed

samples/COCO_val2017_000000181969.jpg ADDED Viewed

samples/COCO_val2017_000000190676.jpg ADDED Viewed

samples/COCO_val2017_000000199055.jpg ADDED Viewed

samples/COCO_val2017_000000204186.jpg ADDED Viewed

samples/COCO_val2017_000000213547.jpg ADDED Viewed