COLIPIC.AIv2.5

Running

App Files Files Community

SkalskiP commited on Dec 15, 2023

Commit

d21820e

•

1 Parent(s): ea30afb

Input image rescaling added

Browse files

Files changed (1) hide show

app.py +14 -14

app.py CHANGED Viewed

@@ -8,6 +8,8 @@ from PIL import Image
 print("google-generativeai:", genai.__version__)
 TITLE = """<h1 align="center">Gemini Playground 💬</h1>"""
 SUBTITLE = """<h2 align="center">Play with Gemini Pro and Gemini Pro Vision API</h2>"""
 DUPLICATE = """
@@ -20,13 +22,13 @@ DUPLICATE = """
     </span>
 </div>
 """
 AVATAR_IMAGES = (
     None,
     "https://media.roboflow.com/spaces/gemini-icon.png"
 )
-GOOGLE_API_KEY = os.environ.get("GOOGLE_API_KEY")
 def preprocess_stop_sequences(stop_sequences: str) -> Optional[List[str]]:
@@ -35,6 +37,11 @@ def preprocess_stop_sequences(stop_sequences: str) -> Optional[List[str]]:
     return [sequence.strip() for sequence in stop_sequences.split(",")]
 def user(text_prompt: str, chatbot: List[Tuple[str, str]]):
     return "", chatbot + [[text_prompt, None]]
@@ -42,7 +49,6 @@ def user(text_prompt: str, chatbot: List[Tuple[str, str]]):
 def bot(
     google_key: str,
     image_prompt: Optional[Image.Image],
-    image_prompt_2: Optional[Image.Image],
     temperature: float,
     max_output_tokens: int,
     stop_sequences: str,
@@ -65,7 +71,7 @@ def bot(
         top_k=top_k,
         top_p=top_p)
-    if image_prompt is None and image_prompt_2 is None:
         model = genai.GenerativeModel('gemini-pro')
         response = model.generate_content(
             text_prompt,
@@ -73,11 +79,10 @@ def bot(
             generation_config=generation_config)
         response.resolve()
     else:
-        contents = [text_prompt, image_prompt, image_prompt_2]
-        contents = [content for content in contents if content is not None]
         model = genai.GenerativeModel('gemini-pro-vision')
         response = model.generate_content(
-            contents=contents,
             stream=True,
             generation_config=generation_config)
         response.resolve()
@@ -101,8 +106,7 @@ google_key_component = gr.Textbox(
     visible=GOOGLE_API_KEY is None
 )
-image_prompt_component = gr.Image(type="pil", label="Image")
-image_prompt_2_component = gr.Image(type="pil", label="Image")
 chatbot_component = gr.Chatbot(
     label='Gemini',
     bubble_full_width=False,
@@ -180,7 +184,6 @@ user_inputs = [
 bot_inputs = [
     google_key_component,
     image_prompt_component,
-    image_prompt_2_component,
     temperature_component,
     max_output_tokens_component,
     stop_sequences_component,
@@ -196,10 +199,7 @@ with gr.Blocks() as demo:
     with gr.Column():
         google_key_component.render()
         with gr.Row():
-            with gr.Column(scale=1):
-                image_prompt_component.render()
-                with gr.Accordion("Multi Image", open=False):
-                    image_prompt_2_component.render()
             chatbot_component.render()
         text_prompt_component.render()
         run_button_component.render()

 print("google-generativeai:", genai.__version__)
+GOOGLE_API_KEY = os.environ.get("GOOGLE_API_KEY")
 TITLE = """<h1 align="center">Gemini Playground 💬</h1>"""
 SUBTITLE = """<h2 align="center">Play with Gemini Pro and Gemini Pro Vision API</h2>"""
 DUPLICATE = """
     </span>
 </div>
 """
 AVATAR_IMAGES = (
     None,
     "https://media.roboflow.com/spaces/gemini-icon.png"
 )
+IMAGE_WIDTH = 512
 def preprocess_stop_sequences(stop_sequences: str) -> Optional[List[str]]:
     return [sequence.strip() for sequence in stop_sequences.split(",")]
+def preprocess_image(image: Image.Image) -> Optional[Image.Image]:
+    image_height = int(image.height * IMAGE_WIDTH / image.width)
+    return image.resize((IMAGE_WIDTH, image_height))
 def user(text_prompt: str, chatbot: List[Tuple[str, str]]):
     return "", chatbot + [[text_prompt, None]]
 def bot(
     google_key: str,
     image_prompt: Optional[Image.Image],
     temperature: float,
     max_output_tokens: int,
     stop_sequences: str,
         top_k=top_k,
         top_p=top_p)
+    if image_prompt is None:
         model = genai.GenerativeModel('gemini-pro')
         response = model.generate_content(
             text_prompt,
             generation_config=generation_config)
         response.resolve()
     else:
+        image_prompt = preprocess_image(image_prompt)
         model = genai.GenerativeModel('gemini-pro-vision')
         response = model.generate_content(
+            contents=[text_prompt, image_prompt],
             stream=True,
             generation_config=generation_config)
         response.resolve()
     visible=GOOGLE_API_KEY is None
 )
+image_prompt_component = gr.Image(type="pil", label="Image", scale=1)
 chatbot_component = gr.Chatbot(
     label='Gemini',
     bubble_full_width=False,
 bot_inputs = [
     google_key_component,
     image_prompt_component,
     temperature_component,
     max_output_tokens_component,
     stop_sequences_component,
     with gr.Column():
         google_key_component.render()
         with gr.Row():
+            image_prompt_component.render()
             chatbot_component.render()
         text_prompt_component.render()
         run_button_component.render()