moondream2

Paused

dwb2023 commited on May 10, 2024

Commit

99b770e

verified ·

1 Parent(s): 1bf5f66

Update app.py

update gpu to cpu

Files changed (1) hide show

app.py CHANGED Viewed

@@ -8,18 +8,19 @@ from transformers import TextIteratorStreamer, AutoTokenizer, AutoModelForCausal
 import subprocess
 subprocess.run('pip install flash-attn --no-build-isolation', env={'FLASH_ATTENTION_SKIP_CUDA_BUILD': "TRUE"}, shell=True)
 model_id = "vikhyatk/moondream2"
 revision = "2024-05-08"
 tokenizer = AutoTokenizer.from_pretrained(model_id, revision=revision)
 moondream = AutoModelForCausalLM.from_pretrained(
-    model_id, trust_remote_code=True, revision=revision,
-    torch_dtype=torch.bfloat16, device_map={"": "cuda"},
-    attn_implementation="flash_attention_2"
-)
 moondream.eval()
-@spaces.GPU(duration=10)
 def answer_question(img, prompt):
     image_embeds = moondream.encode_image(img)
     streamer = TextIteratorStreamer(tokenizer, skip_special_tokens=True)

 import subprocess
 subprocess.run('pip install flash-attn --no-build-isolation', env={'FLASH_ATTENTION_SKIP_CUDA_BUILD': "TRUE"}, shell=True)
+device = torch.device("cpu")
+dtype = torch.float32
 model_id = "vikhyatk/moondream2"
 revision = "2024-05-08"
 tokenizer = AutoTokenizer.from_pretrained(model_id, revision=revision)
 moondream = AutoModelForCausalLM.from_pretrained(
+    model_id, trust_remote_code=True, revision=revision
+).to(device=device, dtype=dtype)
 moondream.eval()
+@spaces.CPU(duration=10)
 def answer_question(img, prompt):
     image_embeds = moondream.encode_image(img)
     streamer = TextIteratorStreamer(tokenizer, skip_special_tokens=True)