moondream2-batch-processing

Running on Zero

vikhyatk commited on Apr 2

Commit

44f58e0

•

1 Parent(s): bac7d5d

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -6,9 +6,6 @@ import gradio as gr
 from threading import Thread
 from transformers import TextIteratorStreamer, AutoTokenizer, AutoModelForCausalLM
-import subprocess
-subprocess.run('pip install flash-attn --no-build-isolation', env={'FLASH_ATTENTION_SKIP_CUDA_BUILD': "TRUE"}, shell=True)
 parser = argparse.ArgumentParser()
 model_id = "vikhyatk/moondream2"
@@ -16,7 +13,7 @@ revision = "2024-04-02"
 tokenizer = AutoTokenizer.from_pretrained(model_id, revision=revision)
 moondream = AutoModelForCausalLM.from_pretrained(
     model_id, trust_remote_code=True, revision=revision,
-    attn_implementation="flash_attention_2", torch_dtype=torch.float16
 )
 moondream.eval()

 from threading import Thread
 from transformers import TextIteratorStreamer, AutoTokenizer, AutoModelForCausalLM
 parser = argparse.ArgumentParser()
 model_id = "vikhyatk/moondream2"
 tokenizer = AutoTokenizer.from_pretrained(model_id, revision=revision)
 moondream = AutoModelForCausalLM.from_pretrained(
     model_id, trust_remote_code=True, revision=revision,
+    torch_dtype=torch.float32
 )
 moondream.eval()