moondream2-batch-processing

Running on Zero

vikhyatk commited on Apr 2, 2024

Commit

60e7a28

verified ·

1 Parent(s): 6c78975

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -6,6 +6,9 @@ import gradio as gr
 from threading import Thread
 from transformers import TextIteratorStreamer, AutoTokenizer, AutoModelForCausalLM
 parser = argparse.ArgumentParser()
 if torch.cuda.is_available():
@@ -17,7 +20,8 @@ model_id = "vikhyatk/moondream2"
 revision = "2024-04-02"
 tokenizer = AutoTokenizer.from_pretrained(model_id, revision=revision)
 moondream = AutoModelForCausalLM.from_pretrained(
-    model_id, trust_remote_code=True, revision=revision
 ).to(device=device, dtype=dtype)
 moondream.eval()

 from threading import Thread
 from transformers import TextIteratorStreamer, AutoTokenizer, AutoModelForCausalLM
+import subprocess
+subprocess.run('pip install flash-attn --no-build-isolation', env={'FLASH_ATTENTION_SKIP_CUDA_BUILD': "TRUE"}, shell=True)
 parser = argparse.ArgumentParser()
 if torch.cuda.is_available():
 revision = "2024-04-02"
 tokenizer = AutoTokenizer.from_pretrained(model_id, revision=revision)
 moondream = AutoModelForCausalLM.from_pretrained(
+    model_id, trust_remote_code=True, revision=revision,
+    attn_implementation="flash_attention_2"
 ).to(device=device, dtype=dtype)
 moondream.eval()