Spaces:

randomblock1
/

phi-2

Sleeping

Benjamin Gonzalez commited on Dec 14, 2023

Commit

fb38431

1 Parent(s): def73e8

flash attention is not possible

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,8 +1,9 @@
 from transformers import AutoTokenizer, AutoModelForCausalLM
 import gradio as gr
 tokenizer = AutoTokenizer.from_pretrained("microsoft/phi-2", trust_remote_code=True)
-model = AutoModelForCausalLM.from_pretrained("microsoft/phi-2", torch_dtype="auto", flash_attn=True, flash_rotary=True, fused_dense=True, device_map="cuda", trust_remote_code=True)
 def generate(prompt, length):
     inputs = tokenizer(prompt, return_tensors="pt", return_attention_mask=False)

+import torch
 from transformers import AutoTokenizer, AutoModelForCausalLM
 import gradio as gr
 tokenizer = AutoTokenizer.from_pretrained("microsoft/phi-2", trust_remote_code=True)
+model = AutoModelForCausalLM.from_pretrained("microsoft/phi-2", torch_dtype="auto", device_map="cuda", trust_remote_code=True)
 def generate(prompt, length):
     inputs = tokenizer(prompt, return_tensors="pt", return_attention_mask=False)