sarashina2.1-1b-sft-CPU

Running

aixsatoshi commited on Sep 25

Commit

405aa63

•

1 Parent(s): 58e53d1

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,18 +1,18 @@
 import subprocess
 subprocess.run('pip install flash-attn --no-build-isolation', env={'FLASH_ATTENTION_SKIP_CUDA_BUILD': "TRUE"}, shell=True)
-import spaces
 import torch
 from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer
 import gradio as gr
 from threading import Thread
-model_id = "sudy-super/Yamase-12B"
 tokenizer = AutoTokenizer.from_pretrained(model_id)
 model = AutoModelForCausalLM.from_pretrained(
   model_id,
-  torch_dtype=torch.float16,
-  device_map="auto",
-  use_flash_attention_2=True,
 )
 TITLE = "<h1><center>sudy-super/Yamase-12B Chat webui</center></h1>"
@@ -42,7 +42,7 @@ h3 {
 }
 """
-@spaces.GPU(duration=120)
 def stream_chat(message: str, history: list, temperature: float, max_new_tokens: int, top_p: float, top_k: int, penalty: float):
     print(f'Message: {message}')
     print(f'History: {history}')
@@ -65,7 +65,7 @@ def stream_chat(message: str, history: list, temperature: float, max_new_tokens:
         max_new_tokens=max_new_tokens,
         do_sample=True,
         temperature=temperature,
-        eos_token_id=[2],
     )
     thread = Thread(target=model.generate, kwargs=generate_kwargs)

 import subprocess
 subprocess.run('pip install flash-attn --no-build-isolation', env={'FLASH_ATTENTION_SKIP_CUDA_BUILD': "TRUE"}, shell=True)
+#import spaces
 import torch
 from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer
 import gradio as gr
 from threading import Thread
+model_id = "llm-jp/llm-jp-3-1.8b-instruct"
 tokenizer = AutoTokenizer.from_pretrained(model_id)
 model = AutoModelForCausalLM.from_pretrained(
   model_id,
+  #torch_dtype=torch.float16,
+  device_map="cpu",
+  #use_flash_attention_2=True,
 )
 TITLE = "<h1><center>sudy-super/Yamase-12B Chat webui</center></h1>"
 }
 """
+#@spaces.GPU(duration=120)
 def stream_chat(message: str, history: list, temperature: float, max_new_tokens: int, top_p: float, top_k: int, penalty: float):
     print(f'Message: {message}')
     print(f'History: {history}')
         max_new_tokens=max_new_tokens,
         do_sample=True,
         temperature=temperature,
+        #eos_token_id=[2],
     )
     thread = Thread(target=model.generate, kwargs=generate_kwargs)