Hermes-3-Llama-3.2-3B

Running on Zero

vilarin commited on 24 days ago

Commit

659ca36

•

1 Parent(s): 1c74333

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -48,6 +48,10 @@ model = AutoModelForCausalLM.from_pretrained(
     load_in_4bit=True,
     use_flash_attention_2=True)
 @spaces.GPU()
 def stream_chat(
     message: str,
@@ -83,7 +87,8 @@ def stream_chat(
         do_sample = False if temperature == 0 else True,
         top_p = top_p,
         top_k = top_k,
-        eos_token_id = 128039,
         temperature = temperature,
         repetition_penalty=penalty,
         streamer=streamer,

     load_in_4bit=True,
     use_flash_attention_2=True)
+# Ensure `pad_token_id` is set
+if tokenizer.pad_token_id is None:
+    tokenizer.pad_token_id = tokenizer.eos_token_id
 @spaces.GPU()
 def stream_chat(
     message: str,
         do_sample = False if temperature == 0 else True,
         top_p = top_p,
         top_k = top_k,
+        eos_token_id = tokenizer.eos_token_id,
+        pad_token_id = tokenizer.pad_token_id,
         temperature = temperature,
         repetition_penalty=penalty,
         streamer=streamer,