Spaces:

aleyfin
/

llm-juoksuta-test

Paused

aleyfin commited on Nov 30, 2023

Commit

affe825

•

1 Parent(s): 33debf2

fixes

Files changed (1) hide show

app.py CHANGED Viewed

@@ -5,8 +5,8 @@ from transformers import AutoTokenizer, AutoModelForCausalLM
 app = FastAPI()
-tokenizer = AutoTokenizer.from_pretrained("Intel/neural-chat-7b-v3-1")
-model = AutoModelForCausalLM.from_pretrained("Intel/neural-chat-7b-v3-1")
 class ChatInput(BaseModel):
     system_input: str
@@ -20,9 +20,9 @@ async def generate_response(chat_input: ChatInput):
         # Tokenize and encode the prompt
         inputs = tokenizer.encode(prompt, return_tensors="pt", add_special_tokens=False)
         # Generate a response
-        outputs = model.generate(inputs, max_length=1000, num_return_sequences=1)
         response = tokenizer.decode(outputs[0], skip_special_tokens=True)
         # Extract only the assistant's response

 app = FastAPI()
+tokenizer = AutoTokenizer.from_pretrained("Intel/neural-chat-7b-v3-1", local_files_only=True)
+model = AutoModelForCausalLM.from_pretrained("Intel/neural-chat-7b-v3-1", local_files_only=True)
 class ChatInput(BaseModel):
     system_input: str
         # Tokenize and encode the prompt
         inputs = tokenizer.encode(prompt, return_tensors="pt", add_special_tokens=False)
         # Generate a response
+        outputs = model.generate(inputs, max_length=1000, num_return_sequences=1, pad_token_id=tokenizer.eos_token)
         response = tokenizer.decode(outputs[0], skip_special_tokens=True)
         # Extract only the assistant's response