zerogpu-2

Running on Zero

rphrp1985 commited on Jun 13

Commit

5554587

•

1 Parent(s): 8fb1f25

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -80,6 +80,11 @@ model = accelerator.prepare(model)
 # model = load_checkpoint_and_dispatch(model, model_id, device_map=device_map, no_split_module_classes=["GPTJBlock"])
 # model.half()
 @spaces.GPU(duration=60)
@@ -92,15 +97,12 @@ def respond(
     top_p,
 ):
     messages = []
-    for val in history:
-        if val[0]:
-            messages.append({"role": "user", "content": val[0]})
-        if val[1]:
-            messages.append({"role": "assistant", "content": val[1]})
-    messages.append({"role": "user", "content": message})
     input_ids = tokenizer.apply_chat_template(messages, tokenize=True, add_generation_prompt=True, return_tensors="pt").to(accelerator.device) #.to('cuda')
     input_ids2 = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True, return_tensors="pt") #.to('cuda')
     input_str= str(input_ids2)
@@ -109,9 +111,9 @@ def respond(
     # with autocast():
     gen_tokens = model.generate(
     input_ids,
-    max_new_tokens=100,
     # do_sample=True,
-    temperature=0.3,
     )
     gen_text = tokenizer.decode(gen_tokens[0])

 # model = load_checkpoint_and_dispatch(model, model_id, device_map=device_map, no_split_module_classes=["GPTJBlock"])
 # model.half()
+import json
+def str_to_json(str_obj):
+    json_obj = json.loads(str_obj)
+    return json_obj
 @spaces.GPU(duration=60)
     top_p,
 ):
     messages = []
+    json_obj = str_to_json(message)
+    print(json_obj)
+    messages= json_obj
     input_ids = tokenizer.apply_chat_template(messages, tokenize=True, add_generation_prompt=True, return_tensors="pt").to(accelerator.device) #.to('cuda')
     input_ids2 = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True, return_tensors="pt") #.to('cuda')
     input_str= str(input_ids2)
     # with autocast():
     gen_tokens = model.generate(
     input_ids,
+    max_new_tokens=max_tokens,
     # do_sample=True,
+    temperature=temperature,
     )
     gen_text = tokenizer.decode(gen_tokens[0])