Spaces:

PartAI
/

Dorna-Llama3-8B-Instruct

Running on L4

tabedini commited on Jun 9

Commit

3f8d675

•

1 Parent(s): 308a95d

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -83,7 +83,8 @@ def get_generation_speed():
     return generation_speed
 @observe()
-def log_to_langfuse(message, chat_history, max_new_tokens, temperature, top_p, top_k, repetition_penalty, do_sample, model_outputs, generation_speed):
     return  "".join(model_outputs)
@@ -144,9 +145,8 @@ def generate(
     generation_speed = token_per_second_calculator(sum_tokens, time_delta)
-    log_function = log_to_langfuse(message, chat_history, max_new_tokens, temperature, top_p, top_k, repetition_penalty, do_sample, outputs, generation_speed)
-    print(f"generation_speed: {generation_speed}")

     return generation_speed
 @observe()
+def log_to_langfuse(message, chat_history, max_new_tokens, temperature, top_p, top_k, repetition_penalty, do_sample, generation_speed, model_outputs):
+    print(f"generation_speed: {generation_speed}")
     return  "".join(model_outputs)
     generation_speed = token_per_second_calculator(sum_tokens, time_delta)
+    log_function = log_to_langfuse(message, chat_history, max_new_tokens, temperature, top_p, top_k, repetition_penalty, do_sample, generation_speed, outputs)