Spaces:

Remostart
/

Cardano5B

Paused

App Files Files Community

Remostart commited on Sep 7

Commit

18231b8

verified ·

1 Parent(s): 129037c

Update app.py

Browse files

Files changed (1) hide show

app.py +17 -9

app.py CHANGED Viewed

@@ -2,10 +2,15 @@ import gradio as gr
 from transformers import AutoModelForCausalLM, AutoTokenizer
 import torch
-# Load the fine-tuned Llama-3-8B model and tokenizer
-model_name = "ubiodee/Test_Plutus"
-tokenizer = AutoTokenizer.from_pretrained(model_name)
-model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.float16, device_map="auto")
 # Set padding token if not already set
 if tokenizer.pad_token is None:
@@ -23,25 +28,28 @@ def generate_text(prompt, max_length=200, temperature=0.7, top_p=0.9):
         temperature=temperature,
         top_p=top_p,
         do_sample=True,
-        num_return_sequences=1
     )
     # Decode the generated text
     generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
     return generated_text
 # Create Gradio interface
 demo = gr.Interface(
     fn=generate_text,
     inputs=[
-        gr.Textbox(label="Input Prompt", placeholder="Enter your prompt here..."),
         gr.Slider(label="Max Length", minimum=50, maximum=500, value=200, step=10),
         gr.Slider(label="Temperature", minimum=0.1, maximum=2.0, value=0.7, step=0.1),
         gr.Slider(label="Top P", minimum=0.1, maximum=1.0, value=0.9, step=0.05)
     ],
-    outputs=gr.Textbox(label="Generated Text"),
-    title="Fine-Tuned Llama-3-8B Demo",
-    description="Interact with the fine-tuned Llama-3-8B model (ubiodee/Test_Plutus) to generate text based on your prompt."
 )
 if __name__ == "__main__":

 from transformers import AutoModelForCausalLM, AutoTokenizer
 import torch
+# Load the fine-tuned Llama-3-8B model and tokenizer for ubiodee/plutus_llm
+model_name = "ubiodee/plutus_llm"
+tokenizer = AutoTokenizer.from_pretrained(model_name, use_fast=False)  # Safeguard against fast tokenizer issues
+model = AutoModelForCausalLM.from_pretrained(
+    model_name,
+    torch_dtype=torch.float16,
+    device_map="auto",
+    load_in_8bit=True  # Enable 8-bit quantization as per model specs
+)
 # Set padding token if not already set
 if tokenizer.pad_token is None:
         temperature=temperature,
         top_p=top_p,
         do_sample=True,
+        num_return_sequences=1,
+        pad_token_id=tokenizer.eos_token_id
     )
     # Decode the generated text
     generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
+    # Remove the input prompt from the output for cleaner response
+    generated_text = generated_text[len(prompt):].strip()
     return generated_text
 # Create Gradio interface
 demo = gr.Interface(
     fn=generate_text,
     inputs=[
+        gr.Textbox(label="Input Prompt", placeholder="Enter your prompt here...", lines=3),
         gr.Slider(label="Max Length", minimum=50, maximum=500, value=200, step=10),
         gr.Slider(label="Temperature", minimum=0.1, maximum=2.0, value=0.7, step=0.1),
         gr.Slider(label="Top P", minimum=0.1, maximum=1.0, value=0.9, step=0.05)
     ],
+    outputs=gr.Textbox(label="Generated Text", lines=10),
+    title="Plutus LLM Demo (ubiodee/plutus_llm)",
+    description="Interact with the fine-tuned Llama-3-8B model using LoRA and 8-bit quantization. This is based on ubiodee/plutus_llm."
 )
 if __name__ == "__main__":