Spaces:

exo-is
/

space-llama-1B-11M-esg-context

Sleeping

Titobsala commited on Oct 11, 2024

Commit

cd8908c

1 Parent(s): 1c70843

app para avalição do modelo treinado

Files changed (2) hide show

app.py CHANGED Viewed

@@ -1,19 +1,33 @@
 import gradio as gr
-from transformers import AutoTokenizer, AutoModelForCausalLM
 import torch
 # Load model and tokenizer
-model_name = "mlabonne/FineLlama-3.1-8B"  # Consider using a smaller model if memory is an issue
 tokenizer = AutoTokenizer.from_pretrained(model_name)
-model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.float32, low_cpu_mem_usage=True)
 def generate_text(prompt, max_new_tokens, temperature):
-    inputs = tokenizer(prompt, return_tensors="pt")
     with torch.no_grad():
         outputs = model.generate(
             **inputs,
-            max_new_tokens=max_new_tokens,
             temperature=temperature,
             num_return_sequences=1,
             do_sample=True,
@@ -25,13 +39,13 @@ def generate_text(prompt, max_new_tokens, temperature):
 iface = gr.Interface(
     fn=generate_text,
     inputs=[
-        gr.Textbox(lines=5, label="Enter your ESG-related prompt"),
-        gr.Slider(50, 500, value=200, label="Maximum New Tokens"),
         gr.Slider(0.1, 2.0, value=0.7, step=0.1, label="Temperature")
     ],
-    outputs=gr.Textbox(label="Generated ESG Report Paragraph"),
-    title="ESG Report Generator",
-    description="Enter a prompt related to sustainability or ESG topics to generate a report paragraph."
 )
 # Launch the interface

 import gradio as gr
+from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig
 import torch
 # Load model and tokenizer
+model_name = "unsloth/Llama-3.2-1B-Instruct-bnb-4bit"
+# Configure quantization
+bnb_config = BitsAndBytesConfig(
+    load_in_4bit=True,
+    bnb_4bit_use_double_quant=True,
+    bnb_4bit_quant_type="nf4",
+    bnb_4bit_compute_dtype=torch.float16
+)
 tokenizer = AutoTokenizer.from_pretrained(model_name)
+model = AutoModelForCausalLM.from_pretrained(
+    model_name,
+    quantization_config=bnb_config,
+    device_map="auto",
+    trust_remote_code=True
+)
 def generate_text(prompt, max_new_tokens, temperature):
+    inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
     with torch.no_grad():
         outputs = model.generate(
             **inputs,
+            max_new_tokens=int(max_new_tokens),
             temperature=temperature,
             num_return_sequences=1,
             do_sample=True,
 iface = gr.Interface(
     fn=generate_text,
     inputs=[
+        gr.Textbox(lines=5, label="Enter your prompt"),
+        gr.Slider(50, 500, value=200, step=1, label="Maximum New Tokens"),
         gr.Slider(0.1, 2.0, value=0.7, step=0.1, label="Temperature")
     ],
+    outputs=gr.Textbox(label="Generated Text"),
+    title="Text Generation with Llama-3.2-1B-Instruct",
+    description="Enter a prompt to generate text using the Llama-3.2-1B-Instruct model."
 )
 # Launch the interface

requirements.txt CHANGED Viewed

@@ -4,4 +4,5 @@ gradio
 transformers
 torch
 accelerate>=0.26.0
-bitsandbytes

 transformers
 torch
 accelerate>=0.26.0
+bitsandbytes