8B-on-GPU-ZERO

Sleeping

App Files Files Community

alex-abb commited on Jun 25, 2024

Commit

8afff01

verified ·

1 Parent(s): 089d26e

Update app.py

Browse files

Files changed (1) hide show

app.py +36 -62

app.py CHANGED Viewed

@@ -1,70 +1,44 @@
 import gradio as gr
 import spaces
-import transformers
-from transformers import AutoTokenizer,AutoModelForCausalLM
-from transformers import pipeline
-import torch
-import os
-api_token = os.environ.get("APIKEY")
-model_id = "meta-llama/Meta-Llama-3-8B-Instruct"
-@spaces.GPU(duration=240)
-# Charger le modèle en spécifiant le token d'accès
-pipeline = transformers.pipeline(
-    "text-generation",
-    model=model_id,
-    token = api_token,
-    model_kwargs={"torch_dtype": torch.bfloat16},
-    device_map="auto",
-)
-# Créer un pipeline pour la génération de texte
-pipeline = transformers.pipeline(
-    "text-generation",
-    model=model,
-    tokenizer=model.config.tokenizer,
-    device_map="auto",
-)
-messages = [
-    {"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
-    {"role": "user", "content": "Who are you?"},
-]
-terminators = [
-    pipeline.tokenizer.eos_token_id,
-    pipeline.tokenizer.convert_tokens_to_ids("")
-]
-# Utiliser le pipeline pour générer du texte
-outputs = pipeline(
-    messages,
-    max_new_tokens=256,
-    eos_token_id=terminators,
-    do_sample=True,
-    temperature=0.6,
-    top_p=0.9,
-)
-# Fonction de génération de texte
-def generate_text(prompt):
-    input_ids = tokenizer.apply_chat_template(conversation, return_tensors="pt").to(model.device)
-    response_ids = model.generate(inputs.input_ids)
-    response_text = tokenizer.decode(response_ids[0], skip_special_tokens=True)
-    return response_text
-# Définir une fonction pour l'interface de chat
 def chatbot(message, history):
-    return generate_text(message)
-gr.ChatInterface(chatbot).launch()

 import gradio as gr
+import requests
+import os
 import spaces
+API_URL = "https://api-inference.huggingface.co/models/meta-llama/Meta-Llama-3-8B-Instruct"
+api_token = os.environ.get("TOKEN")
+headers = {"Authorization": f"Bearer {api_token}"}
+@spaces.GPU
+def query(payload):
+    response = requests.post(API_URL, headers=headers, json=payload)
+    return response.json()
+def generate_response(prompt):
+    payload = {
+        "inputs": prompt,
+        "parameters": {
+            "max_new_tokens": 100,
+            "temperature": 0.7,
+            "top_p": 0.95,
+            "do_sample": True
+        }
+    }
+    response = query(payload)
+    if isinstance(response, list) and len(response) > 0:
+        return response[0].get('generated_text', '')
+    elif isinstance(response, dict) and 'generated_text' in response:
+        return response['generated_text']
+    return "Désolé, je n'ai pas pu générer de réponse."
 def chatbot(message, history):
+    response = generate_response(message)
+    return response
+iface = gr.ChatInterface(
+    fn=chatbot,
+    title="Chatbot Meta-Llama-3-8B-Instruct",
+    description="Interagissez avec le modèle Meta-Llama-3-8B-Instruct."
+)
+iface.launch()