Spaces:

larry1129
/

WooWoof_AI

Sleeping

File size: 2,618 Bytes

658af68
ee7c5db
7d93b52
ee7c5db
b9e87be
 
 
 
658af68
7d93b52
 
 
 
 
658af68
ee7c5db
7d93b52
658af68
7d93b52
 
 
ee7c5db
 
b9e87be
7d93b52
 
 
 
 
 
 
 
 
 
 
ee7c5db
658af68
ee7c5db
 
 
658af68
ee7c5db
 
658af68
ee7c5db
 
 
 
 
658af68
ee7c5db
 
658af68
ee7c5db
658af68
ee7c5db
 
 
 
 
658af68
ee7c5db
 
 
 
 
 
7d93b52
ee7c5db
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
658af68
ee7c5db
 
 
 
658af68
 
ee7c5db

import gradio as gr
from transformers import AutoTokenizer, AutoModelForCausalLM
from peft import PeftModel
import torch
import os

# 获取 Hugging Face 访问令牌
hf_token = os.getenv("HF_API_TOKEN")

# 定义基础模型名称
base_model_name = "unsloth/meta-llama-3.1-8b-bnb-4bit"  # 替换为你的基础模型名称

# 定义 adapter 模型名称（假设 adapter 在同一个 repo 中）
adapter_model_name = "larry1129/WooWoof_AI"  # 替换为你的 adapter 模型名称

# 加载分词器
tokenizer = AutoTokenizer.from_pretrained(base_model_name, use_auth_token=hf_token)

# 加载基础模型
base_model = AutoModelForCausalLM.from_pretrained(
    base_model_name,
    device_map="auto",
    torch_dtype=torch.float16,
    use_auth_token=hf_token,
    trust_remote_code=True
)

# 加载 adapter 并将其应用到基础模型上
model = PeftModel.from_pretrained(
    base_model,
    adapter_model_name,
    device_map="auto",
    torch_dtype=torch.float16,
    use_auth_token=hf_token,
    trust_remote_code=True
)

# 设置 pad_token
tokenizer.pad_token = tokenizer.eos_token
model.config.pad_token_id = tokenizer.pad_token_id

# 切换到评估模式
model.eval()

# 定义提示生成函数
def generate_prompt(instruction, input_text=""):
    if input_text:
        prompt = f"""### Instruction:
{instruction}

### Input:
{input_text}

### Response:
"""
    else:
        prompt = f"""### Instruction:
{instruction}

### Response:
"""
    return prompt

# 定义生成响应的函数
def generate_response(instruction, input_text):
    prompt = generate_prompt(instruction, input_text)
    inputs = tokenizer(prompt, return_tensors="pt").to(model.device)

    with torch.no_grad():
        outputs = model.generate(
            input_ids=inputs["input_ids"],
            attention_mask=inputs["attention_mask"],
            max_new_tokens=128,
            temperature=0.7,
            top_p=0.95,
            do_sample=True,
        )
    response = tokenizer.decode(outputs[0], skip_special_tokens=True)
    response = response.split("### Response:")[-1].strip()
    return response

# 创建 Gradio 接口
iface = gr.Interface(
    fn=generate_response,
    inputs=[
        gr.inputs.Textbox(lines=2, placeholder="请输入指令...", label="Instruction"),
        gr.inputs.Textbox(lines=2, placeholder="如果有额外输入，请在此填写...", label="Input (可选)")
    ],
    outputs="text",
    title="WooWoof AI 交互式聊天",
    description="基于 LLAMA 3.1 的大语言模型，支持指令和可选输入。",
    allow_flagging="never"
)

# 启动 Gradio 接口
iface.launch()