Описание Saiga2-13B-4bit

Это GPTQ модель для saiga2-13B-lora model.

Технические детали

Модель квантизована в 4-битную с помощью AutoGPTQ library

Пример использования

  1. Удостоверьтесь, что AutoGPTQ установлена: GITHUB_ACTIONS=true pip install auto-gptq

  2. Пример кода для использования модели в генерации ответа:

from transformers import AutoTokenizer
from auto_gptq import AutoGPTQForCausalLM


def generate_answer(model, tokenizer, request: str, system_prompt: str):
    s = f"system\n{system_prompt}</s>\n" + \
        f"<s>user\n{request}</s>\n" + \
        f"<s>bot\n"
    request_tokens = tokenizer(s, return_tensors="pt")    
    del request_tokens['token_type_ids']
    del request_tokens['attention_mask']
    request_tokens = request_tokens.to(model.device)
    answer_tokens = model.generate(**request_tokens,
                    num_beams=4,
                    top_k=32,
                    temperature=0.6,
                    repetition_penalty=1.2,
                    no_repeat_ngram_size=15,
                    max_new_tokens=1536,
                    pad_token_id=tokenizer.eos_token_id)[0]
    answer_tokens = answer_tokens[len(request_tokens[0]):-1]
    answer = tokenizer.decode(answer_tokens).strip()
    return answer


model_name = "saiga2-13b-4bit"
system_prompt = "Ты — Сайга, русскоязычный автоматический ассистент. Ты разговариваешь с людьми и помогаешь им."
tokenizer = AutoTokenizer.from_pretrained(model_name, use_fast=True)
model = AutoGPTQForCausalLM.from_quantized(model_name, device="cuda:0")
model.eval()

user_text = "Сочини стих, который начинается словами: Буря мглою небо кроет"
answer_text = generate_answer(model, tokenizer, user_text, system_prompt)  
print(answer_text)

Исходная модель: saiga2-13B-lora

Модель ассистента на основе LLaMA2 дообученная на русскоязычных наборах. Модель имеет 13 млрд. параметров.

Downloads last month
11
Inference Providers NEW
This model is not currently available via any of the supported Inference Providers.