--- language: - kk - ru - en license: mit library_name: transformers pipeline_tag: text-generation --- # Irbis-7B Irbis-7B - это языковая модель на основе архитектуры трансформеров, адаптированная для казахского языка. - Улучшенный токенизатор - словарь токенизатора был расширен с 32к до 60к токенов, включая больше казахских слов, что улучшило эффективность токенизации для казахского языка. - Предварительное обучение - модель была предобучена на 20 ГБ преимущственно казахских и немного русских текстов для настройки с новым токенизатором. В результате модель показывает значительно лучшее качество работы с казахским языком по сравнению с прочими моделями из открытых источников. За счет нового токенизатора увеличилась скорость генерации текста в 3-4 раза, также оптимизировалось заполнение контекстного окна. Подробнее можно почитать в [статье](https://habr.com/ru/articles/825574/). ## Попробовать ```python from transformers import AutoTokenizer, AutoModelForCausalLM, GenerationConfig import torch model_name = "IrbisAI/Irbis-7b-v0.1" model = AutoModelForCausalLM.from_pretrained( model_name, return_dict=True, torch_dtype=torch.float16, device_map="auto") tokenizer = AutoTokenizer.from_pretrained(model_name) prompt = "Сұрақ: Шөп неге жасыл?\nЖауап: " input_ids = tokenizer([prompt], return_tensors = "pt")["input_ids"].to("cuda") generation_config = GenerationConfig( temperature=0.6, repetition_penalty=1.15 ) print("Generating...") generation_output = model.generate( input_ids=input_ids, generation_config=generation_config, return_dict_in_generate=True, output_scores=True, max_new_tokens=2048, pad_token_id=tokenizer.eos_token_id, ) for s in generation_output.sequences: print(tokenizer.decode(s)) # Өсімдіктер ауасыз өмір сүре алмайды, сондықтан олар жасыл түсті болады. ```