File size: 6,093 Bytes
06abdd0 b9f514a 512f4b6 b9f514a 512f4b6 b9f514a 512f4b6 06abdd0 abd9371 b9f514a e58651c b9f514a abd9371 b9f514a abd9371 b9f514a 7f22b49 b9f514a 7f22b49 b9f514a abd9371 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 |
---
library_name: transformers
model_name: Vikhr-Gemma-2B-instruct
base_model:
- google/gemma-2-2b-it
language:
- ru
license: apache-2.0
datasets:
- Vikhrmodels/GrandMaster-PRO-MAX
---
# 💨 Vikhr-Gemma-2B-instruct
#### RU
Мощная инструктивная модель на основе Gemma 2 2B, обученная на русскоязычном датасете GrandMaster-PRO-MAX.
#### EN
A powerful instructive model based on Gemma 2 2B, trained on the Russian-language dataset GrandMaster-PRO-MAX.
## GGUF
- [Vikhrmodels/Vikhr-Gemma-2B-instruct-GGUF](https://huggingface.co/Vikhrmodels/Vikhr-Gemma-2B-instruct-GGUF)
## Особенности:
- 📚 Основа / Base: [gemma-2-2b-it](https://huggingface.co/google/gemma-2-2b-it)
- 🇷🇺 Специализация / Specialization: **RU**
- 💾 Датасет / Dataset: [GrandMaster-PRO-MAX](https://huggingface.co/datasets/Vikhrmodels/GrandMaster-PRO-MAX)
## Попробовать / Try now:
[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1htw3x1OS73vIJrMYvdQfflGg4ASdGg9P)
## Описание:
#### RU
Vikhr-Gemma-2B-instruct — это мощная и компактная языковая модель, обученная на датасете GrandMaster-PRO-MAX, специально доученная для обработки русского языка.
#### EN
Vikhr-Gemma-2B-instruct is a powerful and compact language model trained on the GrandMaster-PRO-MAX dataset, specifically designed for processing the Russian language.
## Пример кода для запуска / Sample code to run:
```python
from transformers import AutoModelForCausalLM, AutoTokenizer
# Загрузка модели и токенизатора
model_name = "Vikhrmodels/Vikhr-Gemma-2B-instruct"
model = AutoModelForCausalLM.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)
# Подготовка входного текста
input_text = "Напиши стихотворение о весне в России."
# Токенизация и генерация текста
input_ids = tokenizer.encode(input_text, return_tensors="pt")
output = model.generate(input_ids, max_length=200, num_return_sequences=1, no_repeat_ngram_size=2)
# Декодирование и вывод результата
generated_text = tokenizer.decode(output[0], skip_special_tokens=True)
print(generated_text)
```
#### Ответ модели / Model response:
> Весна в России – это время обновления природы, когда природа пробуждается >от зимнего сна. Вот стихотворение, отражающее эту красоту:
>
> ---
>
> **Весна в России**
>
> Зимняя тишина утихла,
> Весна в России пришла.
> Солнце светит, словно в сказке,
> В небесах – птицы в полете.
>
> Снег пошел, ушел вдаль,
> И в каждом уголке – весна.
> Лед промерз, вода в реке –
> Ветры вьют, и листья поют.
>
> Цветы распустились, как будто
> В честь весны, в честь жизни.
> Зеленая трава, как полотно,
> Под ногами – мягкость.
>
> Весна в России – это чудо,
> Счастье, что в сердце живет.
> И каждый день – праздник,
> Когда природа в цвету.
>
> ---
>
> Надеюсь, это стихотворение передало дух и красоту весны в России.
## Метрики на ru_arena_general / Metrics on ru_arena_general
| Model | Score | 95% CI | Avg Tokens | Std Tokens | LC Score |
| ---------------------------------------------- | --------- | --------------- | ---------- | ---------- | --------- |
| suzume-llama-3-8B-multilingual-orpo-borda-half | 90.89 | +1.1 / -1.1 | 2495.38 | 1211.62 | 55.86 |
| mistral-nemo-instruct-2407 | 50.53 | +2.5 / -2.2 | 403.17 | 321.53 | 50.08 |
| sfr-iterative-dpo-llama-3-8b-r | 50.06 | +2.1 / -2.1 | 516.74 | 316.84 | 50.01 |
| gpt-3.5-turbo-0125 | 50.00 | +0.0 / -0.0 | 220.83 | 170.30 | 50.00 |
| glm-4-9b-chat | 49.75 | +1.9 / -2.3 | 568.81 | 448.76 | 49.96 |
| c4ai-command-r-v01 | 48.95 | +2.6 / -1.7 | 529.34 | 368.98 | 49.85 |
| llama-3-instruct-8b-sppo-iter3 | 47.45 | +2.0 / -2.2 | 502.27 | 304.27 | 49.63 |
| **Vikhrmodels-vikhr-gemma-2b-it** | **45.82** | **+2.4 / -2.0** | **722.83** | **710.71** | **49.40** |
| suzume-llama-3-8b-multilingual | 45.71 | +2.4 / -1.7 | 641.18 | 858.96 | 49.38 |
| yandex_gpt_pro | 45.11 | +2.2 / -2.5 | 345.30 | 277.64 | 49.30 |
| hermes-2-theta-llama-3-8b | 44.07 | +2.0 / -2.2 | 485.99 | 390.85 | 49.15 |
| gpt-3.5-turbo-1106 | 41.48 | +1.9 / -2.0 | 191.19 | 177.31 | 48.77 |
| llama-3-smaug-8b | 40.80 | +2.1 / -1.6 | 524.02 | 480.56 | 48.68 |
| llama-3-8b-saiga-suzume-ties | 39.94 | +2.0 / -1.7 | 763.27 | 699.39 | 48.55 |
```
@article{nikolich2024vikhr,
title={Vikhr: The Family of Open-Source Instruction-Tuned Large Language Models for Russian},
author={Aleksandr Nikolich and Konstantin Korolev and Sergey Bratchikov and Nikolay Kompanets and Artem Shelmanov},
journal={arXiv preprint arXiv:2405.13929},
year={2024},
url={https://arxiv.org/pdf/2405.13929}
}
```
|