Update README.md
Browse files
README.md
CHANGED
|
@@ -7,6 +7,41 @@ base_model:
|
|
| 7 |
- Qwen/Qwen3-8B
|
| 8 |
pipeline_tag: text-generation
|
| 9 |
---
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 10 |
# Quickstart
|
| 11 |
Ниже представлен фрагмент кода, демонстрирующий, как загрузить токенизатор и модель, а также как сгенерировать ответ.
|
| 12 |
```python
|
|
|
|
| 7 |
- Qwen/Qwen3-8B
|
| 8 |
pipeline_tag: text-generation
|
| 9 |
---
|
| 10 |
+
A-vibe это большая языковая модель, созданная Авито Тех, дочерней технологической компанией Авито, на базе открытой модели Qwen3-8B-Base.
|
| 11 |
+
Мы адаптировали Qwen3-8B-Base под русский язык и домен Авито с помощью нескольких шагов
|
| 12 |
+
1. Сделали свой токенизатор, оптимальный для русского и английского языка
|
| 13 |
+
2. Подменили оригинальный токенизатор Qwen3-8B-Base на собственный токенизатор
|
| 14 |
+
3. Обучили полученную модель на большом корпусе данных
|
| 15 |
+
4. Провели SFT этап
|
| 16 |
+
5. Сделали RL
|
| 17 |
+
|
| 18 |
+
В результате нам удалось получить модель, которая выигрывает instruct версию Qwen3-8B по многим русскоязычным бенчмаркам.
|
| 19 |
+
На SFT и RL этапе нам удалось научить модель Function Calling и улучшить ее навыки в решении математических задач.
|
| 20 |
+
|
| 21 |
+
||Qwen3-8B|A-vibe|
|
| 22 |
+
|:---|:---|:---|
|
| 23 |
+
|mmlu_ru|0,701|**0,718**|
|
| 24 |
+
|mmlu_en|0,730|**0,752**|
|
| 25 |
+
|gpqa_diamond_ru|0,318|**0,343**|
|
| 26 |
+
|gpqa_diamond_en|**0,369**|0,318|
|
| 27 |
+
|shlepa|0,454|**0,486**|
|
| 28 |
+
|baby mmlu|0,682|**0,766**|
|
| 29 |
+
|math_500_ru|0,546|**0,686**|
|
| 30 |
+
|math_500_en|**0,736**|0,714|
|
| 31 |
+
|gsm8k_en|**0,927**|0,910|
|
| 32 |
+
|DOoM|0,240|**0,280**|
|
| 33 |
+
|ru_facts|**0,724**|0,718|
|
| 34 |
+
|rublimp|0,916|**0,930**|
|
| 35 |
+
|ru_drop|0,318|**0,394**|
|
| 36 |
+
|BFCL_V3_en|**60,2%**|58,63%|
|
| 37 |
+
|BFCL_V3_ru|**50.72%**|49.00%|
|
| 38 |
+
|MERA_text|0,510|**0,618**|
|
| 39 |
+
|MERA CODE private total|0,336|**0,367**|
|
| 40 |
+
|
| 41 |
+
|
| 42 |
+
В токенизаторе A-vibe плотность токенизации выше, чем у Qwen3-8B поэтому число токенов в контексте и при генерации стало меньше для одинаковых примеров.
|
| 43 |
+
Кроме того, размер самой модели сократился до 7.9B при 8.2B у Qwen3-8B. За счет этого одинаковые русскоязычные примеры адаптированной моделью обрабатываются быстрее в среднем на 15-25% в сравнении с исходной Qwen3-8B
|
| 44 |
+
|
| 45 |
# Quickstart
|
| 46 |
Ниже представлен фрагмент кода, демонстрирующий, как загрузить токенизатор и модель, а также как сгенерировать ответ.
|
| 47 |
```python
|