rysmyatova commited on
Commit
5a0a4d2
·
verified ·
1 Parent(s): 46be188

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +35 -0
README.md CHANGED
@@ -7,6 +7,41 @@ base_model:
7
  - Qwen/Qwen3-8B
8
  pipeline_tag: text-generation
9
  ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
10
  # Quickstart
11
  Ниже представлен фрагмент кода, демонстрирующий, как загрузить токенизатор и модель, а также как сгенерировать ответ.
12
  ```python
 
7
  - Qwen/Qwen3-8B
8
  pipeline_tag: text-generation
9
  ---
10
+ A-vibe это большая языковая модель, созданная Авито Тех, дочерней технологической компанией Авито, на базе открытой модели Qwen3-8B-Base.
11
+ Мы адаптировали Qwen3-8B-Base под русский язык и домен Авито с помощью нескольких шагов
12
+ 1. Сделали свой токенизатор, оптимальный для русского и английского языка
13
+ 2. Подменили оригинальный токенизатор Qwen3-8B-Base на собственный токенизатор
14
+ 3. Обучили полученную модель на большом корпусе данных
15
+ 4. Провели SFT этап
16
+ 5. Сделали RL
17
+
18
+ В результате нам удалось получить модель, которая выигрывает instruct версию Qwen3-8B по многим русскоязычным бенчмаркам.
19
+ На SFT и RL этапе нам удалось научить модель Function Calling и улучшить ее навыки в решении математических задач.
20
+
21
+ ||Qwen3-8B|A-vibe|
22
+ |:---|:---|:---|
23
+ |mmlu_ru|0,701|**0,718**|
24
+ |mmlu_en|0,730|**0,752**|
25
+ |gpqa_diamond_ru|0,318|**0,343**|
26
+ |gpqa_diamond_en|**0,369**|0,318|
27
+ |shlepa|0,454|**0,486**|
28
+ |baby mmlu|0,682|**0,766**|
29
+ |math_500_ru|0,546|**0,686**|
30
+ |math_500_en|**0,736**|0,714|
31
+ |gsm8k_en|**0,927**|0,910|
32
+ |DOoM|0,240|**0,280**|
33
+ |ru_facts|**0,724**|0,718|
34
+ |rublimp|0,916|**0,930**|
35
+ |ru_drop|0,318|**0,394**|
36
+ |BFCL_V3_en|**60,2%**|58,63%|
37
+ |BFCL_V3_ru|**50.72%**|49.00%|
38
+ |MERA_text|0,510|**0,618**|
39
+ |MERA CODE private total|0,336|**0,367**|
40
+
41
+
42
+ В токенизаторе A-vibe плотность токенизации выше, чем у Qwen3-8B поэтому число токенов в контексте и при генерации стало меньше для одинаковых примеров.
43
+ Кроме того, размер самой модели сократился до 7.9B при 8.2B у Qwen3-8B. За счет этого одинаковые русскоязычные примеры адаптированной моделью обрабатываются быстрее в среднем на 15-25% в сравнении с исходной Qwen3-8B
44
+
45
  # Quickstart
46
  Ниже представлен фрагмент кода, демонстрирующий, как загрузить токенизатор и модель, а также как сгенерировать ответ.
47
  ```python