RU Context-Aware Document Splitter (T-lite-it-2.1 LoRA)

Дообучение t-tech/T-lite-it-2.1 (Qwen3-8B), которое режет русские документы на самодостаточные смысловые чанки для RAG, держа таблицы/код целыми. На вход — текст, заранее разбитый на нумерованные юниты; на выход — индексы границ + topic в JSON.

Использование

Это completion-модель, обученная на raw-Alpaca промпте (без чат-шаблона). Сначала разбей документ на нумерованные юниты; чанки собери на хосте по возвращённым индексам.

Промпт:

### Instruction:
Раздели документ на смысловые части для системы поиска (RAG). Каждая часть читается независимо, не разрывая предложений, таблиц и кода. Верни ТОЛЬКО номера единиц, после которых проходит граница, в формате JSON.

### Input:
[1] Первое предложение. [2] Второе. [3] | таблица |...|
### Response:

Вывод: {"splits": [2], "topic": "..."}splits = индексы юнитов, после которых граница (1-индексные). Режь оригинал по этим точкам.

Полный пре-/пост-процессинг + рецепт сервинга на llama.cpp — в GitHub-репозитории.

Результаты (1500 holdout, согласие с метками учителя)

Валидный JSON F1@0 F1@±1 exact-set
100% 0.656 0.821 29%

GGUF Q5_K_M совпадает с FP16 в пределах шума квантизации; работает на AMD Vulkan через llama.cpp.

Данные

Датасет: AGmind/agmind-rag-splitter-ru-data (~17k train + 12k синтетика, дистилляция от DeepSeek-V4-Flash).

Обучение

bf16 LoRA (r32, rsLoRA, all-linear, response-only) на RTX 5090; ~17k примеров дистилляции (DeepSeek-V4-Flash). См. docs/methodology.md в репо.

Файлы

  • LoRA-адаптер / merged FP16-веса
  • *-Q5_K_M.gguf (llama.cpp, Vulkan/CPU)

Ограничения

Метрики — согласие с учителем, не human-ground-truth. Лёгкая пере-сегментация. Для очень больших таблиц нужна отдельная табличная стратегия, а не эта боундари-модель.

Лицензия

Apache-2.0 (наследует лицензию базы T-lite-it-2.1).

Downloads last month
17
Safetensors
Model size
8B params
Tensor type
BF16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for AGmind/agmind-rag-splitter-ru

Finetuned
Qwen/Qwen3-8B
Adapter
(1)
this model

Dataset used to train AGmind/agmind-rag-splitter-ru