gemma4-e2b-colloquial-ru-merged

English: Full-weight checkpoint: google/gemma-4-E2B-it merged with the colloquial Russian LoRA adapter for vLLM / RunPod deployment (no PEFT at inference time).

Что это

Полные веса = базовая модель google/gemma-4-E2B-it + LoRA gemma4-e2b-lora-colloquial-ru, объединённые для инференса на GPU (vLLM, RunPod Serverless).

Задача

Переписать формальный русский текст в разговорный стиль без мата, сохраняя факты, имена, цифры и структуру (абзацы, списки).

Обучение

  • ~10k пар SFT (Telegram + social corpus), смешанный корпус
  • LoRA на language tower (r=16, alpha=16), затем merge в полные веса
  • Чекпоинт дополнен k_norm для слоёв 15–34 (совместимость с vLLM)

Использование

vLLM (RunPod Serverless)

MODEL_NAME=pavelfedortsov/gemma4-e2b-colloquial-ru-merged
LANGUAGE_MODEL_ONLY=true

См. docs/runpod_serverless_merged.md в исходном репозитории.

OpenAI-совместимый API (локальный proxy)

from openai import OpenAI

client = OpenAI(api_key="...", base_url="http://localhost:8080/v1")
r = client.chat.completions.create(
    model="colloquial-proxy",
    messages=[{"role": "user", "content": "Перепиши разговорным стилем:\n---\nТекст...\n---"}],
    max_tokens=512,
)
print(r.choices[0].message.content)

Streamlit UI

docker compose uphttp://localhost:8501 (сервис Arteus Humanize).

Ограничения

  • Лицензия Gemma
  • Не предназначено для продакшена без собственной оценки качества и безопасности
  • Merged и LoRA-инференс могут слегка отличаться по стилю

Ссылки

Ресурс URL
Base model https://huggingface.co/google/gemma-4-E2B-it
LoRA adapter https://huggingface.co/pavelfedortsov/gemma4-e2b-lora-colloquial-ru
RunPod deploy doc см. репозиторий проекта docs/runpod_serverless_merged.md
Downloads last month
305
Safetensors
Model size
5B params
Tensor type
F32
·
BF16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for pavelfedortsov/gemma4-e2b-colloquial-ru-merged

Finetuned
(232)
this model