🧠 dpp-gpt v2.0 Base (135M)

(🇺🇸 English / 🇷🇺 Русский)

⚠️ Note: This is a base foundation model. It has not been fine-tuned for chat. For the chat-ready version, download dpp-gpt-v2.0-flash-135m.

This is a compact foundation language model trained from scratch on the Llama 3 architecture. It is designed for raw text completion.

⚙️ Model Details

  • Architecture: Llama 3 (136.9M Parameters)
  • Layers / Hidden Size / Heads: 16 / 768 / 12
  • Type: Base (Pre-trained only)
  • Format: GGUF
  • License: Apache 2.0

💡 Fun Fact (Math in ChatML)

Although this is a Base model for raw text completion, the mathematical portion of the pre-training dataset was explicitly formatted using ChatML. Because of this, it can successfully solve basic math equations if prompted with standard <|im_start|>user tags! For example: <|im_start|>user 20 + 656<|im_end|> <|im_start|>assistant


🇷🇺 Описание на русском

⚠️ Внимание: Это базовая (foundation) модель. Она не обучалась формату диалога. Если вам нужна чат-версия, скачайте dpp-gpt-v2.0-flash-135m.

Это базовая компактная языковая модель, обученная с нуля (from scratch) на архитектуре Llama 3. Предназначена для классического продолжения текста (text completion).

⚙️ Детали модели

  • Архитектура: Llama 3 (136.9M параметров)
  • Слои / Размерность / Головы: 16 / 768 / 12
  • Тип: Base (Только Pre-training)
  • Формат весов: GGUF
  • Лицензия: Apache 2.0

💡 Интересный факт (Математика)

Хотя это базовая модель, математическая часть датасета при претрейне была размечена в формате ChatML. Из-за этого модель умеет решать базовые примеры, если обратиться к ней через теги <|im_start|>user, хотя формально она не проходила стадию дообучения инструкциям (SFT)! Пример: <|im_start|>user 20 + 656<|im_end|> <|im_start|>assistant

Downloads last month
207
GGUF
Model size
0.1B params
Architecture
llama
Hardware compatibility
Log In to add your hardware

4-bit

8-bit

16-bit

Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support