MiniCPM5-1B — Lost Frequency Radio (GGUF Q4_K_M)

Fine-tune LoRA de openbmb/MiniCPM5-1B para Lost Frequency Radio, una radio interactiva de universos paralelos construida para el Hugging Face Build Small Hackathon 2026 (track 🍄 An Adventure in Thousand Token Wood).

  • Demo: Space Lost Frequency Radio
  • Dataset: ~786 transmisiones de radio surrealistas (es / en / fr) con tokens estructurados, generadas por plantillas y curadas a mano.
  • Tarea: escribir guiones de radio cortos (60-90 palabras) en personaje: locutores de los años 50, partes meteorológicos de Júpiter, comerciales imposibles, number stations, programas nocturnos entre universos.
  • Anti-fuga de prompt: los system prompts NO contienen reglas en forma de instrucción ("escribe solo el guion, 60-90 palabras…"); el formato se aprende solo de las completions, así que un modelo de 1B no tiene nada que "recitar" al aire. El francés se enseña a nivel de pesos con su propia tajada del dataset.

Tokens estructurados

El modelo emite marcadores que el frontend convierte en eventos audiovisuales:

Token Efecto en la radio
[JINGLE] pulso de luz + arpegio
[INTERFERENCIA] glitch de pantalla + ráfaga de estática
[CORTE COMERCIAL] clic + atenuación
[FIN DE TRANSMISION] fade del display y caída de señal

Uso con llama.cpp

from llama_cpp import Llama

llm = Llama(model_path="MiniCPM5-1B-lost-frequency-radio-Q4_K_M.gguf", n_ctx=2048)
prompt = (
    "<s><|im_start|>system\nEres la voz oficial del Servicio Meteorológico de "
    "Júpiter, año 2187. Escribes guiones de radio en español.<|im_end|>\n"
    "<|im_start|>user\nEscribe la transmisión de esta noche. Solo el guion al "
    "aire.<|im_end|>\n<|im_start|>assistant\n<think>\n\n</think>\n\n"
)
tokens = llm.tokenize(prompt.encode(), add_bos=False, special=True)
out = llm.create_completion(prompt=tokens, max_tokens=220, temperature=0.7,
                            stop=["<|im_end|>"])
print(out["choices"][0]["text"])

Nota: el prefill <think>\n\n</think>\n\n desactiva el modo razonamiento de MiniCPM5 (equivale a enable_thinking=False del chat template).

Entrenamiento

  • 786 ejemplos (es / en / fr), LoRA r=16, alpha=32, dropout 0.05, sobre todas las proyecciones (q/k/v/o/gate/up/down)
  • 3 épocas, lr 1e-4 cosine, bf16, max_length 768
  • Hardware: una sola RTX 4050 laptop (6 GB) — el modelo es diminuto a propósito
  • Loss final ≈ 0.36-0.42, token accuracy ≈ 0.92

Archivos

  • MiniCPM5-1B-lost-frequency-radio-Q4_K_M.gguf — cuantización Q4_K_M (~651 MB), la que usa el Space
  • lora-adapter/ — adaptadores LoRA (para reproducir o seguir entrenando)
Downloads last month
-
GGUF
Model size
1B params
Architecture
llama
Hardware compatibility
Log In to add your hardware

4-bit

Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for MarianaCodebase/MiniCPM5-1B-lost-frequency-radio-GGUF

Adapter
(18)
this model

Dataset used to train MarianaCodebase/MiniCPM5-1B-lost-frequency-radio-GGUF

Space using MarianaCodebase/MiniCPM5-1B-lost-frequency-radio-GGUF 1