Ministral-8B-InvoiceXpert-GGUF : GGUF

This model was finetuned and converted to GGUF format using Unsloth.

Example usage:

  • For text only LLMs: llama-cli -hf OL-Neuland/Ministral-8B-InvoiceXpert-GGUF --jinja
  • For multimodal models: llama-mtmd-cli -hf OL-Neuland/Ministral-8B-InvoiceXpert-GGUF --jinja

Available Model files:

  • ministral-3-8b-instruct-2512.Q4_K_M.gguf
  • ministral-3-8b-instruct-2512.BF16-mmproj.gguf This was trained 2x faster with Unsloth

📄 Ministral-8B-InvoiceXpert

Über das Modell

Dieses Modell wurde im Rahmen eines IHK-Abschlussprojekts entwickelt. Es handelt sich um ein feingetuntes Vision-Language-Modell (VLM), das darauf spezialisiert ist, deutsche Rechnungen und Belege zu lesen und in hochstrukturierte Markdown-Formate (inklusive Kopfdaten und Positionstabellen) zu konvertieren.

Basis-Modell: ministral-3-8b-instruct Training: Finetuning via LoRA (Vision & Language Layers) mit unsloth in bfloat16.

🎯 Anwendungsfall

Das Modell dient als Kernkomponente für ein automatisiertes, lokales Rechnungsarchiv. Es extrahiert selbstständig:

  • Rechnungsnummer, Datum, Absender, Gesamtbetrag
  • Tabellarische Auflistung aller Rechnungspositionen
  • Schlechtes Scannen oder unleserliche Bereiche (markiert als [unleserlich])

⚠️ System Prompt

Um die korrekte Struktur zu erhalten, muss folgender System-Prompt verwendet werden:

Du bist ein präziser KI-Archivar. Deine Aufgabe ist es, die angehängte Rechnung oder den Beleg für ein durchsuchbares Volltext-Archiv zu transkribieren und zu strukturieren. Halte dich strikt an diese Regeln:

  1. Nur Text: Gib ausschließlich den transkribierten und strukturierten Inhalt aus.
  2. Kopfdaten: Erfasse die wichtigsten Rahmendaten übersichtlich am Anfang (z.B. Absender, Datum, Rechnungsnummer, Gesamtbetrag).
  3. Tabellen-Format: Wenn auf der Rechnung einzelne Positionen/Artikel aufgelistet sind, wandle diese zwingend in eine saubere Markdown-Tabelle um.
  4. Keine Halluzinationen: Erfinde niemals Zahlen, Artikel oder Namen hinzu.
  5. Umgang mit Schäden: Wenn ein Wort unleserlich ist, schreibe [unleserlich].

💻 Nutzung (Python / Unsloth)

Da aktuelle Client-Tools (wie LM Studio / Ollama) die neuartige Architektur des Ministral-Vision-Projectors derzeit noch nicht nativ unterstützen, wird die Nutzung über Python empfohlen:

⚠️Wichtiger Architektur-Hinweis (Client-Kompatibilität)

Dieses Repository enthält zwei Dateien:

  1. ...04_K_ M.gguf (Das quantisierte Sprachzentrum)
  2. ...BF16-mmproi.gguf (Der Vision-Proiector / Sehnerv)

Aktueller Status: Zum jetzigen Zeitpunkt haben auf llama.cpp basierende Tools wie LM Studio oder 0llama noch architektonische Schwierigkeiten, den nativen Vision-Adapter (mmproi) der Ministral-Architektur korrekt zu laden. Die Text-Generierung funktioniert einwandfrei. Bild-Uploads können iedoch zu Fehlern führen. Für eine voll funktionsfähige Multimodal-Inferenz wird derzeit die Nutzung des unquantisierten Basis-Repositories (OL-Neuland/ Ministral-8B-InvoiceXpert) via Python und unsloth empfohlen.

Downloads last month
89
GGUF
Model size
8B params
Architecture
mistral3
Hardware compatibility
Log In to add your hardware

4-bit

Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for OL-Neuland/Ministral-8B-InvoiceXpert-GGUF

Dataset used to train OL-Neuland/Ministral-8B-InvoiceXpert-GGUF