Karlangaz/la-serena-digital-geo-corpus
Updated • 169
How to use Karlangaz/MinerU2.5-Geologia-ES with PEFT:
from peft import PeftModel
from transformers import AutoModelForCausalLM
base_model = AutoModelForCausalLM.from_pretrained("opendatalab/MinerU2.5-2509-1.2B")
model = PeftModel.from_pretrained(base_model, "Karlangaz/MinerU2.5-Geologia-ES")QLoRA fine-tuned MinerU 2.5 1.2B para extracción de texto en documentos geológicos y ambientales en español, especializado en informes de impacto ambiental (EIA), estudios estratigráficos, y regulación minera chilena.
Parte del proyecto La Serena Digital — Graph RAG para monitoreo ambiental en la Región de Coquimbo, Chile 🇨🇱.
| Característica | Valor |
|---|---|
| Modelo base | opendatalab/MinerU2.5-2509-1.2B (Qwen2-VL) |
| Tipo | QLoRA (4-bit) — LoRA adapter |
| Rango LoRA | r=8, alpha=16 |
| Módulos | q_proj, v_proj, k_proj, o_proj |
| Dropout | 0.05 |
| PEFT | v0.19.1 |
| Task | CausalLM (generación de texto) |
| Peso del adapter | 4.15 MB |
| Modelo base | 1.2B params (~600 MB en 4-bit) |
| Idioma | Español (documentos geológicos y ambientales) |
| Licencia | CC-BY-4.0 |
| Competencia | MDIC 2026 — Track 1 (AGI4S Corpus) |
La Serena Digital Geo-Environmental Corpus — Karlangaz/la-serena-digital-geo-corpus
| Métrica | Valor |
|---|---|
| Documentos | 86 PDFs procesados con MinerU v4 |
| Origen | SEIA Chile, SERNAGEOMIN, SMA, Biblioteca Científica |
| Categorías | Geología (45), Ecología (25), Marco Legal (16) |
| Calidad Dingo | 86/86 GOOD ✅ |
| OmniDocBench CDM | F1 = 1.000 ✅ |
Método: QLoRA (4-bit量化)
Rango: 8
Alpha: 16
Dropout: 0.05
Módulos: q_proj, v_proj, k_proj, o_proj
Épocas: 3
Learning rate: 2e-5 (cosine schedule)
Precisión: BF16 (compute) + NF4 (storage)
GPU: NVIDIA T4 (16 GB VRAM)
Plataforma: Google Colab
from peft import PeftModel
from transformers import Qwen2VLForConditionalGeneration, AutoTokenizer
# Cargar modelo base
base_model = Qwen2VLForConditionalGeneration.from_pretrained(
"opendatalab/MinerU2.5-2509-1.2B",
torch_dtype="auto",
device_map="auto",
trust_remote_code=True,
)
# Cargar adapter LoRA entrenado
model = PeftModel.from_pretrained(
base_model,
"Karlangaz/MinerU2.5-Geologia-ES"
)
tokenizer = AutoTokenizer.from_pretrained(
"opendatalab/MinerU2.5-2509-1.2B",
trust_remote_code=True
)
# Inferencia
inputs = tokenizer("Extrae el texto del siguiente documento geológico:", return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=512)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
Sistema integral que incluye:
Track: AGI4S Corpus — Construcción de Corpus Verticales (Geociencias)
Equipo: La Serena Digital
Código: GitHub
Corpus: HuggingFace
@software{la_serena_digital_2026,
author = {González, Carlos and La Serena Digital Team},
title = {MinerU2.5-Geologia-ES: QLoRA Fine-tuned MinerU 1.2B for Geological Document Parsing in Spanish},
year = {2026},
url = {https://huggingface.co/Karlangaz/MinerU2.5-Geologia-ES},
note = {MDIC 2026 Competition — Track 1 AGI4S Corpus}
}
Base model
opendatalab/MinerU2.5-2509-1.2B