MinerU2.5-Geologia-ES 🏔️

QLoRA fine-tuned MinerU 2.5 1.2B para extracción de texto en documentos geológicos y ambientales en español, especializado en informes de impacto ambiental (EIA), estudios estratigráficos, y regulación minera chilena.

Parte del proyecto La Serena Digital — Graph RAG para monitoreo ambiental en la Región de Coquimbo, Chile 🇨🇱.


📋 Detalles Técnicos

Característica Valor
Modelo base opendatalab/MinerU2.5-2509-1.2B (Qwen2-VL)
Tipo QLoRA (4-bit) — LoRA adapter
Rango LoRA r=8, alpha=16
Módulos q_proj, v_proj, k_proj, o_proj
Dropout 0.05
PEFT v0.19.1
Task CausalLM (generación de texto)
Peso del adapter 4.15 MB
Modelo base 1.2B params (~600 MB en 4-bit)
Idioma Español (documentos geológicos y ambientales)
Licencia CC-BY-4.0
Competencia MDIC 2026 — Track 1 (AGI4S Corpus)

🎯 Especialización

  1. Extracción de texto de documentos geológicos en español
  2. Reconocimiento de terminología: estratigrafía, mineralogía, geoquímica, hidrogeología
  3. Preservación estructural de documentos regulatorios chilenos (SEIA, SMA, RCA)
  4. Formato mixto: texto corrido, tablas numéricas, notación química

📊 Datos de Entrenamiento

La Serena Digital Geo-Environmental CorpusKarlangaz/la-serena-digital-geo-corpus

Métrica Valor
Documentos 86 PDFs procesados con MinerU v4
Origen SEIA Chile, SERNAGEOMIN, SMA, Biblioteca Científica
Categorías Geología (45), Ecología (25), Marco Legal (16)
Calidad Dingo 86/86 GOOD ✅
OmniDocBench CDM F1 = 1.000 ✅

🔧 Fine-Tuning

Método:       QLoRA (4-bit量化)
Rango:        8
Alpha:        16
Dropout:      0.05
Módulos:      q_proj, v_proj, k_proj, o_proj
Épocas:       3
Learning rate: 2e-5 (cosine schedule)
Precisión:    BF16 (compute) + NF4 (storage)
GPU:          NVIDIA T4 (16 GB VRAM)
Plataforma:   Google Colab

📈 Uso

from peft import PeftModel
from transformers import Qwen2VLForConditionalGeneration, AutoTokenizer

# Cargar modelo base
base_model = Qwen2VLForConditionalGeneration.from_pretrained(
    "opendatalab/MinerU2.5-2509-1.2B",
    torch_dtype="auto",
    device_map="auto",
    trust_remote_code=True,
)

# Cargar adapter LoRA entrenado
model = PeftModel.from_pretrained(
    base_model,
    "Karlangaz/MinerU2.5-Geologia-ES"
)
tokenizer = AutoTokenizer.from_pretrained(
    "opendatalab/MinerU2.5-2509-1.2B",
    trust_remote_code=True
)

# Inferencia
inputs = tokenizer("Extrae el texto del siguiente documento geológico:", return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=512)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

🌍 Proyecto La Serena Digital

Sistema integral que incluye:

  • Graph RAG: 29,789 nodos en Neo4j con trazabilidad fuente↔dato
  • Búsqueda semántica: Embeddings BGE-M3 en Qdrant
  • Portal público: laserenadigital.cl
  • Pipeline MinerU: Automatización batch con 790+ PDFs

Casos de Estudio

  • 🏗️ Proyecto Dominga — expediente SEIA completo
  • ⛏️ Andacollo — minería de oro y cobre
  • 🏔️ Los Pelambres — megaminería de cobre
  • 🐧 Archipiélago Humboldt — reserva marina

🏆 MDIC 2026

Track: AGI4S Corpus — Construcción de Corpus Verticales (Geociencias)
Equipo: La Serena Digital
Código: GitHub
Corpus: HuggingFace


⚠️ Limitaciones

  • Especializado en español técnico-científico chileno
  • Optimizado para documentos geológicos/ambientales
  • Rendimiento no evaluado en otros idiomas o dominios
  • Adapter QLoRA — requiere cargar el modelo base por separado

📚 Citación

@software{la_serena_digital_2026,
  author = {González, Carlos and La Serena Digital Team},
  title = {MinerU2.5-Geologia-ES: QLoRA Fine-tuned MinerU 1.2B for Geological Document Parsing in Spanish},
  year = {2026},
  url = {https://huggingface.co/Karlangaz/MinerU2.5-Geologia-ES},
  note = {MDIC 2026 Competition — Track 1 AGI4S Corpus}
}

🙏 Agradecimientos

  • OpenDataLab y Shanghai AI Lab por MinerU y MDIC 2026
  • SEIA Chile y SMA por datos públicos
  • Google Colab por recursos GPU gratuitos
Downloads last month
2
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for Karlangaz/MinerU2.5-Geologia-ES

Adapter
(1)
this model

Dataset used to train Karlangaz/MinerU2.5-Geologia-ES