Expense Categorizer IT v1

Pipeline scikit-learn (TfidfVectorizer + RandomForestClassifier) che classifica descrizioni di spese in italiano nelle categorie fiscali. Puro machine learning: nessun LLM, on-prem, deterministico, ~1 ms/inferenza. Macro-F1 ≥ 0.80 sul set di test.

Input / Output

  • Input: descrizione testuale della spesa (IT) + importo in EUR (usato come bucket di ordine di grandezza, segnale debole).
  • Output: categoria fiscale predetta.

Uso

import joblib
model = joblib.load("expense_categorizer_it_v1.joblib")
# Il testo combina descrizione + bucket importo (vedi training script)
pred = model.predict(["cena di lavoro con cliente"])
print(pred)

Training

TfidfVectorizer su descrizione (+ bucket importo) → RandomForestClassifier. Riproducibile con lo script train_expense_categorizer.py del progetto (CSV con colonne descrizione, importo, categoria).

Source & Attribution

Citation

Federico Calò, "Expense Categorizer IT v1", federicocalo.dev, 2026. https://huggingface.co/FedCal/expense-categorizer-it
Downloads last month
-
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support