ArticleTypePredictionImproved - Medical Publication Classifier

Description

Ce modèle est un classificateur fine-tuné et optimisé pour identifier le type de publications scientifiques médicales. Il est basé sur PubMedBERT et a été entraîné sur un dataset spécialisé d'infarctus du myocarde provenant de PubMed, mais ses capacités de classification s'étendent à toutes les publications médicales grâce à sa robustesse et à l'architecture PubMedBERT.

Performance

  • Accuracy: 93.80%
  • F1-Score: 93.77%
  • Meilleur modèle: checkpoint-2000

Classes supportées

Le modèle peut classifier 9 types de publications :

  1. CASE_REPORTS - Rapports de cas
  2. COMMENT - Commentaires
  3. EDITORIAL - Éditoriaux
  4. GUIDELINES - Directives cliniques
  5. META_ANALYSIS - Méta-analyses
  6. PROSPECTIVE - Études prospectives
  7. RCT - Essais contrôlés randomisés
  8. RETROSPECTIVE - Études rétrospectives
  9. REVIEW - Revues de littérature

Utilisation

from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

# Charger le modèle
model_name = "slepape/ArticleTypePredictionImproved"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)

# Préparer le texte (titre + abstract) - Exemple avec infarctus du myocarde
title = "Percutaneous Coronary Intervention in ST-Elevation Myocardial Infarction"
abstract = "This randomized controlled trial evaluates the efficacy of primary PCI versus thrombolysis in STEMI patients..."
text = f"[TITLE] {title} [SEP] [ABSTRACT] {abstract}"

# Prédiction
inputs = tokenizer(text, return_tensors="pt", max_length=512, truncation=True, padding=True)
with torch.no_grad():
    outputs = model(**inputs)
    predictions = torch.softmax(outputs.logits, dim=-1)
    predicted_class = torch.argmax(predictions, dim=-1).item()

# Mapping des classes
class_names = [
    "CASE_REPORTS", "COMMENT", "EDITORIAL", "GUIDELINES",
    "META_ANALYSIS", "PROSPECTIVE", "RCT", "RETROSPECTIVE", "REVIEW"
]

print(f"Type de publication prédit: {class_names[predicted_class]}")
print(f"Confiance: {predictions[0][predicted_class]:.3f}")

Entraînement

  • Modèle de base: microsoft/BiomedNLP-PubMedBERT-base-uncased-abstract-fulltext
  • Dataset de spécialisation: Publications sur l'infarctus du myocarde équilibrées (9 classes)
  • Technique: Fine-tuning avec optimisation des hyperparamètres
  • Combinaison: Titre + Abstract avec tokens spéciaux [TITLE], [SEP], [ABSTRACT]
  • Domaine d'application: Entraîné sur l'infarctus du myocarde, généralisable à toute la médecine

Évaluation

Le modèle a été testé sur plusieurs types de publications médicales avec d'excellents résultats :

  • RCT: 98% de précision sur les essais randomisés
  • Guidelines: 100% de précision sur les recommandations
  • Meta-Analysis: 94% de précision sur les méta-analyses
  • Classification équilibrée sur toutes les classes

Domaines d'Application

Optimisé pour: Infarctus du myocarde et cardiologie ✅ Applicable à: Toutes les spécialités médicales (oncologie, pneumologie, neurologie, etc.) ✅ Types de publications: Tous les types de recherche biomédicale

Limitations

  • Entraîné spécifiquement sur l'infarctus du myocarde (performance optimale sur ce domaine)
  • Optimisé pour des textes en anglais (titres + abstracts PubMed)
  • Performance optimale avec la structure [TITLE] ... [SEP] [ABSTRACT] ...
  • Recommandé de tester sur votre domaine spécifique pour valider les performances

Citation

Si vous utilisez ce modèle, merci de citer :

ArticleTypePredictionImproved - Medical Publication Type Classifier
Fine-tuned PubMedBERT for medical literature classification
Specialized on myocardial infarction, applicable to all medical domains
2024
Downloads last month
22
Safetensors
Model size
0.1B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support