Transformers

You are viewing v4.38.0 version. A newer version v4.48.2 is available.

Join the Hugging Face community

and get access to the augmented documentation experience

Collaborate on models, datasets and Spaces

Faster examples with accelerated inference

Switch between documentation themes

to get started

Inferenza Efficiente su GPU Multiple

Questo documento contiene informazioni su come fare inferenza in maniera efficiente su GPU multiple.

Nota: Un setup con GPU multiple può utilizzare la maggior parte delle strategie descritte nella sezione con GPU singola. Tuttavia, è necessario conoscere delle tecniche semplici che possono essere utilizzate per un risultato migliore.

BetterTransformer per inferenza più rapida

Abbiamo recentemente integrato BetterTransformer per inferenza più rapida su multi-GPU per modelli su testo, immagini e audio. Controlla il documento con queste integrazioni qui per maggiori dettagli.

←Inferenza su una GPU Inferenza su Hardware Specializzato→