Transformers documentation

Inferenza Efficiente su GPU Multiple

You are viewing v4.32.1 version. A newer version v4.46.3 is available.
Hugging Face's logo
Join the Hugging Face community

and get access to the augmented documentation experience

to get started

Inferenza Efficiente su GPU Multiple

Questo documento contiene informazioni su come fare inferenza in maniera efficiente su GPU multiple.

Nota: Un setup con GPU multiple può utilizzare la maggior parte delle strategie descritte nella sezione con GPU singola. Tuttavia, è necessario conoscere delle tecniche semplici che possono essere utilizzate per un risultato migliore.

BetterTransformer per inferenza più rapida

Abbiamo recentemente integrato BetterTransformer per inferenza più rapida su multi-GPU per modelli su testo, immagini e audio. Controlla il documento con queste integrazioni qui per maggiori dettagli.