Transformers documentation
Inferenza Efficiente su GPU Multiple
Iniziare
Esercitazione
Pipeline per l'inferenzaCarica istanze pre-allenate con AutoClassPreprocessFine-tuning di un modello pre-addestratoAllenamento distribuito con 🤗 AccelerateCondividere un modello
Guide pratiche
Crea un'architettura personalizzataCondividere modelli personalizzatiAddestramento con scriptModelli multilingua per l'inferenzaConvertire modelli tensorflowEsporta modelli TransformersAddestramento efficiente su CPUAddestramento efficiente su multiple CPUAddestramento su TPUAddestramento su Hardware SpecializzatoInferenza Efficiente su CPUInferenza su una GPUInferenza Efficiente su GPU MultipleInferenza su Hardware SpecializzatoIstanziare un big modelPassaggio da pacchetti precedentiDebugging
Guide How-to
You are viewing v4.56.2 version. A newer version v5.8.1 is available.
Inferenza Efficiente su GPU Multiple
Questo documento contiene informazioni su come fare inferenza in maniera efficiente su GPU multiple.
Nota: Un setup con GPU multiple può utilizzare la maggior parte delle strategie descritte nella sezione con GPU singola. Tuttavia, è necessario conoscere delle tecniche semplici che possono essere utilizzate per un risultato migliore.
BetterTransformer per inferenza più rapida
Abbiamo recentemente integrato BetterTransformer per inferenza più rapida su multi-GPU per modelli su testo, immagini e audio. Controlla il documento con queste integrazioni qui per maggiori dettagli.