In un post sul blog ROCm dell’azienda, AMD analizza il modo in cui l’utilizzo di hardware, memoria, bandwidth di comunicazione e scalabilità contribuiscono alle prestazioni delle inferenze, descrivendo nel dettaglio le configurazioni ottimali per le GPU AMD Instinct MI300X.
L’ottimizzazione delle prestazioni dell’LLM sulle GPU – sottolinea l’azienda – è impegnativa a causa delle diverse esigenze dei modelli, dei vincoli di memoria e del bilanciamento di latenza e throughput. I dati principali del documento condiviso da AMD includono:
- Prestazioni elevate: AMD Instinct MI300X supera l’H100 in scenari con limitazioni di memoria, come la generazione di output di grandi dimensioni o casi d’uso con stringenti requisiti di latenza, ad esempio TPOT.
- Supporto per modelli estesi: L’elevata capacità di memoria consente l’esecuzione di modelli di grandi dimensioni come Llama-3.1 405B e DeepSeek v3 e R1, eccellendo al contempo con modelli più piccoli (≤30B) in TP1 e riducendo al minimo l’overhead di scalabilità della GPU.
- Maggiore efficienza e affidabilità: L’utilizzo di un minor numero di nodi per modelli di grandi dimensioni riduce i costi dell’infrastruttura e migliora l’affidabilità del sistema.
I contenuti del blog post si sviluppano attraverso quattro passaggi principali: procedura di inferenza vLLM su MI300X; benchmark di inferenza; analisi delle prestazioni e considerazioni specifiche del modello per il servizio online Latency-vs-Throughput; elementi chiave da prendere in considerazione.
Nella prima sezione del documento di AMD, gli sviluppatori possono avere un’introduzione all’inferenza su MI300X. Vengono illustrati i vantaggi architetturali di MI300X, come accedere a container docker ottimizzati e come creare e testare il proprio endpoint di inferenza vLLM.
Le successive due sezioni forniscono benchmark dettagliati e indicazioni pratiche concernenti alcuni dei modelli più utilizzati, come Llama e Mistral. Il documento si conclude con una sintesi dei punti essenziali da tenere in considerazione.
È possibile consultare il documento sul blog di AMD.
Inoltre, il team software di AMD pubblica regolarmente aggiornamenti dei container con nuove funzionalità e ottimizzazioni su AMD Infinity Hub.