La business AI richiede hardware specifico per fare inferenza: l’architettura Ada Lovelace della scheda Nvidia L4 è ideale per questo tipo di task e risulta anche molto efficiente dal punto di vista energetico.
Nvidia è l’azienda che ha creato il mondo delle Gpu, le unità grafiche nate per accelerare i videogiochi seguendo una matematica molto simile a quella usata anche per minare criptovalute o per eseguire software Ai. Seguendo Nvidia, le macrocategorie dei carichi di lavoro sono HPC, rendering, Vpc/Vms, Omniverse ed appunto Ai.
Generalità sulle Gpu
Nel lungo percorso dell’automazione, molti carichi di lavoro sono affidati alla virtualizzazione di PC o macchine semplici, ovviamente al rendering grafico, al metaverso industriale e soprattutto al deep learning e alla più ampia intelligenza artificiale. Se volete visualizzare il funzionamento delle Gpu potete vedere questo video di Branch Education.
Certamente, le attività AI vanno suddivise tra training ed inference. Mediaticamente, l’ultimo grande prodotto dell’azienda è l’M200 in architettura Blackwell, al quale è stata dedicata moltissima comunicazione (qui un articolo Seeweb su questo mercato). Si tratta però di un prodotto dedicato a grandissimi centri di calcolo nei quali si fa training, seguendo esigenze diverse da quelle del business. Nella gran parte dei casi, infatti, i servizi proposti sono focalizzati sull’inferenza, sull’esecuzione di un modello già addestrato, per il quale è molto più conveniente un altro tipo di prodotto.
In questo settore i prodotti attuali principali di Nvidia sono la L40 e la L4; quest’ultima ha aggiornato la ben nota T4.
Queste schede si compongono di migliaia di elementi tra cores e memorie. Partendo da un’architettura di riferimento (Blackwell, Hopper o Lovelace principalmente), il chip principali di Nvidia implementano tre tipi di core -Cuda, Rt o Tensor-, delle memorie ed una sistema di connessione normale o veloce, che per Nvidia si chiama NV ed è di tipo link o switch.
L’interconnessione tra chip
La velocità di connessione tra chip, quindi la disponibilità di un’amplissima banda passante, è l’elemento centrale nei sistemi allo stato dell’arte. Nonostante lo implementino solo i più grandi datacenter del mondo, è importante conoscerne l’esistenza per comprendere le future evoluzioni delle soluzioni basate sulle Gpu.
Nvidia ha il suo progetto, articolato in link e switch; Intel e Amd hanno l’UALink, un progetto analogo, per il quale hanno unito le forze.
NVLink è una tecnologia di interconnessione ad alta velocità proprietaria, progettata per fornire una comunicazione ultra-rapida tra più Gpu e Cpu. Appare come un connettore esterno, collegato fisicamente da un bridge. La NVLink di seconda generazione consente una comunicazione ad alta velocità tra Gpu, con una larghezza di banda fino a 100 GB/sec.
NVSwitch è un componente più complesso e interno, simile ad un chip o modulo d’interconnessione, che funziona come un router e gestisce le comunicazioni tra molte Gpu. Non è visibile esternamente come singolo connettore. Né L4, né L40 supportano le connessioni NV, riservate a configurazioni multi-Gpu più complesse.
La scheda Nvidia L4
La Nvidia L4, uscita nel 2023, è oggi la scheda di riferimento per portare inferenza nella maggior parte delle applicazioni, in server sia standard sia edge, ma tenendo un occhio al consumo energetico e ai costi aziendali.
Le tre schede finora citate (L40, L4 e T4) presentano forti differenze. La L4 è ideale per l’inferenza in varie applicazioni, compreso il deep learning, e si distingue per l’efficienza energetica.
Nvidia L4 è costruita sull’architettura Ada Lovelace ed è parte integrante della piattaforma di data center Nvidia, ideale per AI, grafica, simulazione e scienza dei dati. La scheda L4 è alloggiata con fattore di forma a basso profilo che entra in qualsiasi server. La bassa potenza, soli 72 W, la rende una soluzione efficiente e conveniente per qualsiasi istanza di server o cloud nell’ecosistema Nvidia.
Dell’ecosistema Nvidia del 2024 parla un magnifico video della britannica Scan System, dal quale riprendiamo il prossimo schema.
Dettagliamo ora gli elementi architetturali e strutturali della Gpu Nvidia L4.
I cores: Cuda, Tensor ed RT
I Cuda cores sono le basi di Gpu per il calcolo parallelo sviluppate da Nvidia per applicazioni di deep learning, HPC, rendering 3D, mining di criptovalute e videogiochi.
Questi cores sono raggruppati in blocchi di parecchie unità, secondo lo schema dello streaming multiprocessor, che comprendono unità di elaborazione, memoria e logica di controllo. Ogni SM contiene da 64 o 128 cores, unità di esecuzione e risorse di memoria.
Ad ogni nuova generazione, le diverse generazioni di Cuda cores migliorano in prestazioni e numero di core per SM. Si tratta di unità molto piccole rispetto al core di una classica Gpu, per cui è normale che ogni Gpu ne ospiti migliaia.
I Tensor Cores sono fondamentali per accelerare l’inferenza AI e il deep learning. Sono stati progettati per il deep learning e ottimizzati per calcoli di inferenza con diverse modalità di precisione (FP16, INT8, INT4).
Accelerano significativamente le operazioni matriciali alla base delle reti neurali.
Le Gpu Nvidia ospitano anche gli RT cores, dedicati al ray tracing in tempo reale. Si tratta di una caratteristica non rilevante per l’AI.
Architettura Ada Lovelace
Dell’architettura Ada Lovelace esistono svariate versioni. In particolare, la L4 adotta la AD104, mentre la L40 si affida alla più potente AD102. Qui di seguito riproduciamo un elenco delle versioni esistenti secondo Wikipedia.
Image: NV_Lovelace_wikipedia
BOX – Storia recente delle architetture Nvidia
La storia di Nvidia parte dal modello Celsius del 1999. Le ultime architetture sono:
- B, Blackwell (marzo 2024)
- H, Hopper (marzo 2022)
- L, Ada Lovelace (settembre 2022)
- A, Ampere (2020)
- T, Turing (2018)
- V, Volta (2017)
Ovviamente, i prodotti commerciali vengono rilasciati negli anni successivi rispetto al rilascio dell’architettura.
Conclusioni
La Gpu L4 di Nvidia offre una soluzione ideale per le aziende che cercano di sfruttare la potenza dell’intelligenza artificiale. La sua architettura efficiente, le elevate prestazioni e il basso consumo energetico la rendono una risorsa di riferimento nell’esecuzione di carichi di lavoro aziendali.