f in x
> cd .. / HUB_EDITORIALE > Visualizza in Inglese
News

L'inferenza AI si blocca sul contesto: Nvidia e Solidigm lanciano il tier di memoria CMX

[2026-06-22] Author: Meteora Web

Il collo di bottiglia dell'intelligenza artificiale si è spostato. Non è più la potenza di calcolo delle GPU a frenare l'inferenza, ma la gestione del contesto. Lo afferma Jeff Harthorn, responsabile della ricerca applicata AI di Solidigm, spiegando che il contesto sta crescendo più velocemente di qualsiasi altra variabile. Con l'evoluzione dei chatbot in sistemi agentici multi-step, la memoria necessaria per mantenere lo stato tra le sessioni è esplosa, rendendo insufficienti i tradizionali livelli di storage.

Il contesto diventa il nuovo collo di bottiglia dell'AI

Secondo Harthorn, le GPU sono diventate molto più economiche per FLOP, i modelli sono più efficienti, ma il contesto cresce a un ritmo superiore. Le finestre di contesto si allargano, i sistemi agentici concatenano decine o centinaia di chiamate al modello, e le aziende richiedono che lo stato persista tra le sessioni per audit e riutilizzo. Questi tre fenomeni simultanei stanno spingendo i volumi di contesto oltre ogni limite progettuale. Il risultato è che una quota significativa dei cicli GPU viene spesa per ricalcolare il contesto, invece di generare nuovi token. Harthorn sottolinea che l'utilizzo delle GPU è diventato in parte un problema di storage.

Sponsored Protocol

Nasce il tier di memoria contesto tra GPU e storage

La soluzione è un nuovo livello intermedio: un tier dedicato tra la memoria HBM delle GPU e lo storage di rete. Nvidia ha formalizzato questa architettura con il termine CMX (Context Memory Extension). Aziende come Solidigm stanno costruendo SSD ottimizzati per questo scopo, progettati per ospitare la KV cache, i dati di inferenza che consentono ai modelli di conservare e riutilizzare il contesto. Ace Stryker, director of AI and ecosystem marketing di Solidigm, spiega che lo storage non è mai stato una priorità nell'infrastruttura AI, ma ora se non è all'altezza, il ROI ne risente direttamente.

Sponsored Protocol

Perché l'inferenza richiede un'architettura diversa dall'addestramento

L'architettura di storage attuale è ereditata dall'addestramento, che è sequenziale e dominato dalla scrittura. L'inferenza, invece, ha un profilo I/O a grana fine, sensibile alla latenza e sempre più stateful. I dati KV cache e i dati di retrieval non si adattano né alla HBM delle GPU, costosa e limitata, né allo storage tradizionale. Harthorn definisce questo divario architetturale come il punto più interessante del lavoro di sistema oggi. La ricomputazione della pre-fill è il sintomo più evidente: quando la KV cache non è disponibile in un tier veloce, il sistema la ricalcola, bruciando cicli GPU che non producono nuovo valore.

Cosa serve per supportare l'inferenza AI a livello storage

Gli SSD devono offrire latenza di coda prevedibile, non solo velocità media. Nei data center hyperscale, dove il vincolo è la potenza, il costo per petabyte diventa la metrica chiave. Solidigm utilizza NAND a gate flottante per ottimizzare i watt per petabyte. L'integrazione di rete tramite NVMe over Fabrics, RDMA e futuro supporto CXL è essenziale. Harthon conclude che nei prossimi anni la domanda non sarà se serva più potenza di calcolo, ma se l'infrastruttura può usare quello che ha in modo più efficiente, e la risposta passa attraverso il tier di contesto in costruzione.

Sponsored Protocol

Per approfondire le sfide legate alla gestione del talento nell'AI, leggi l'articolo su Meta e la rivolta dei suoi ingegneri AI. Per un'introduzione alla KV cache, consulta la pagina Wikipedia.

Fonte: https://venturebeat.com/orchestration/ai-hit-the-memory-wall-now-it-needs-a-new-context-tier

Meteora Web

> AUTHOR_EXTRACTED

Meteora Web

[ Read Full Dossier ]

> METEORA_WEB // WEB AGENCY

Costruiamo la presenza digitale che la tua azienda merita.

Siti web, social, pubblicità online, e-commerce e hosting performante: ingegnerizzati con metodo da ingegneri informatici a Sciacca, per tutta Italia.

> MW_JOURNAL

> READ_ALL()