Tier di memoria contesto AI: Nvidia CMX e Solidigm risolvono il collo di bottiglia • Meteora Web Agency

Il collo di bottiglia dell'intelligenza artificiale si è spostato. Non è più la potenza di calcolo delle GPU a frenare l'inferenza, ma la gestione del contesto. Lo afferma Jeff Harthorn, responsabile della ricerca applicata AI di Solidigm, spiegando che il contesto sta crescendo più velocemente di qualsiasi altra variabile. Con l'evoluzione dei chatbot in sistemi agentici multi-step, la memoria necessaria per mantenere lo stato tra le sessioni è esplosa, rendendo insufficienti i tradizionali livelli di storage.

Il contesto diventa il nuovo collo di bottiglia dell'AI

Secondo Harthorn, le GPU sono diventate molto più economiche per FLOP, i modelli sono più efficienti, ma il contesto cresce a un ritmo superiore. Le finestre di contesto si allargano, i sistemi agentici concatenano decine o centinaia di chiamate al modello, e le aziende richiedono che lo stato persista tra le sessioni per audit e riutilizzo. Questi tre fenomeni simultanei stanno spingendo i volumi di contesto oltre ogni limite progettuale. Il risultato è che una quota significativa dei cicli GPU viene spesa per ricalcolare il contesto, invece di generare nuovi token. Harthorn sottolinea che l'utilizzo delle GPU è diventato in parte un problema di storage.

Nasce il tier di memoria contesto tra GPU e storage

La soluzione è un nuovo livello intermedio: un tier dedicato tra la memoria HBM delle GPU e lo storage di rete. Nvidia ha formalizzato questa architettura con il termine CMX (Context Memory Extension). Aziende come Solidigm stanno costruendo SSD ottimizzati per questo scopo, progettati per ospitare la KV cache, i dati di inferenza che consentono ai modelli di conservare e riutilizzare il contesto. Ace Stryker, director of AI and ecosystem marketing di Solidigm, spiega che lo storage non è mai stato una priorità nell'infrastruttura AI, ma ora se non è all'altezza, il ROI ne risente direttamente.

Perché l'inferenza richiede un'architettura diversa dall'addestramento

L'architettura di storage attuale è ereditata dall'addestramento, che è sequenziale e dominato dalla scrittura. L'inferenza, invece, ha un profilo I/O a grana fine, sensibile alla latenza e sempre più stateful. I dati KV cache e i dati di retrieval non si adattano né alla HBM delle GPU, costosa e limitata, né allo storage tradizionale. Harthorn definisce questo divario architetturale come il punto più interessante del lavoro di sistema oggi. La ricomputazione della pre-fill è il sintomo più evidente: quando la KV cache non è disponibile in un tier veloce, il sistema la ricalcola, bruciando cicli GPU che non producono nuovo valore.

Cosa serve per supportare l'inferenza AI a livello storage

Gli SSD devono offrire latenza di coda prevedibile, non solo velocità media. Nei data center hyperscale, dove il vincolo è la potenza, il costo per petabyte diventa la metrica chiave. Solidigm utilizza NAND a gate flottante per ottimizzare i watt per petabyte. L'integrazione di rete tramite NVMe over Fabrics, RDMA e futuro supporto CXL è essenziale. Harthon conclude che nei prossimi anni la domanda non sarà se serva più potenza di calcolo, ma se l'infrastruttura può usare quello che ha in modo più efficiente, e la risposta passa attraverso il tier di contesto in costruzione.

Per approfondire le sfide legate alla gestione del talento nell'AI, leggi l'articolo su Meta e la rivolta dei suoi ingegneri AI. Per un'introduzione alla KV cache, consulta la pagina Wikipedia.

Fonte: https://venturebeat.com/orchestration/ai-hit-the-memory-wall-now-it-needs-a-new-context-tier

L'inferenza AI si blocca sul contesto: Nvidia e Solidigm lanciano il tier di memoria CMX

Il contesto diventa il nuovo collo di bottiglia dell'AI

Nasce il tier di memoria contesto tra GPU e storage

Perché l'inferenza richiede un'architettura diversa dall'addestramento

Cosa serve per supportare l'inferenza AI a livello storage

> AUTHOR_EXTRACTED

Meteora Web

Costruiamo la presenza digitale che la tua azienda merita.

Rimani sul pezzo

> MW_JOURNAL LATEST_LOGS

Next.js App Router — Server Components, Data Fetching e Full-Stack per Applicazioni che Funzionano

Self-Harness come gli agenti AI riscrivono le proprie regole migliorando le performance fino al 60%

Splunk e Cisco svelano l'architettura per imprese agentiche che apprendono dai propri dati operativi

Pinia per Vue 3 — State Management Moderno che Finalmente Non Fa Rimpiangere Vuex

Sakana lancia Fugu: l'orchestratore AI multi-modello batte Claude Fable 5 su LiveCodeBench