DeepSeek rilascia DSpark, framework open source per LLM inferenza più veloce • Meteora Web Agency

Il panorama dell'intelligenza artificiale ha assistito a un nuovo importante contributo open source da parte di DeepSeek, azienda cinese che ha recentemente rilasciato DSpark, un framework innovativo con licenza MIT progettato per accelerare l'inferenza dei grandi modelli linguistici (LLM) senza alterare i risultati attesi. L'annuncio arriva in un momento in cui il dibattito geopolitico sull'AI si intensifica, con gli Stati Uniti che limitano i modelli di Anthropic e OpenAI, mentre DeepSeek continua a promuovere la trasparenza e la condivisione tecnologica.

Come funziona DSpark: un sistema di decodifica speculativa migliorato

La decodifica speculativa non è un concetto nuovo, ma DSpark introduce due innovazioni chiave. In primo luogo, adotta una generazione semi-autoregressiva: un modulo di bozza parallelo combinato con una testa sequenziale leggera che migliora la coerenza delle previsioni multiple. In secondo luogo, implementa una verifica basata sulla confidenza, dove uno scheduler adatta dinamicamente quanti token della bozza controllare, in base al carico di servizio corrente. Questo evita di sprecare risorse su ipotesi deboli, specialmente sotto traffico elevato.

DeepSeek ha applicato DSpark ai suoi modelli di punta: DeepSeek-V4-Flash, un modello mixture-of-experts da 284 miliardi di parametri con 13 miliardi attivi, e DeepSeek-V4-Pro, un gigante da 1,6 trilioni di parametri con 49 miliardi attivi. Entrambi supportano finestre di contesto fino a un milione di token. Nei test in produzione, DSpark ha migliorato la velocità di generazione per utente dal 60% all'85% per V4-Flash e dal 57% al 78% per V4-Pro rispetto alla linea di base MTP-1. In termini di throughput aggregato a target di velocità elevati, i miglioramenti raggiungono il 661% e il 406%, poiché il sistema evita il collasso delle prestazioni sotto carico.

Oltre DeepSeek-V4: applicabilità ad altri modelli open weight

Il rilascio include checkpoints per famiglie come Alibaba Qwen e Google Gemma, dimostrando che DSpark non è limitato ai modelli DeepSeek. I team aziendali che gestiscono modelli open weight possono addestrare moduli di bozza compatibili con i propri modelli target, sfruttando il codebase DeepSpec pubblicato su GitHub e Hugging Face sotto licenza MIT. Tuttavia, non si tratta di un interruttore attivabile da API: è necessario il controllo dei pesi e dello stack di servizio.

La ricerca in questo campo ha radici lontane. Già nel 2018, Mitchell Stern e colleghi proposero la decodifica parallela a blocchi. Nel 2022, SpecDec e il lavoro di Leviathan et al. hanno formalizzato la decodifica speculativa per transformer. DSpark si inserisce in questa tradizione, migliorando sia la qualità delle bozze sia l'efficienza della verifica.

Per gli sviluppatori, DeepSpec fornisce un percorso concreto per addestrare e valutare moduli di decodifica speculativa. La pipeline richiede risorse significative: circa 38 TB di cache target per il setup default con Qwen3-4B, e una singola macchina con 8 GPU. Ciononostante, il rilascio permette di riprodurre e adattare il metodo.

I primi test della comunità confermano i guadagni. Lo sviluppatore Rafael Caricio ha riportato un throughput di 60 token al secondo con DSpark su V4-Flash, contro 26,33 senza decodifica speculativa e 39,88 con MTP-1, un miglioramento del 51% rispetto a MTP-1. Tuttavia, in sessioni multi-turno con contesto crescente, l'accettazione delle bozze può calare, mostrando che la qualità della previsione resta cruciale.

In definitiva, DSpark dimostra che l'efficienza dell'inferenza è un campo ancora ricco di ottimizzazioni. Per le imprese, il messaggio è chiaro: i prossimi guadagni prestazionali non arriveranno solo da modelli più grandi, ma da modi più intelligenti di eseguire quelli esistenti. Un recente studio della Boston University ha mostrato che considerare l'AI come un collega riduce la rilevazione degli errori, sottolineando l'importanza di strumenti come DSpark per mantenere l'efficienza senza compromettere l'accuratezza. Inoltre, hub di ricerca come Zurigo stanno diventando centri nevralgici per l'AI, sebbene l'Europa osservi da spettatrice. Per approfondire, si veda l'articolo su VentureBeat.

Fonte: https://venturebeat.com/orchestration/deepseek-open-sources-dspark-a-new-framework-to-speed-up-llm-inference-by-up-to-85