I ricercatori di Xiaomi hanno presentato HarnessX, un framework innovativo che automatizza l'ottimizzazione dell'impalcatura software degli agenti AI. L'impalcatura, o harness, è lo strato operativo che collega il modello linguistico di base all'ambiente esterno, gestendo prompt, strumenti, memoria e flussi di controllo. Fino ad oggi, queste configurazioni erano statiche e realizzate artigianalmente, richiedendo interventi manuali per ogni modifica. HarnessX cambia radicalmente questo approccio, trattando l'impalcatura come un oggetto componibile e applicando miglioramenti autonomi al suo codice.
Le tre sfide dell'ingegneria dell'impalcatura AI
L'impalcatura di un agente AI è fondamentale per le sue prestazioni, ma presenta tre limitazioni principali. Primo, è statica e artigianale: qualsiasi variazione del modello sottostante o dell'ambiente operativo richiede riscritture manuali. Secondo, soffre di entanglement architetturale: prompt, wrapper degli strumenti, politiche di retry e gestione della memoria sono strettamente accoppiati, per cui modificare un componente può rompere silenziosamente altri. Terzo, l'impalcatura e il modello vengono ottimizzati in isolamento: le tracce di esecuzione generate durante i test vengono scartate invece di essere usate per addestrare il modello. Questo crea un collo di bottiglia in cui i team non catturano il pieno valore dei dati operativi.
Sponsored Protocol
HarnessX: una fonderia autonoma per agenti AI
HarnessX risolve questi problemi con una fonderia unificata per impalcature. L'innovazione chiave è trattare l'impalcatura come un oggetto di prima classe, separando la configurazione del modello da quella dell'impalcatura. Questo permette di scambiare, adattare ed evolvere l'impalcatura senza toccare il modello sottostante. Il framework scompone il comportamento dell'agente in componenti come assemblaggio del contesto, gestione della memoria, ecosistema di strumenti, flusso di controllo e osservabilità. Ogni comportamento specifico è implementato come un processore che si innesta in precisi hook del ciclo di vita dell'impalcatura. Per automatizzare l'ottimizzazione, HarnessX introduce AEGIS, un motore di evoluzione guidato dalle tracce di esecuzione. AEGIS inquadra l'adattamento dell'impalcatura come un problema di apprendimento per rinforzo, ma deve affrontare tre patologie: reward hacking, catastrophic forgetting e sotto-esplorazione. Per prevenirle, utilizza una pipeline a quattro stadi: Digester comprime le tracce in riassunti strutturati; Planner analizza i riassunti per esplorare cambiamenti strutturali; Evolver genera modifiche a livello di codice e le testa; Critic e gate valutano le modifiche e rigettano eventuali regressioni.
Sponsored Protocol
Co-evoluzione impalcatura-modello: il vero punto di forza
Ciò che distingue HarnessX è la co-evoluzione tra impalcatura e modello. Mentre l'impalcatura si adatta, le tracce di esecuzione vengono convertite in segnali di reinforcement learning per il modello di base. Questo avviene tramite cross-harness GRPO (Group Relative Policy Optimization), lo stesso algoritmo usato per addestrare modelli di ragionamento come DeepSeek-R1. Quando il modello viene affinato, i traiettorie di esecuzione per lo stesso compito provenienti da diverse versioni dell'impalcatura vengono raggruppati. Ciò permette al modello di interiorizzare cambiamenti strategici di alto livello, come l'uso di un nuovo endpoint API o la gestione di un budget di esecuzione. Strumenti simili sono stati introdotti da altre aziende, come Google con Chrome 149 e Gemini e Alibaba con i suoi modelli predittivi.
Sponsored Protocol
Risultati dei benchmark: +44% per i modelli più piccoli
I test di HarnessX su cinque benchmark — ingegneria del software, dialogo multigiro, navigazione web, ragionamento multistep e pianificazione embodied — hanno mostrato un miglioramento medio del 14,5% su 15 combinazioni modello-benchmark. Il modello open-weight Qwen3.5-9B ha ottenuto un impressionante +44% nel benchmark ALFWorld di pianificazione embodied. I modelli più piccoli hanno beneficiato maggiormente dell'evoluzione dinamica dell'impalcatura. Ad esempio, nel benchmark SWE-bench Verified, il Qwen3.5-9B ha guadagnato un +18,2%. La co-evoluzione ha aggiunto un ulteriore 4,7% medio di prestazioni.
Un episodio emblematico: durante il benchmark GAIA, l'agente falliva perché il browser headless utilizzato per raschiare Wikipedia andava in timeout sul frontend JavaScript pesante del sito. HarnessX ha analizzato le tracce, diagnosticato l'errore e scritto un nuovo strumento che bypassava il browser interrogando direttamente l'API MediaWiki. Scambiato lo strumento nell'impalcatura, i compiti sono stati risolti. In un altro test, l'agente restava bloccato in loop di paginazione durante acquisti su WebShop. HarnessX ha costruito un processore che rilevava le azioni ripetitive e iniettava un avviso nel contesto per forzare una decisione, eliminando il comportamento di loop.
Sponsored Protocol
Nonostante i limiti — il meta-agente richiede modelli potenti come Claude Opus 4.6 — HarnessX dimostra che l'ingegneria dell'impalcatura è una leva concreta per migliorare le prestazioni degli agenti AI, specialmente per i modelli più piccoli. Per i team che utilizzano modelli open-weight su flussi di lavoro complessi, l'evoluzione dell'impalcatura può essere un primo passo prima di passare a modelli più costosi.