Xiaomi HarnessX: AI agenti più performanti con impalcatura auto-ottimizzante • Meteora Web Agency

I ricercatori di Xiaomi hanno presentato HarnessX, un framework innovativo che automatizza l'ottimizzazione dell'impalcatura software degli agenti AI. L'impalcatura, o harness, è lo strato operativo che collega il modello linguistico di base all'ambiente esterno, gestendo prompt, strumenti, memoria e flussi di controllo. Fino ad oggi, queste configurazioni erano statiche e realizzate artigianalmente, richiedendo interventi manuali per ogni modifica. HarnessX cambia radicalmente questo approccio, trattando l'impalcatura come un oggetto componibile e applicando miglioramenti autonomi al suo codice.

Le tre sfide dell'ingegneria dell'impalcatura AI

L'impalcatura di un agente AI è fondamentale per le sue prestazioni, ma presenta tre limitazioni principali. Primo, è statica e artigianale: qualsiasi variazione del modello sottostante o dell'ambiente operativo richiede riscritture manuali. Secondo, soffre di entanglement architetturale: prompt, wrapper degli strumenti, politiche di retry e gestione della memoria sono strettamente accoppiati, per cui modificare un componente può rompere silenziosamente altri. Terzo, l'impalcatura e il modello vengono ottimizzati in isolamento: le tracce di esecuzione generate durante i test vengono scartate invece di essere usate per addestrare il modello. Questo crea un collo di bottiglia in cui i team non catturano il pieno valore dei dati operativi.

HarnessX: una fonderia autonoma per agenti AI

HarnessX risolve questi problemi con una fonderia unificata per impalcature. L'innovazione chiave è trattare l'impalcatura come un oggetto di prima classe, separando la configurazione del modello da quella dell'impalcatura. Questo permette di scambiare, adattare ed evolvere l'impalcatura senza toccare il modello sottostante. Il framework scompone il comportamento dell'agente in componenti come assemblaggio del contesto, gestione della memoria, ecosistema di strumenti, flusso di controllo e osservabilità. Ogni comportamento specifico è implementato come un processore che si innesta in precisi hook del ciclo di vita dell'impalcatura. Per automatizzare l'ottimizzazione, HarnessX introduce AEGIS, un motore di evoluzione guidato dalle tracce di esecuzione. AEGIS inquadra l'adattamento dell'impalcatura come un problema di apprendimento per rinforzo, ma deve affrontare tre patologie: reward hacking, catastrophic forgetting e sotto-esplorazione. Per prevenirle, utilizza una pipeline a quattro stadi: Digester comprime le tracce in riassunti strutturati; Planner analizza i riassunti per esplorare cambiamenti strutturali; Evolver genera modifiche a livello di codice e le testa; Critic e gate valutano le modifiche e rigettano eventuali regressioni.

Co-evoluzione impalcatura-modello: il vero punto di forza

Ciò che distingue HarnessX è la co-evoluzione tra impalcatura e modello. Mentre l'impalcatura si adatta, le tracce di esecuzione vengono convertite in segnali di reinforcement learning per il modello di base. Questo avviene tramite cross-harness GRPO (Group Relative Policy Optimization), lo stesso algoritmo usato per addestrare modelli di ragionamento come DeepSeek-R1. Quando il modello viene affinato, i traiettorie di esecuzione per lo stesso compito provenienti da diverse versioni dell'impalcatura vengono raggruppati. Ciò permette al modello di interiorizzare cambiamenti strategici di alto livello, come l'uso di un nuovo endpoint API o la gestione di un budget di esecuzione. Strumenti simili sono stati introdotti da altre aziende, come Google con Chrome 149 e Gemini e Alibaba con i suoi modelli predittivi.

Risultati dei benchmark: +44% per i modelli più piccoli

I test di HarnessX su cinque benchmark — ingegneria del software, dialogo multigiro, navigazione web, ragionamento multistep e pianificazione embodied — hanno mostrato un miglioramento medio del 14,5% su 15 combinazioni modello-benchmark. Il modello open-weight Qwen3.5-9B ha ottenuto un impressionante +44% nel benchmark ALFWorld di pianificazione embodied. I modelli più piccoli hanno beneficiato maggiormente dell'evoluzione dinamica dell'impalcatura. Ad esempio, nel benchmark SWE-bench Verified, il Qwen3.5-9B ha guadagnato un +18,2%. La co-evoluzione ha aggiunto un ulteriore 4,7% medio di prestazioni.

Un episodio emblematico: durante il benchmark GAIA, l'agente falliva perché il browser headless utilizzato per raschiare Wikipedia andava in timeout sul frontend JavaScript pesante del sito. HarnessX ha analizzato le tracce, diagnosticato l'errore e scritto un nuovo strumento che bypassava il browser interrogando direttamente l'API MediaWiki. Scambiato lo strumento nell'impalcatura, i compiti sono stati risolti. In un altro test, l'agente restava bloccato in loop di paginazione durante acquisti su WebShop. HarnessX ha costruito un processore che rilevava le azioni ripetitive e iniettava un avviso nel contesto per forzare una decisione, eliminando il comportamento di loop.

Nonostante i limiti — il meta-agente richiede modelli potenti come Claude Opus 4.6 — HarnessX dimostra che l'ingegneria dell'impalcatura è una leva concreta per migliorare le prestazioni degli agenti AI, specialmente per i modelli più piccoli. Per i team che utilizzano modelli open-weight su flussi di lavoro complessi, l'evoluzione dell'impalcatura può essere un primo passo prima di passare a modelli più costosi.

Fonte: https://venturebeat.com/orchestration/xiaomis-harnessx-rewrites-its-own-ai-scaffolding-mid-task-and-smaller-models-gain-the-most

Xiaomi HarnessX Migliora gli Agenti AI del 14,5% Ottimizzando Automaticamente l'Impalcatura Software

Le tre sfide dell'ingegneria dell'impalcatura AI

HarnessX: una fonderia autonoma per agenti AI

Co-evoluzione impalcatura-modello: il vero punto di forza

Risultati dei benchmark: +44% per i modelli più piccoli

> AUTHOR_EXTRACTED

Meteora Web

Costruiamo la presenza digitale che la tua azienda merita.

Rimani sul pezzo

> MW_JOURNAL LATEST_LOGS

Amazon Prime Day 2026: sconti fino a 800 dollari su MacBook, AirPods e accessori Apple

Mindstone presenta Rebel sistema operativo AI locale-first con orchestrazione multi-modello

Due forti terremoti di magnitudo 7.5 devastano il Venezuela nord-occidentale: migliaia di dispersi e stato di emergenza

Ondata di caldo in Europa mette in ginocchio la rete elettrica — e l’Italia rischia il digital blackout

Ex designer Apple e Audi creano Amble One, un buggy elettrico di lusso ispirato al moon buggy