f in x
Alibaba addestra modelli AI a prevedere gli ambienti invece che agire e supera sette benchmark
> cd .. / HUB_EDITORIALE > Visualizza in Inglese
News

Alibaba addestra modelli AI a prevedere gli ambienti invece che agire e supera sette benchmark

[2026-06-25] Author: Meteora Web

Il team Qwen di Alibaba ha rilasciato Qwen-AgentWorld, due modelli di intelligenza artificiale che non imparano a compiere azioni ma a predire cosa restituirà l'ambiente circostante. Questo approccio, definito world modeling, ha permesso di superare sette benchmark nel settore degli agenti autonomi, inclusi tre mai visti durante l'addestramento. I modelli, basati su architettura Mixture-of-Experts, coprono domini come MCP, ricerca web, terminale, ingegneria del software, Android, web e sistema operativo.

Un cambio di paradigma nella formazione degli agenti

La maggior parte dei modelli agente è addestrata a rispondere a una domanda: dato ciò che l'ambiente ha appena mostrato, quale azione compiere? Qwen-AgentWorld ribalta la prospettiva: dato ciò che l'agente ha appena fatto, cosa mostrerà l'ambiente? Questa inversione è il cuore del cosiddetto language world model, che apprende a prevedere lo stato successivo dell'ambiente per sette domini sotto un unico obiettivo formativo. In contrasto, i precedenti lavori come WebWorld coprivano solo ambienti web, mentre Snowflake Agent World Model generava ambienti basati su codice. Qwen-AgentWorld è il primo a integrare la modellazione ambientale dallo stadio iniziale di pre-addestramento.

Sponsored Protocol

Tre fasi di addestramento su oltre 10 milioni di traiettorie

Alibaba ha addestrato entrambi i modelli in tre fasi su oltre 10 milioni di traiettorie di interazione provenienti da esecuzioni reali di agenti. La prima fase insegna al modello come si comportano i sistemi di file, gli stati del terminale, le modifiche al DOM del browser e le risposte API. La seconda fase addestra il modello a ragionare su ciò che accadrà prima di prevederlo. La terza fase, di reinforcement learning, affina le previsioni utilizzando controlli basati su regole e valutazioni di qualità. I modelli, di tipo Mixture-of-Experts, attivano solo una frazione dei parametri per token: il modello da 35 miliardi di parametri ne attiva 3 miliardi, mentre quello da 397 miliardi ne attiva 17 miliardi. Entrambi supportano finestre di contesto fino a 256K token. Per i domini GUI, i modelli lavorano da alberi di accessibilità testuali e gerarchie di viste dell'interfaccia utente, anziché da screenshot.

Sponsored Protocol

Risultati che superano l addestramento in ambienti reali

Secondo i ricercatori, gli agenti addestrati all'interno di simulazioni controllate hanno superato quelli addestrati in ambienti reali. L'iniezione di perturbazioni mirate, come risposte parziali che forzano passaggi extra dell'agente, ha portato il punteggio MCPMark dal 24.6 al 33.8. Nel dominio Search, agenti addestrati in mondi completamente fittizi si sono trasferiti a compiti di ricerca reali, spingendo WideSearch F1 Item dal 34.02 al 50.31. Un test separato di warm-up ha dimostrato che l'addestramento world model ha migliorato BFCL v4 dal 62.29 al 71.25 e Claw-Eval dal 53.60 al 64.88 senza alcun fine-tuning specifico per agenti. Questi risultati suggeriscono che l'addestramento su ambienti sintetici possa essere un complemento potente all'apprendimento in ambienti reali, come hanno recentemente dimostrato anche altre aziende del settore come Stripe, Anthropic e OpenAI che investono contro il raffreddore comune, sebbene in un ambito diverso. Per comprendere meglio le basi di questa tecnica, si può consultare la pagina di Wikipedia sull'apprendimento per rinforzo.

Sponsored Protocol

I ricercatori hanno riconosciuto la necessità di verificare i risultati. Il benchmark AgentWorldBench, creato dallo stesso team, ha visto un margine di miglioramento di 0.46 punti, sollevando dubbi sull'overfitting. Tuttavia, il risultato nel mondo fittizio di Search offre una prova forte contro la dipendenza esclusiva dalla simulazione. La metodologia di Sim-RL controllata indica che i guadagni dipendono dalla capacità di iniettare condizioni estreme, non solo dalla precisione della simulazione. Per i team che costruiscono pipeline agente, questa ricerca apre la strada a un nuovo strato di addestramento: ambienti sintetici controllati che espongono i casi limite che la produzione non può generare.

Sponsored Protocol

Implicazioni per i team di ingegneria AI

Per i team di ingegneria AI che costruiscono e scalano pipeline agente, il lavoro di Alibaba segna un cambiamento significativo. Ora esiste una terza opzione tra il reinforcement learning in ambienti reali e i benchmark statici: la simulazione controllata che inietta i casi limite. L'addestramento preliminare su modelli del mondo può anticipare la specializzazione agente, migliorando le prestazioni anche senza fine-tuning specifico. Questo suggerisce che la conoscenza ambientale dovrebbe essere integrata prima nel processo di sviluppo, modificando le pratiche correnti di molti team.

Fonte: https://venturebeat.com/technology/alibabas-model-never-trained-as-an-agent-and-improved-agent-performance-across-seven-benchmarks

Meteora Web

> AUTHOR_EXTRACTED

Meteora Web

[ Read Full Dossier ]

> METEORA_WEB // WEB AGENCY

Costruiamo la presenza digitale che la tua azienda merita.

Siti web, social, pubblicità online, e-commerce e hosting performante: ingegnerizzati con metodo da ingegneri informatici a Sciacca, per tutta Italia.

> MW_JOURNAL

> READ_ALL()