f in x
> cd .. / HUB_EDITORIALE > Visualizza in Inglese
News

Alibaba presenta SkillWeaver: il framework AI che taglia del 99% i token degli agenti

[2026-07-03] Author: Ing. Calogero Bono
Zenithby Meteora Web Il sistema operativo della tua attività. Social, clienti, prenotazioni e fatture in un'unica piattaforma. Palestre, barber, professionisti. Scopri Zenith Demo gratis · senza carta

Nel panorama dell'intelligenza artificiale enterprise, la gestione di flussi di lavoro complessi richiede agli agenti AI di selezionare lo strumento giusto tra centinaia di opzioni. I ricercatori di Alibaba hanno sviluppato SkillWeaver, un framework innovativo che riduce il consumo di token del 99% rispetto ai metodi tradizionali, migliorando al contempo la precisione nell'instradamento delle richieste.

La sfida del routing delle skill negli agenti AI enterprise

Gli agenti moderni integrano librerie di tool che possono contare centinaia di skill, ciascuna descritta da documentazione strutturata in linguaggio naturale. Esporre l'intera libreria a un modello linguistico di grandi dimensioni (LLM) per trovare lo strumento adatto è estremamente inefficiente: i limiti di contesto vengono rapidamente superati e si consumano centinaia di migliaia di token. I framework attuali, basati su recupero API o corrispondenza documentale, trattano il routing come un problema di selezione singola, ma le richieste reali sono intrinsecamente compositive: un comando come "Scarica il dataset, trasformalo e crea report visivi" richiede una sequenza di strumenti diversi.

Sponsored Protocol

Come funziona SkillWeaver con la decomposizione Skill-Aware

SkillWeaver affronta il problema attraverso tre fasi: decomposizione, recupero e composizione. Nella prima fase, un LLM scompone la richiesta complessa in sotto-attività atomiche. Successivamente, un modello di embedding confronta ogni sotto-attività con la libreria delle skill per estrarre una shortlist di candidati. Nella fase finale, un planner valuta la compatibilità tra i candidati e crea un grafo aciclico diretto (DAG) che mappa le dipendenze, permettendo l'esecuzione parallela di attività indipendenti. L'innovazione chiave è la Iterative Skill-Aware Decomposition (SAD), un ciclo di feedback che affina la decomposizione in base agli strumenti effettivamente disponibili: il LLM redige un piano iniziale, effettua una ricerca preliminare e utilizza i risultati come suggerimenti per riscrivere la scomposizione, allineando granularità e vocabolario con le skill reali.

Sponsored Protocol

Token ridotti del 99,9% e accuratezza migliorata del 50%

I ricercatori hanno testato SkillWeaver su un benchmark personalizzato chiamato CompSkillBench, composto da 300 query multi-step tratte da 2.209 skill reali del protocollo MCP (Model Context Protocol). Utilizzando un modello Qwen2.5-7B-Instruct per la decomposizione e un recuperatore semantico MiniLM con indice FAISS, i risultati mostrano che l'accuratezza della decomposizione salta dal 51% (senza SAD) al 67,7% con SAD attivato, e raggiunge il 92% con un modello più grande Qwen-Max. Su compiti difficili che richiedono 4-5 skill, SAD migliora l'accuratezza del 50%. Il consumo di token per query scende da circa 884.000 token (metodo LLM-Direct) a soli 1.160 token, una riduzione del 99,9%. I costi API e i tempi di risposta diminuiscono drasticamente. Un dato sorprendente: modelli più grandi (14B) senza guida ottengono prestazioni peggiori di modelli più piccoli a causa della tendenza a scomporre eccessivamente; SAD li riallinea con la realtà. Il baseline ReAct ha fallito completamente con accuratezza zero.

Sponsored Protocol

Considerazioni pratiche per gli sviluppatori

Sebbene il codice di SkillWeaver non sia ancora stato rilasciato, SAD è implementabile con semplici tecniche di prompt engineering e loop di recupero, utilizzando librerie come LangChain o LlamaIndex. Il sistema di embedding all-MiniLM-L6-v2 è open source e l'indicizzazione delle 2.209 skill richiede solo 15 secondi, con latenza di recupero inferiore a 15 millisecondi. Per migliorare la precisione del ranking, è consigliabile aggiungere un cross-encoder come reranker sui primi 10 candidati. Un limite attuale è l'assenza di meccanismi di recupero da errori: in produzione, gli sviluppatori devono implementare logiche di fallback e retry. Per approfondimenti su applicazioni simili, leggi il nostro articolo sui video trapelati dei Galaxy Glasses e le implicazioni delle tecnologie di tracciamento. Per un contesto più ampio, consulta la pagina Wikipedia sugli agenti AI.

Sponsored Protocol

Fonte: https://venturebeat.com/orchestration/new-alibaba-ai-framework-skips-loading-every-tool-cutting-agent-token-use-99

Ing. Calogero Bono

> AUTHOR_EXTRACTED

Ing. Calogero Bono

Ingegnere informatico, fondatore di Meteora Web e Zenith OS. System administrator e progettista di piattaforme, app e CMS proprietari, con esperienza in sviluppo full-stack, marketing digitale ed ecosistema Google.
[ Read Full Dossier ]

> METEORA_WEB // WEB AGENCY

Costruiamo la presenza digitale che la tua azienda merita.

Siti web, social, pubblicità online, e-commerce e hosting performante: ingegnerizzati con metodo da ingegneri informatici a Sciacca, per tutta Italia.

> MW_JOURNAL

> READ_ALL()