Quando un team di ingegneri implementa un agente AI per cercare documenti interni e rispondere alle domande dei dipendenti, spesso funziona perfettamente in fase di sviluppo, ma in produzione inizia ad allucinare o perde vincoli importanti. Risolvere questo problema non è mai una semplice correzione. Richiede un processo noioso di tentativi ed errori, modificando simultaneamente strategie di chunking, metodi di recupero e prompt di sistema. Poiché queste regolazioni sono intrecciate, diventa quasi impossibile attribuire quale modifica specifica abbia effettivamente risolto il problema.
Per affrontare questa sfida, i ricercatori della Renmin University of China e di Microsoft Research hanno introdotto Arbor, un framework che trasforma la ricerca e l'ottimizzazione basate sull'AI da una sequenza di tentativi ed errori in un processo di apprendimento cumulativo. Arbor organizza ipotesi, esperimenti e intuizioni in un albero che aiuta il sistema a imparare dai fallimenti precedenti per apportare miglioramenti più intelligenti e verificati nel tempo. Nei test pratici, Arbor ha fornito guadagni di prestazioni verificabili oltre 2,5 volte superiori rispetto agli agenti di codifica AI standard, operando con lo stesso budget di risorse.
Sponsored Protocol
Il collo di bottiglia nell'ottimizzazione autonoma
Con l'aumento delle capacità dei modelli linguistici di grandi dimensioni e dei sistemi AI, ci si aspetta che eseguano operazioni più complesse come l'ottimizzazione autonoma di sistemi software. Il problema principale è spesso frainteso: dare a un agente di codifica più tempo o potenza di calcolo per ottimizzare un codebase non porta a risultati migliori. Come ha spiegato Jiajie Jin, co-autore del paper, a VentureBeat: "L'automazione può mantenere un'AI al lavoro per molto tempo, ma un ciclo non è la stessa cosa del progresso. Se l'obiettivo è vago o la metrica è facile da aggirare, l'automazione a lungo termine spesso produce solo 'miglioramenti' più veloci che nessuno vuole realmente."
I sistemi attuali possono eseguire esperimenti per molte ore su obiettivi ben specificati, ma trattano ogni tentativo in isolamento, mancando dei meccanismi strutturali per accumulare e agire su ciò che hanno appreso. Non hanno la capacità di mantenere e confrontare simultaneamente più direzioni di ricerca concorrenti. Senza questo, non possono interpretare successi e fallimenti per rimodellare la loro esplorazione futura, che è il meccanismo centrale che rende cumulativa la ricerca umana.
Sponsored Protocol
Il framework Arbor
Arbor risolve queste sfide con un framework che automatizza il ciclo di esplorazione, sperimentazione e astrazione tipico della ricerca umana. Separa la direzione strategica della ricerca dai compiti di codifica di base con due componenti chiave: il coordinatore, un agente AI longevo che agisce come un ricercatore principale, e gli esecutori, agenti a breve termine e altamente focalizzati. Quando il coordinatore vuole testare un'idea, attiva un esecutore in un ambiente isolato, implementa l'ipotesi, esegue valutazioni e riporta i risultati.
Questi due componenti collaborano attraverso un meccanismo chiamato "Hypothesis Tree Refinement" (HTR). HTR rappresenta l'intero processo di ricerca come un albero persistente e ramificato, dove ogni nodo lega insieme quattro elementi: un'ipotesi, l'artefatto eseguibile, l'evidenza fattuale prodotta e un'intuizione distillata. Questo permette al coordinatore di esplorare più direzioni concorrenti contemporaneamente senza perdere la sua posizione. Se un esperimento fallisce, l'albero registra il motivo come vincolo negativo, assicurando che il sistema non ripeta all'infinito lo stesso errore.
Sponsored Protocol
Per prevenire il reward hacking e l'overfitting, HTR impone uno strict merge gate: anche se un esecutore riporta un punteggio di sviluppo eccezionale, il coordinatore testa il candidato su un valutatore di test tenuto separato. L'artefatto viene unito solo se migliora dimostrabilmente il punteggio di test, verificando che il progresso sia reale.
Risultati e implicazioni
Nei test, Arbor ha ottenuto il miglior risultato su tutti i compiti, superando Claude Code e Codex con un guadagno relativo medio di oltre 2,5 volte. Ad esempio, nel compito BrowseComp, Arbor ha migliorato l'accuratezza dal 45,33% al 67,67%, mentre gli altri si sono fermati al 50% e 53,33%. Inoltre, Arbor ha mostrato resilienza contro l'overfitting e capacità di generalizzazione in compiti non visti.
Sponsored Protocol
Per i team di ingegneria, Arbor si integra con i flussi di lavoro Git esistenti, producendo un normale ramo Git che può essere ispezionato direttamente. Tuttavia, il costo dei token è il maggiore svantaggio, poiché il coordinatore longevo consuma risorse significative. Si consiglia di utilizzare Arbor per compiti con metriche chiare, orizzonti temporali lunghi e uno spazio di ricerca con diverse direzioni plausibili, come l'ottimizzazione di pipeline, la qualità della sintesi dei dati e la messa a punto di ricette di addestramento.
Per saperne di più su come l'AI sta cambiando il lavoro umano, leggi l'articolo correlato su A Shenzhen Operare Robot Umanoidi con il Proprio Corpo è un Lavoro Ambìto. Per un approfondimento sull'ottimizzazione automatica, consulta la pagina di Wikipedia sull'Apprendimento automatico.