Il mondo dell'intelligenza artificiale è stato scosso da un risultato sorprendente. Un nuovo strumento di valutazione chiamato Agents' Last Exam, noto con l'acronimo ALE, ha messo alla prova i modelli linguistici più avanzati con compiti professionali complessi e il verdetto è impietoso. Neppure il miglior sistema, GPT 5.5 di OpenAI abbinato all'architettura Codex, è riuscito a superare la soglia del 24% di successo. Il modello Claude Fable 5 di Anthropic, rilasciato appena ieri, si è fermato al 22% piazzandosi al terzo posto. Questi numeri dimostrano che, nonostante i progressi clamorosi, l'AI è ancora lontana dal poter sostituire un professionista umano in contesti lavorativi reali.
Cos'è Agents' Last Exam e perché è diverso
ALE nasce dalla collaborazione tra il Center for Responsible, Decentralized Intelligence dell'Università della California Berkeley e oltre 300 esperti di dominio provenienti da più di 100 istituzioni. L'obiettivo è colmare il divario tra i punteggi artificiosamente alti dei benchmark accademici e l'impatto reale sul PIL. I test tradizionali si basano su domande statiche o ambienti di terminale testuali, facilmente aggirabili. ALE invece costringe i modelli a operare in un framework Generalist Computer-Use Agent, dove devono usare vista, ragionamento e manipolazione per navigare macchine virtuali Linux e Windows, interagendo con software professionali come Siemens NX per modellazione 3D, Unreal Engine per scene virtuali, FSLeyes per analisi neuroradiologiche e Adobe After Effects per compositing video.
Sponsored Protocol
Il sistema di valutazione è quasi interamente deterministico: solo il 6,8% dei task si affida al giudizio di un LLM. Per il resto, il confronto avviene tramite codice contro un riferimento esperto, eliminando i trucchi come la lettura di risposte nascoste nella cronologia Git, un problema recentemente emerso in altri benchmark come SWE-Bench Pro. ALE inoltre combatte la contaminazione dei dati attraverso una strategia di rilascio controllato: solo il 10% del dataset è pubblico su GitHub e Hugging Face, mentre oltre 1.300 task rimangono privati e vengono ruotati periodicamente.
Sponsored Protocol
I risultati della classifica e le implicazioni per il mondo tech
La classifica ALE vede al primo posto GPT 5.5 con Codex (24% di pass rate), seguito da Ale Claw sempre su GPT 5.5 (23%), Claude Code con Fable 5 (22%), OpenClaw (21,1%) e Cursor CLI (20,4%). Sulle difficoltà più elevate, la categoria Last Exam, quasi tutti i modelli registrano uno 0% di successo. Questo significa che per compiti ai confini della competenza professionale, l'AI è semplicemente inadeguata. Il dato è ancora più rilevante per chi sta investendo miliardi in agenti autonomi: senza un benchmark come ALE, si rischia di sopravvalutare le capacità reali dei sistemi.
La ricerca ha anche mostrato che GPT 5.5 eccelle nel seguire istruzioni multi-parte complesse, mentre Claude Fable 5 tende a dimenticare passaggi intermedi, un difetto fatale in flussi di lavoro lunghi. Per gli sviluppatori che vogliono testare i propri agenti, ALE offre due classifiche: Full (con software proprietario) e Unlicensed (solo strumenti gratuiti), garantendo un confronto equo. Questo è un passo avanti fondamentale rispetto ai precedenti test, come evidenziato nell'analisi della vulnerabilità di Starlette che ha messo a rischio milioni di agenti AI, un tema che abbiamo approfondito in un altro articolo dedicato.
Sponsored Protocol
Per i professionisti del settore, ALE rappresenta una bussola affidabile. Se un agente riuscirà un giorno a superare questo esame, significherà che è pronto per entrare nel mondo del lavoro. Fino ad allora, il 24% di GPT 5.5 è un salutare campanello d'allarme. Strumenti come ChatGPT per sviluppatori restano utilissimi per debugging e code review, ma non illudiamoci sulla loro autonomia. La strada verso un'AI realmente produttiva è ancora lunga e richiede metriche rigorose come quelle offerte da ALE.
Per approfondire il contesto dei benchmark per l'intelligenza artificiale, puoi consultare la pagina di Wikipedia sui benchmark AI.