Un nuovo benchmark, Agents' Last Exam (ALE), ha appena scosso il mondo dell'intelligenza artificiale. GPT-5.5 di OpenAI ha superato a sorpresa il nuovissimo Claude Fable 5 di Anthropic, registrando un tasso di superamento del 24,0% contro il 22,0% del rivale. Il dato più significativo, però, è un altro: sulla fascia di difficoltà massima, molti modelli ottengono uno zero assoluto.
Un banco di prova che misura il valore economico reale
ALE non è un test da academia: valuta la capacità degli agenti AI di eseguire flussi di lavoro professionali complessi, dalla modellazione 3D in Siemens NX alla compositing in After Effects. Il risultato dimostra che, nonostante i progressi, i modelli faticano ancora a tradursi in produttività concreta. Per le aziende che investono miliardi in agenti AI, questo è un campanello d'allarme. La classifica è guidata da GPT-5.5 con il 24,0%, ma il tasso di fallimento resta altissimo.
Regolamentazione incombente e tensioni interne
Sullo sfondo, il CEO di Anthropic Dario Amodei ha lanciato una proposta shock: regolamentare l'AI come l'aviazione civile, con test obbligatori e blocchi alla distribuzione per modelli oltre una certa soglia di potenza. Un approccio stile FAA che potrebbe congelare il rilascio di modelli di frontiera. Parallelamente, una causa contro xAI sostiene che un ingegnere sia stato licenziato per aver segnalato rischi di sicurezza su Grok, pochi giorni prima dell'IPO di SpaceX. Questi eventi segnalano che la fiducia nel settore non è scontata.
Cosa devono fare le imprese
Per i decision maker tecnici, la lezione è duplice. Primo: costruire architetture multi-modello per evitare la dipendenza da un unico fornitore, dato che un modello potrebbe essere ritirato o bloccato da regolatori. Secondo: prepararsi a una regolamentazione stringente sulla sicurezza informatica, trattando i pesi dei modelli come segreti industriali. Come ha mostrato il WWDC 2026, l'AI è ovunque, ma la sua affidabilità è ancora in discussione. Le aziende che non pianificano ora la conformità e la resilienza rischiano di restare indietro.
Sponsored Protocol