I modelli linguistici di grandi dimensioni, meglio noti come LLM, continuano a essere afflitti da un problema cronico: le cosiddette allucinazioni. Questa tendenza a generare informazioni false con sicurezza rappresenta un ostacolo enorme per l'adozione enterprise. Fino ad oggi, i tentativi di ridurre gli errori si sono scontrati con un compromesso crudele: eliminare le falsità significava spesso sopprimere anche risposte perfettamente valide. Un team di ricercatori di Google ha proposto una soluzione radicale, introdotta in un recente articolo scientifico: il concetto di faithful uncertainty, o incertezza fedele. Si tratta di una tecnica metacognitiva che allinea la risposta del modello al suo livello interno di confidenza, permettendo all'intelligenza artificiale di offrire ipotesi prudentemente formulate come 'La mia ipotesi migliore è' invece di cadere in un binario rigido tra risposta corretta e astensione.
Oltre il compromesso: la tassa sull'utilità
Per capire perché le allucinazioni sono così difficili da eliminare, occorre distinguere due capacità diverse: la conoscenza dei fatti e la consapevolezza di ciò che si conosce. Gran parte dei miglioramenti nella factuality sono arrivati espandendo il confine della conoscenza, ovvero inserendo più dati nei parametri del modello. Ma aumentare la conoscenza non migliora automaticamente la consapevolezza dei propri limiti. Come spiega Gal Yona, ricercatore di Google e coautore dell'articolo, la capacità del modello è finita e la coda lunga della conoscenza è praticamente infinita. Quando il modello raggiunge questo limite, la speranza è che sappia riconoscere ciò che non sa e semplicemente si astenga dal rispondere. Ma questa è una capacità intrinsecamente difficile per un LLM. I tentativi pratici di ridurre le allucinazioni, quindi, spesso non arrivano al deployment perché, pur riducendo gli errori, danneggiano l'utilità: il modello rifiuta di rispondere a domande che in realtà conosce. Questo crea quella che gli autori chiamano utility tax: per raggiungere un tasso di allucinazioni pari a zero, si è costretti a scartare oltre la metà delle risposte corrette del modello.
Sponsored Protocol
Ridefinire il concetto di allucinazione
La proposta di Google è quella di smettere di considerare ogni errore fattuale come un'allucinazione. Invece, si ridefinisce l'allucinazione come un errore sicuro: un'informazione incorretta fornita in modo autorevole senza la dovuta qualificazione. Se il modello sbaglia ma esprime adeguatamente la sua incertezza, ad esempio dicendo 'Non sono del tutto sicuro, ma credo che...', non è un'allucinazione. È semplicemente un'ipotesi offerta all'utente per considerazione. Esprimendo incertezza, l'AI preserva la sua utilità senza violare la fiducia dell'utente. Tuttavia, se l'assistente mettesse una clausola di non responsabilità su ogni risposta, l'utente sarebbe costretto a verificare tutto, annullando lo scopo dello strumento. La soluzione è l'incertezza fedele, che allinea l'incertezza linguistica del modello (le parole che usa per esprimere dubbio) con la sua incertezza intrinseca (la reale confidenza statistica interna). Questo garantisce che il modello usi espressioni di dubbio solo quando il suo stato interno riflette genuinamente informazioni conflittuali o a bassa probabilità.
Sponsored Protocol
Implicazioni pratiche per l'AI enterprise e agentica
In questo nuovo quadro, gli errori in cui il modello è sicuro ma sbagliato vengono classificati come errori onesti. L'espansione della conoscenza (addestrare il modello su più dati) e l'incertezza fedele diventano sforzi complementari. L'espansione spinge il confine della conoscenza verso l'esterno, mentre l'incertezza fedele comunica onestamente dove si trova quel confine in un dato momento. Questo ha implicazioni profonde per le applicazioni agentic, dove l'AI agisce in modo autonomo. Potrebbe sembrare che, con la possibilità di accedere a database esterni, sapere ciò che il modello non sa sia ridondante. In realtà, l'uso di strumenti esterni amplifica il bisogno di incertezza fedele. La metacognizione diventa il livello di controllo centrale che governa l'intero sistema. Senza di essa, un agente è essenzialmente cieco e deve fare affidamento su euristiche statiche. Un modello potrebbe cercare informazioni che già conosce con sicurezza, sprecando tempo e costi, o viceversa rispondere con sicurezza dalla memoria quando avrebbe dovuto cercare, producendo output plausibili ma errati. Utilizzando la propria incertezza intrinseca per regolare il comportamento, l'agente ottimizza dinamicamente l'uso degli strumenti.
Sponsored Protocol
Per comprendere meglio come la metacognizione possa essere integrata in sistemi reali, vale la pena esplorare come altre aziende stanno affrontando il problema della sicurezza nei modelli AI. Un esempio illuminante è il paradosso recentemente emerso in cui Anthropic ha perso il suo modello più potente a causa delle stesse avvertenze di sicurezza, come raccontato nell'articolo Paradossi della sicurezza AI. Questa storia dimostra quanto sia delicato bilanciare la trasparenza e l'affidabilità.
Il paradosso del bootstrap: insegnare l'incertezza
Raggiungere l'incertezza fedele non è semplice. Richiede di insegnare ai modelli la sintassi dell'incertezza attraverso un addestramento supervisionato (SFT). Poiché i modelli pre-addestrati sono alimentati principalmente da testi autorevoli, devono essere addestrati esplicitamente a dire cose come 'Non sono del tutto sicuro, ma credo che VentureBeat sia stata fondata nel...'. Tuttavia, l'SFT introduce un paradosso del bootstrap. A differenza dei dataset standard in cui la 'risposta corretta' è la stessa per tutti i modelli, la verità di fondo per l'incertezza dipende dalla base di conoscenza dinamica del modello stesso. Se si addestra un modello su un'etichetta che dice 'Non so X' ma il modello in realtà conosce X, gli si è insegnato ad avere allucinazioni sull'incertezza. I dati di training sono statici, ma l'obiettivo è un bersaglio mobile.
Sponsored Protocol
Verso un'AI consapevole di sé
Per le aziende che vogliono implementare queste capacità senza costosi riaddestramenti, il prompt engineering rappresenta il punto di ingresso più accessibile. Framework come MetaFaith, un progetto open source a cui Yona ha contribuito, consentono di applicare prompt metacognitivi su modelli già pronti. Tuttavia, Yona avverte che il solo prompting non risolve tutto e l'industria dovrà fare affidamento su avanzate tecniche di reinforcement learning per incorporare la metacognizione profondamente nell'addestramento. Alla fine, mentre le imprese passano da semplici chat a complessi flussi multi-agente, la consapevolezza di sé diventerà un prerequisito per un'autonomia affidabile. Resta una sfida tecnica profonda: come valutare se un modello possiede davvero questa consapevolezza? Yona stesso si chiede: 'Come si fa a valutare se un modello è in grado di percepire i suoi stati interni? Anche negli esseri umani è difficile distinguere la vera capacità di auto-monitoraggio da un uso abile di proxy. Sviluppare framework di valutazione in grado di distinguere questa differenza è uno dei problemi aperti più importanti in questo campo.'
Sponsored Protocol
Per ulteriori approfondimenti sul tracciamento dei dati e l'analisi delle performance, si consiglia la lettura dell'articolo Data Layer GTM, che spiega come gestire eventi dinamici per un tracking impeccabile. Un altro aspetto interessante riguarda la qualità del servizio: un'indagine simile a quella condotta su Netflix per la degradazione video potrebbe essere applicata ai servizi AI, come descritto nell'articolo Come scoprire se Netflix sta degradando la qualità video. Per un contesto più ampio sulla tecnologia alla base dei modelli linguistici, si può consultare la pagina di Wikipedia sulle allucinazioni nell'intelligenza artificiale.