Le aziende che implementano agenti AI si trovano spesso a fare i conti con una frustrazione ricorrente. Il proof of concept funziona alla grande, ma quando si passa alla produzione l'agente inizia a dare segni di cedimento dopo poche operazioni, richiedendo continui interventi umani per rinfrescare il contesto o verificare gli output. La promessa di efficienza si dissolve in supervisione, e molti progetti pilota non diventano mai sistemi reali. Il problema non è l'orchestrazione o la potenza del modello, ma un aspetto più sottile: quanto a lungo un agente può operare prima che un umano debba intervenire, e questo dipende da dove risiede la conoscenza aziendale rispetto al modello.
I due approcci tradizionali per inserire la conoscenza aziendale in un modello AI sono il fine-tuning e l'in-context learning tramite RAG. Il fine-tuning incorpora la conoscenza nei pesi del modello, ma soffre del catastrophic forgetting, un problema noto dagli anni Ottanta e ancora irrisolto: insegnare al modello qualcosa di nuovo tende a erodere quanto già appreso. Per aggirare il problema, i team isolano ogni attività in un modello o adattatore separato, generando un ecosistema costoso e difficile da governare. Inoltre, un modello fine-tuned è una fotografia statica, obsoleta dal giorno in cui una policy cambia, obbligando a cicli di riaddestramento lenti e onerosi.
Sponsored Protocol
Il secondo approccio è l'in-context learning tramite RAG, che evita il riaddestramento inserendo le policy rilevanti nel prompt a runtime. Ma qui subentra il context rot: man mano che il prompt si allunga, il modello perde accuratezza. Un test condotto da Chroma su 18 modelli leader ha mostrato che tutti perdono precisione all'aumentare dell'input, una proprietà intrinseca del meccanismo di attenzione, non un difetto colmabile con un modello più potente. Inoltre, un retrieval mancato si presenta con la stessa sicurezza di una risposta corretta, e sia i costi che la latenza crescono con ogni token aggiunto. Il risultato è che l'umano non può mai abbandonare la scena.
La terza via: generare il modello specialista su richiesta
Una terza strada sta passando dalla ricerca al prodotto: invece di riaddestrare un modello o riempire il prompt, un generatore costruisce un modello piccolo e specifico per il compito a partire dalle policy aziendali, al momento dell'inferenza. Questo generatore è una hypernetwork, una rete neurale il cui output sono i pesi di un'altra rete. L'idea è stata coniata nel 2016, ma applicarla per produrre modelli linguistici specialistici da testo o documenti è recente e attivo. Sakana AI con Text-to-LoRA (ICML 2025) genera un adattatore da una descrizione in linguaggio naturale in un unico passaggio, e nel 2026 il sistema SHINE definisce l'adattamento tramite hypernetwork una nuova frontiera promettente, perché evita sia i costi di riaddestramento del fine-tuning sia i limiti di contesto del prompting.
Sponsored Protocol
Il punto cruciale è che l'adattatore che i team costruiscono manualmente per evitare il catastrophic forgetting è lo stesso oggetto che un'hypernetwork produce in automatico, eliminando lo zoo di modelli costoso da governare. Un articolo del 2025 di ricercatori Nvidia ha dimostrato che per i compiti ripetitivi degli agenti, i modelli piccoli sono sufficienti e costano da 10 a 30 volte meno dei modelli generalisti. Nace.AI, una startup di Palo Alto che a maggio ha raccolto un seed da 21,5 milioni di dollari, è l'esempio commerciale più chiaro. La sua tecnologia, chiamata MetaModel, produce adattamenti dei parametri a partire dalle policy aziendali per lavori regolamentati come audit, compliance e valutazione del rischio. L'azienda sostiene che i suoi agenti gestiscono la maggior parte del flusso di lavoro, lasciando agli esperti umani solo la validazione finale, un rapporto che commercializza come 90/10.
Sponsored Protocol
Perché l'hypernetwork alza il soffitto dell'autonomia
Un modello generato da hypernetwork è ristretto, aggiornato e piccolo: ha una superficie minore su cui sbagliare. Meno errori, confinati a un dominio noto, significano meno output che l'agente deve sottoporre a un umano. La fiducia nel rapporto 90/10 non è un parametro preimpostato, ma il risultato di quanto il sistema ha bisogno di restituire il controllo. Due scelte progettuali determinano se questa autonomia è affidabile o solo veloce. La prima è il grounding: legare ogni output alla sua fonte, così che un revisore possa verificare senza rifare. Modelli come HalluGuard etichettano ogni affermazione come supportata o meno e citano il passaggio di riferimento. Nace integra modelli di grounding e tracce di ragionamento per lo stesso motivo. La seconda è il feedback loop: quando i tuoi esperti convalidano l'output, di chi è il modello che migliora e dove risiede? Questo decide se l'asset di apprendimento appartiene al fornitore o al cliente. Nace, ad esempio, utilizza una rete esterna di esperti certificati per alcuni impegni e, per le implementazioni dirette in azienda, il personale del cliente, con il modello risultante mantenuto nel cloud del cliente.
Sponsored Protocol
Dove la terza via può incepparsi
L'approccio è ancora in fase iniziale. La calibrazione è il punto cruciale: il valore dipende dalla capacità del modello di sapere quando è incerto. Studi recenti sugli adattatori generati mostrano che non migliorano automaticamente la calibrazione rispetto al fine-tuning ordinario, con miglioramenti solo sotto vincoli specifici. La qualità del modello generato dipende fortemente dai dati su cui è costruito, quindi la cura dei dati è essenziale. La scala è la frontiera aperta della ricerca: le hypernetwork pubblicate finora sono piccole. Nace afferma di aver scalato il suo generatore ben oltre quelle dimensioni, derivando una legge di scaling su come le prestazioni crescono, risultati che sta condividendo pubblicamente e sottoponendo a peer review. Se confermati, aiuterebbero a rispondere a una delle domande centrali del settore.
Sponsored Protocol
Qualunque approccio prevalga, il lavoro termina sempre con un umano, e quel passaggio è un problema progettuale a sé. Quando Deloitte Australia ha consegnato un rapporto governativo da circa 440.000 dollari australiani, conteneva citazioni inventate e una citazione giudiziaria falsa, nonostante una revisione senior. I revisori avevano controllato le conclusioni, corrette, ma non la provenienza, che non lo era. L'EU AI Act all'articolo 14 parla di automation bias. La lezione per i decisori aziendali è chiara: chiedere non tanto il rapporto di autonomia, ma dove vive la conoscenza, come viene generata, e cosa accompagna ogni output per consentire una verifica rapida.