MRAgent taglia i token a 118.000: supera LangMem nei test di memoria agentica • Meteora Web Agency

I modelli linguistici di grandi dimensioni (LLM) incontrano un ostacolo fondamentale quando devono gestire conversazioni lunghe o compiti che richiedono ragionamenti su più passaggi: la finestra di contesto si satura rapidamente e i sistemi di recupero tradizionali restituiscono rumore invece di informazioni utili. Per risolvere questo problema, i ricercatori della National University of Singapore hanno sviluppato MRAgent, un framework che abbandona l'approccio statico "recupera e poi ragiona" a favore di un meccanismo in cui l'agente costruisce dinamicamente la propria memoria basandosi sulle evidenze accumulate.

I limiti del recupero passivo nei compiti a lungo termine

Nei classici sistemi RAG (Retrieval-Augmented Generation), i documenti vengono recuperati tramite ricerca vettoriale o grafi e poi passati all'LLM per il ragionamento. Questo approccio passivo fallisce perché non combina ragionamento e accesso alla memoria, creando tre colli di bottiglia principali. Primo, il sistema non può rivedere la strategia di recupero mentre ragiona: se un agente trova un documento ma scopre di aver bisogno di un dettaglio mancante, non può lanciare una nuova query basata su quella scoperta. Secondo, punteggi di similarità fissi e espansioni predefinite dei grafi restituiscono corrispondenze superficiali che inondano la finestra di contesto dell'LLM con rumore irrilevante, degradando il ragionamento. Terzo, i sistemi attuali si basano su strutture pre-costruite come risultati top-k e funzioni di rilevanza statiche, limitando la flessibilità necessaria per scalare su interazioni utente imprevedibili a lungo termine.

Il meccanismo Cue-Tag-Content per una ricostruzione attiva della memoria

Per superare questi limiti, MRAgent adotta il concetto di "processo di ricostruzione attiva e associativa", ispirato alle neuroscienze cognitive. Invece di vedere la memoria come un database statico, il framework la tratta come un ambiente interattivo. Quando elabora una query complessa, l'agente usa le capacità di ragionamento dell'LLM per esplorare molteplici percorsi di recupero candidati su un grafo di memoria strutturato. A ogni passo, l'LLM valuta le evidenze intermedie raccolte e le usa per ottimizzare iterativamente la ricerca, inferendo nuovi vincoli, seguendo i percorsi migliori e potando i rami irrilevanti. Questo permette a MRAgent di ricostruire informazioni profondamente nascoste senza riempire di rumore il contesto dell'LLM. Per rendere efficiente questa esplorazione attiva, il framework organizza il database usando un meccanismo a tre strati chiamato Cue-Tag-Content. I Cue sono parole chiave granulari come entità o attributi contestuali; i Content sono le unità di memoria vere e proprie, divise in memoria episodica per eventi concreti e memoria semantica per fatti stabili; i Tag sono ponti semantici che riassumono le associazioni tra Cue e Content. L'LLM naviga prima dai Cue ai Tag candidati, valutando queste piccole sintesi per decidere la rilevanza, e solo dopo accede ai contenuti dettagliati. Un esempio chiarisce il funzionamento: se un utente chiede "Come ha usato Nate il premio in denaro quando ha vinto il suo terzo torneo di videogiochi?", MRAgent estrae i Cue iniziali, li mappa al grafo, vede i Tag "Vittoria Torneo" e "Partecipazione Torneo", scarta quest'ultimo, recupera i contenuti episodici collegati, seleziona il ricordo più pertinente, aggiorna i Cue con "guadagni torneo" e prosegue iterativamente fino a rispondere.

Prestazioni da record e risparmio sui costi computazionali

I ricercatori hanno testato MRAgent sui benchmark LoCoMo e LongMemEval, che valutano la capacità degli agenti di risolvere query su compiti a lungo termine attraverso decine di sessioni e centinaia di turni di dialogo. I modelli backbone utilizzati sono stati Gemini 2.5 Flash e Claude Sonnet 4.5. MRAgent ha superato significativamente tutte le baseline, tra cui RAG standard, A-MEM, MemoryOS, LangMem e Mem0, sia in accuratezza che in efficienza. Nel test LongMemEval, MRAgent ha ridotto il consumo di token di prompt a soli 118.000 per campione, contro i 632.000 di A-Mem e i 3,26 milioni di LangMem. Inoltre, il runtime è stato dimezzato rispetto a A-Mem, passando da 1.122 secondi a 586 secondi. Questo risparmio è reso possibile dal comportamento on-demand: la valutazione dei Tag e la potatura dei percorsi irrilevanti prima del recupero evitano sprechi di token e spazio nel contesto. Il sistema sa anche quando fermarsi, eliminando esplorazioni ridondanti.

Implementazione pratica e considerazioni per gli sviluppatori

Nonostante l'efficacia, MRAgent richiede che la struttura Cue-Tag-Content venga preparata prima che l'agente possa interrogarla. Gli sviluppatori devono architettare il database di memoria sottostante per consentire all'LLM di navigare efficientemente gli elementi associativi e potare i percorsi senza esplodere i costi computazionali. Fortunatamente, il framework include una pipeline di distillazione automatica che utilizza LLM per processare le interazioni grezze e popolare automaticamente il grafo di memoria. Gli sviluppatori devono solo implementare e orchestrare questa pipeline di ingestione, ad esempio configurare un job in background o uno streaming che passa le interazioni utente attraverso template di prompt per estrarre i metadati prima di archiviarli in un database grafico. I ricercatori sottolineano che questa fase di costruzione è leggera e mantengono l'ingestione semplice. Il codice è stato rilasciato su GitHub. Per chi opera sotto l'AI Act europeo, MRAgent offre un modo per ridurre i costi computazionali rispettando i vincoli normativi. Maggiori informazioni sono disponibili sul sito dell'Università Nazionale di Singapore.

Fonte: https://venturebeat.com/orchestration/new-agentic-memory-framework-uses-118k-tokens-per-query-langmem-burns-through-3-26m