VibeThinker-3B: piccolo modello AI di Weibo sfida giganti • Meteora Web Agency

Un team di ricercatori di Sina Weibo, il colosso cinese dei social media, ha pubblicato un report tecnico che sta facendo discutere l'intera comunità dell'intelligenza artificiale. Il modello presentato, chiamato VibeThinker-3B, è un language model con soli 3 miliardi di parametri, ma è in grado di competere – e in alcuni casi superare – le prestazioni di sistemi molto più grandi come quelli di Google DeepMind, OpenAI e Anthropic. La notizia ha scosso il settore, perché mette in discussione la legge del scaling, secondo cui modelli più grandi sono sempre migliori.

Il modello ha ottenuto un punteggio di 94.3 sull'AIME 2026, l'esame di matematica dell'American Invitational Mathematics Examination, uno dei test più difficili al mondo. Questo risultato lo colloca allo stesso livello di DeepSeek V3.2, che ha 671 miliardi di parametri, e davanti a Gemini 3 Pro di Google, fermo a 91.7. Grazie a una tecnica chiamata Claim-Level Reliability Assessment, VibeThinker-3B arriva a 97.1, superando praticamente ogni altro sistema pubblico. Ma non sono mancate le critiche: molti esperti ritengono che i benchmark siano ormai facilmente manipolabili e che il modello non sia altrettanto performante in contesti reali.

Il paper, pubblicato su arXiv, ha raccolto in poche ore 62 upvote su Hugging Face, 130 like sul repository del modello e 685 stelle su GitHub. Tuttavia, sui social network è scoppiato il dibattito. L'utente @orcus108 ha scritto su X: 'Cosa diavolo sta succedendo nell'AI? Un modello da 3B ha punteggi nei benchmark di coding allo stesso livello di Claude Opus 4.5... Non so se sia una svolta o se i benchmark siano rotti'.

I ricercatori di Weibo hanno introdotto l'Ipotesi di Compressione-Copertura Parametrica, secondo cui le capacità di ragionamento verificabile – come quelle testate nei problemi di matematica e coding – possono essere compattate in un nucleo denso di parametri, mentre la conoscenza aperta richiede molti più parametri. Questo spiegherebbe perché VibeThinker-3B eccelle nei test di ragionamento ma ottiene solo 70.2 su GPQA-Diamond, un benchmark di conoscenza scientifica, lontano dai 91.9 di Gemini 3 Pro.

Il processo di addestramento in quattro fasi

VibeThinker-3B non è stato costruito da zero, ma deriva da Qwen2.5-Coder-3B di Alibaba, attraverso un processo chiamato Principio Spettro-Segnale. L'addestramento si articola in quattro fasi principali. La prima è un fine-tuning supervisionato in due stadi, con curriculum learning: prima il modello apprende da un ampio mix di dati, poi si concentra su problemi più difficili. La seconda fase utilizza l'apprendimento per rinforzo con l'algoritmo MGPO, che dà priorità ai problemi al confine delle capacità attuali del modello. La terza fase estrae traiettorie di ragionamento di alta qualità e le distilla nel modello tramite supervised fine-tuning. Infine, l'Instruct RL applica rinforzo su compiti di istruzione, con validatori basati su regole e modelli di ricompensa.

Francesco Bertolotti, ricercatore AI, ha spiegato su X: 'Questi risultati sono stati ottenuti principalmente attraverso raffinatezze di post-training su Qwen2.5-Coder. Non ci sono molti dettagli, ma sembra che distillino da checkpoint RL e poi facciano un RL finale di instruct'. Il suo post ha avuto oltre 161.000 visualizzazioni.

Test nel mondo reale: il divario tra benchmark e utilità pratica

Nonostante i numeri impressionanti, molti utenti che hanno scaricato il modello hanno riportato esperienze deludenti. '@politilols' ha scritto: 'Non sa nemmeno cosa sia uno script uv (il tool Python più popolare). Non lo vedevo in nessun LLM da almeno un anno. È un benchmaxxing'. Altri hanno criticato la scelta dei benchmark, chiedendo perché non siano stati usati test come DeepSWE. I ricercatori sostengono di aver effettuato una decontaminazione dei dati, ma la comunità resta scettica.

Il paper stesso riconosce che il modello non sostituisce i grandi generalisti, ma dimostra che è possibile raggiungere prestazioni di alto livello su compiti di ragionamento verificabile con pochi parametri. Questo potrebbe avere implicazioni enormi per l'accessibilità dell'AI: un modello da 3 miliardi di parametri può funzionare su un laptop consumer, riducendo drasticamente i costi.

Il dibattito che VibeThinker-3B ha acceso è fondamentale: l'industria dell'AI ha speso miliardi per scalare i parametri, ma forse una parte dell'intelligenza poteva essere compressa fin dall'inizio. La domanda ora è se questi risultati siano riproducibili e utili nel mondo reale. Come discusso in un nostro articolo sulle strategie della Silicon Valley, l'innovazione a volte arriva da luoghi inaspettati. Per approfondire il tema dei benchmark, ecco una spiegazione generale su Wikipedia.

Fonte: https://venturebeat.com/technology/why-weibos-tiny-vibethinker-3b-has-the-ai-world-arguing-over-benchmarks-again