Anthropic ha rilasciato Claude Sonnet 5, un modello AI che offre prestazioni quasi equivalenti al suo modello di punta, Opus 4.8, ma a un prezzo intermedio. La mossa punta a rendere accessibili le capacità agentiche a un più ampio numero di sviluppatori enterprise, in un momento cruciale in cui l'azienda si prepara all'IPO. Sonnet 5 diventa il modello predefinito per i piani Free e Pro, ed è disponibile anche per i piani Max, Team ed Enterprise. I prezzi API introduttivi sono di 2 dollari per milione di token in input e 10 dollari per milione di token in output fino al 31 agosto, per poi salire rispettivamente a 3 e 15 dollari, ben al di sotto dei 5 e 25 dollari di Opus 4.8. La strategia è chiara: democratizzare l'accesso a funzionalità avanzate e costruire un'adozione di massa utile per il prospetto IPO.
Claude Sonnet 5 supera Sonnet 4.6 e si avvicina a Opus 4.8 in tutti i benchmark
I benchmark diffusi da Anthropic mostrano progressi significativi rispetto al predecessore Sonnet 4.6. Su SWE-bench Pro, che valuta le capacità di coding agentico, Sonnet 5 raggiunge il 63.2%, contro il 58.1% di Sonnet 4.6 e il 69.2% di Opus 4.8. Su Terminal-Bench 2.1, un altro test di programmazione, Sonnet 5 ottiene l'80.4% contro il 67.0% del modello precedente e l'82.7% del modello di punta. In ragionamento multidisciplinare, misurato da Humanity's Last Exam, Sonnet 5 segna il 43.2% senza strumenti e il 57.4% con strumenti, quest'ultimo valore sostanzialmente identico al 57.9% di Opus 4.8. Nel test computer use OSWorld-Verified, raggiunge l'81.2% rispetto al 78.5% del predecessore. Infine, su GDPval-AA v2, un benchmark per lavori di conoscenza, Sonnet 5 ottiene 1.618 punti, superando gli 1.615 di Opus 4.8 e staccando nettamente gli 1.395 di Sonnet 4.6. Questi dati dimostrano che Sonnet 5 non si limita a un miglioramento incrementale, ma compie un salto qualitativo, posizionandosi in una fascia di prestazioni che si sovrappone ampiamente a quella del modello flagship, con un costo inferiore del 40% a regime e del 60% nel periodo introduttivo.
Sponsored Protocol
I partner aziendali lodano le capacità agentiche di Sonnet 5 per completare lavori complessi
L'enfasi sulle capacità agentiche, ovvero la capacità di pianificare, utilizzare strumenti come browser e terminali, ed eseguire flussi di lavoro multi-step in autonomia, riflette lo spostamento del centro di gravità del settore AI nel 2026. Le aziende non si limitano più a fare domande a chatbot, ma stanno implementando sistemi AI in grado di navigare ambienti software complessi ed eseguire compiti multi-step con supervisione minima. I partner che hanno avuto accesso anticipato dipingono un modello che non solo inizia i compiti, ma li completa. Sualeh Asif, co-fondatore di Cursor, ha dichiarato che con Claude Sonnet 5 gli agenti restano sul piano, seguono le convenzioni e realizzano modifiche multi-step pulite a un costo efficiente. Daniel Shepard, ingegnere senior di Zapier, ha descritto un lavoro di automazione in due fasi che con i modelli precedenti si bloccava a metà, ma che ora viene completato dall'inizio alla fine. Queste testimonianze sono cruciali perché evidenziano il superamento del gap di affidabilità che ha finora impedito a molte aziende di passare da progetti pilota a dispiegamenti in produzione. Un modello che completa l'intero flusso di lavoro cambia l'economia dell'automazione. Anthropic ha inoltre introdotto curve costo-prestazioni che permettono agli sviluppatori di regolare il livello di sforzo tra Sonnet 5 e Opus 4.8 per trovare il bilanciamento ottimale tra costo e accuratezza per il loro specifico caso d'uso.
Sponsored Protocol
Nuovo tokenizer migliora le prestazioni ma può aumentare i costi per alcuni carichi di lavoro
Un dettaglio tecnico importante riguarda l'aggiornamento del tokenizer di Sonnet 5, simile a quello introdotto con Opus 4.7. Il nuovo tokenizer cambia il modo in cui il modello elabora il testo, con il risultato che lo stesso input può corrispondere a un numero di token da 1.0 a 1.35 volte maggiore, a seconda del tipo di contenuto. Anthropic afferma che i prezzi introduttivi sono calibrati per essere all'incirca neutrali in termini di costi, ma le aziende con carichi di lavoro ad alto volume dovrebbero valutare attentamente i propri casi d'uso prima di assumere che le fatture non cambieranno.
Sponsored Protocol
La sicurezza di Sonnet 5 migliora ma i modelli più capaci restano più allineati
I dati sulla sicurezza diffusi da Anthropic rivelano un quadro articolato. Rispetto a Sonnet 4.6, Sonnet 5 mostra tassi inferiori di allucinazioni e sicofania, è più bravo a rifiutare richieste malevole e più resistente agli attacchi di prompt injection in contesti agentici. Nell'audit comportamentale automatizzato, Sonnet 5 ottiene un punteggio complessivo più basso (quindi più sicuro) rispetto al predecessore. Tuttavia, Sonnet 5 mostra tassi leggermente più alti di comportamenti disallineati rispetto a Opus 4.8 e a Claude Mythos Preview, il modello focalizzato sulla cybersicurezza. In una valutazione sullo sviluppo di exploit per Firefox 147, né Sonnet 4.6 né Sonnet 5 sono riusciti a sviluppare un exploit funzionante (entrambi 0.0%), ma Sonnet 5 ha mostrato un tasso di successo parziale leggermente più alto (13.2% contro 8.8%), rimanendo comunque molto al di sotto di Opus 4.8 (68.8%) e Mythos 5 (88.4%). Per questo motivo, Sonnet 5 è stato lanciato con salvaguardie cyber attivate per impostazione predefinita, sistemi in tempo reale che rilevano e bloccano usi pericolosi. Le salvaguardie sono meno restrittive di quelle applicate a Fable 5, l'ultimo modello della classe Mythos. Le organizzazioni iscritte al Cyber Verification Program di Anthropic ricevono automaticamente lo stesso accesso su Sonnet 5 senza dover ripresentare domanda.
Sponsored Protocol
Sonnet 5 arriva mentre Anthropic si prepara all'IPO più attesa nella storia della tecnologia
Il lancio di Sonnet 5 avviene in un momento cruciale per Anthropic. L'azienda ha depositato il suo prospetto IPO presso la SEC all'inizio di giugno, preparandosi a quella che CNBC ha definito l'offerta pubblica più scrutinata nella storia della tecnologia. La traiettoria finanziaria è stata straordinaria: a febbraio Anthropic ha raccolto 30 miliardi di dollari a una valutazione di 380 miliardi, con ricavi annualizzati di 14 miliardi di dollari, cresciuti più di dieci volte in ciascuno degli ultimi tre anni. A fine maggio Anthropic ha chiuso un round Serie H da 65 miliardi di dollari a una valutazione post-money di 965 miliardi, co-guidato da Altimeter Capital e Sequoia Capital, con un tasso di ricavi che ha superato i 47 miliardi di dollari. L'analista Harrison Rolfes di PitchBook ha sottolineato che il numero che convaliderà o farà crollare l'intera narrativa dei mercati privati non sarà la valutazione o i ricavi, ma il margine lordo, un dato che nessun osservatore esterno ha ancora visto. In questo contesto, Sonnet 5 serve a un duplice scopo: per gli sviluppatori offre miglioramenti reali a prezzi competitivi; per la narrativa IPO dimostra che Anthropic può fornire un prodotto convincente a un prezzo in grado di guidare un'adozione diffusa, generando entrate API ricorrenti e ad alto volume da migliaia di clienti enterprise. Anthropic, che di recente ha lanciato Claude Science per la ricerca scientifica autonoma, continua a espandere la sua offerta in vista dell'IPO. Secondo Wikipedia, l'azienda è stata fondata nel 2021 ed è considerata uno dei leader nello sviluppo di AI sicura.
Sponsored Protocol