Shopify ha costruito un proxy LLM interno che permette a ogni ingegnere di accedere a molteplici provider di intelligenza artificiale, con failover automatico quando un modello viene dismesso, aggiornato o smette di funzionare. Quando Claude Fable 5 è stato ritirato, gli sviluppatori di Shopify non sono andati nel panico: il proxy li ha spostati automaticamente su Claude Opus o GPT 5.5 senza interrompere il loro lavoro.
Un proxy LLM per gestire la volatilità dei modelli
“Fable era fantastico, lo abbiamo usato”, ha dichiarato Farhan Thawar, head of engineering di Shopify, nel podcast VentureBeat Beyond the Pilot. “Quando un modello arriva e poi se ne va, o anche solo un aggiornamento, il proxy ci permette di spruzzare su diversi provider”. Shopify acquista token in blocco e tutti gli utenti si connettono ai modelli tramite il proxy. Questo offre reportistica e failover: in caso di indisponibilità di un provider, gli utenti vengono trasferiti “automaticamente e senza soluzione di continuità” a un altro. Thawar consiglia alle aziende di imparare da questo esempio e di predisporre un solido piano di backup per evitare di rimanere “super legati” a un unico fornitore. In un panorama in cui aziende come Stripe, Anthropic e OpenAI investono in soluzioni AI, Shopify sceglie la strada dell'infrastruttura indipendente.
Sponsored Protocol
Distillazione: modelli piccoli, veloci e precisi
Un'altra strategia chiave è la distillazione. Un modello studente impara da un modello insegnante e si specializza in un compito ristretto. I piccoli modelli linguistici (SLM) possono essere più vantaggiosi di quelli general-purpose. L'assistente AI di punta di Shopify, Sidekick, utilizza modelli distillati per eseguire numerosi sotto-compiti per i commercianti, eliminando “attrito” dal lavoro quotidiano. Secondo Thawar, questi modelli possono essere fino a 2 volte più economici e veloci, in casi estremi 30 volte. “Non si tratta solo di costo e latenza, ma di accuratezza”, sottolinea.
Sponsored Protocol
Il pipeline di distillazione automatizzato con Tangle
Gli ingegneri alimentano il pipeline con il modello insegnante, i dati di training, le valutazioni e un modello target – ad esempio, distillare Opus 4.8 in Qwen 3.5. Il processo richiede circa un giorno e restituisce una valutazione su velocità, costo e accuratezza per quel sotto-compito. Se il compromesso è buono, l'ingegnere lo deploya senza alcuna approvazione. La piattaforma interna Tangle permette a chiunque di visualizzare il pipeline in esecuzione. Thawar sogna un futuro in cui non sia necessario specificare un modello target: il pipeline stesso, basandosi su dati e valutazioni, potrebbe suggerire la migliore destinazione di distillazione. “Magari sarà un modello così piccolo da funzionare su un telefono”, dice.
Dal riflesso all'effetto leva con l'AI
Shopify ha anche implementato un dashboard di utilizzo che traccia non solo il consumo di token, ma chi usa i token più costosi, chi spende più tempo in ragionamento, e quali modelli vengono utilizzati in base a disciplina e livello. Inoltre, ci sono “interruttori” che avvisano gli utenti se un modello è in esecuzione per molto tempo (ad esempio 10 ore) consumando molti token, chiedendo “Intendevi spendere questo?”. L'obiettivo finale, spiega Thawar, è passare da “riflesso AI” a “effetto leva AI”, spingendo le persone a pensare a dove l'AI può portare il massimo beneficio nei loro flussi di lavoro. I modelli linguistici di grandi dimensioni (LLM) sono al centro di questa strategia, come spiega la definizione su Wikipedia. Con questo approccio, Shopify dimostra come un'infrastruttura solida e agnostica possa ridurre i vincoli e aumentare l'efficienza.
Sponsored Protocol