Shopify proxy LLM con failover automatico e distillazione interna • Meteora Web Agency

Shopify ha costruito un proxy LLM interno che permette a ogni ingegnere di accedere a molteplici provider di intelligenza artificiale, con failover automatico quando un modello viene dismesso, aggiornato o smette di funzionare. Quando Claude Fable 5 è stato ritirato, gli sviluppatori di Shopify non sono andati nel panico: il proxy li ha spostati automaticamente su Claude Opus o GPT 5.5 senza interrompere il loro lavoro.

Un proxy LLM per gestire la volatilità dei modelli

“Fable era fantastico, lo abbiamo usato”, ha dichiarato Farhan Thawar, head of engineering di Shopify, nel podcast VentureBeat Beyond the Pilot. “Quando un modello arriva e poi se ne va, o anche solo un aggiornamento, il proxy ci permette di spruzzare su diversi provider”. Shopify acquista token in blocco e tutti gli utenti si connettono ai modelli tramite il proxy. Questo offre reportistica e failover: in caso di indisponibilità di un provider, gli utenti vengono trasferiti “automaticamente e senza soluzione di continuità” a un altro. Thawar consiglia alle aziende di imparare da questo esempio e di predisporre un solido piano di backup per evitare di rimanere “super legati” a un unico fornitore. In un panorama in cui aziende come Stripe, Anthropic e OpenAI investono in soluzioni AI, Shopify sceglie la strada dell'infrastruttura indipendente.

Distillazione: modelli piccoli, veloci e precisi

Un'altra strategia chiave è la distillazione. Un modello studente impara da un modello insegnante e si specializza in un compito ristretto. I piccoli modelli linguistici (SLM) possono essere più vantaggiosi di quelli general-purpose. L'assistente AI di punta di Shopify, Sidekick, utilizza modelli distillati per eseguire numerosi sotto-compiti per i commercianti, eliminando “attrito” dal lavoro quotidiano. Secondo Thawar, questi modelli possono essere fino a 2 volte più economici e veloci, in casi estremi 30 volte. “Non si tratta solo di costo e latenza, ma di accuratezza”, sottolinea.

Il pipeline di distillazione automatizzato con Tangle

Gli ingegneri alimentano il pipeline con il modello insegnante, i dati di training, le valutazioni e un modello target – ad esempio, distillare Opus 4.8 in Qwen 3.5. Il processo richiede circa un giorno e restituisce una valutazione su velocità, costo e accuratezza per quel sotto-compito. Se il compromesso è buono, l'ingegnere lo deploya senza alcuna approvazione. La piattaforma interna Tangle permette a chiunque di visualizzare il pipeline in esecuzione. Thawar sogna un futuro in cui non sia necessario specificare un modello target: il pipeline stesso, basandosi su dati e valutazioni, potrebbe suggerire la migliore destinazione di distillazione. “Magari sarà un modello così piccolo da funzionare su un telefono”, dice.

Dal riflesso all'effetto leva con l'AI

Shopify ha anche implementato un dashboard di utilizzo che traccia non solo il consumo di token, ma chi usa i token più costosi, chi spende più tempo in ragionamento, e quali modelli vengono utilizzati in base a disciplina e livello. Inoltre, ci sono “interruttori” che avvisano gli utenti se un modello è in esecuzione per molto tempo (ad esempio 10 ore) consumando molti token, chiedendo “Intendevi spendere questo?”. L'obiettivo finale, spiega Thawar, è passare da “riflesso AI” a “effetto leva AI”, spingendo le persone a pensare a dove l'AI può portare il massimo beneficio nei loro flussi di lavoro. I modelli linguistici di grandi dimensioni (LLM) sono al centro di questa strategia, come spiega la definizione su Wikipedia. Con questo approccio, Shopify dimostra come un'infrastruttura solida e agnostica possa ridurre i vincoli e aumentare l'efficienza.

Fonte: https://venturebeat.com/orchestration/how-shopify-built-an-ai-stack-that-doesnt-care-which-models-survive

Shopify adotta un proxy LLM agnostico con failover automatico e distillazione interna per ogni sviluppatore

Un proxy LLM per gestire la volatilità dei modelli

Distillazione: modelli piccoli, veloci e precisi

Il pipeline di distillazione automatizzato con Tangle

Dal riflesso all'effetto leva con l'AI

> AUTHOR_EXTRACTED

Meteora Web

Costruiamo la presenza digitale che la tua azienda merita.

Rimani sul pezzo

> MW_JOURNAL LATEST_LOGS

YouTube Shorts — Strategia Contenuti per Crescita Veloce del Canale (senza trucchi)

Alibaba addestra modelli AI a prevedere gli ambienti invece che agire e supera sette benchmark

Chrome 149 introduce lo strumento 'Seleziona dallo schermo' per Gemini e il modello 3.5 Flash ottiene il controllo del computer

BigQuery per Analytics SQL e ML — Analizzare Terabyte di Dati Senza Gestire Server

Instagram Reels Ora Riproducibili su TV con Google Cast a Partire da Giugno 2026