Per la maggior parte delle imprese, realizzare un video formativo di novanta secondi o un video dimostrativo di un prodotto è sempre stata un'impresa complessa. Servono un briefing ben pianificato, una troupe interna o un fornitore esterno, una ripresa, un montaggio e una serie di revisioni. Se una modifica al testo a schermo viene richiesta dalla revisione legale, l'intera catena riparte da capo. Costi elevati e tempistiche lunghe sono il motivo per cui tanti video interni non vengono mai prodotti.
Google punta a riscrivere questa equazione con Gemini Omni Flash, il primo modello della nuova famiglia "Omni", ora disponibile per sviluppatori e clienti enterprise tramite API dopo il debutto consumer al I/O 2026. Google descrive l'ambizione della famiglia come la creazione di qualsiasi cosa "da qualsiasi input", a cominciare dal video. Ma l'interazione principale non è solo un prompt text-to-video più potente: è la possibilità di modificare un clip già finito attraverso una conversazione.
L'API trasforma Omni in uno strumento per team marketing e L&D
Quando il modello è stato lanciato a maggio, l'analisi enterprise di VentureBeat aveva evidenziato un limite: senza un'interfaccia programmatica, Omni era uno strumento consumer e prosumer, non produttivo. Questo rollout API cambia le cose. Mette l'editing conversazionale nelle mani dei team marketing e formazione che producono la maggior parte dei video in un'organizzazione.
La proposta è chiara: una pipeline a cinque strumenti si comprime in un'unica conversazione. Fino ad ora, molti team assemblano video AI in modo complesso, combinando un LLM per la sceneggiatura, un modello text-to-image, un modello image-to-video, uno strumento separato per il lip-sync e un generatore vocale, ognuno con contratto, fatturazione e percorso dati diversi. L'argomentazione enterprise di Omni è l'unificazione: un unico modello che prende testo, immagini e video e restituisce un clip finito con audio sincronizzato.
Sponsored Protocol
Questa semplicità è il fattore che i decisori dovrebbero soppesare per primi. Ridurre più strumenti puntuali a un solo modello significa meno fornitori e un unico punto per monitorare l'output e applicare le regole di gestione dei dati. Per un'organizzazione che ha evitato il video generativo perché assemblare gli strumenti non valeva la pena, l'equazione cambia.
Editing conversazionale e riferimenti multimodali
Con l'editing conversazionale, ogni istruzione si basa sulla precedente. Un marketer può riilluminare un'inquadratura, riformattarla o cambiare un costume senza rigenerare da zero e perdere le parti già funzionanti. È la differenza tra prenotare una nuova ripresa e inviare una nota.
Omni accetta molto più di un prompt testuale. Oltre alle parole che descrivono cosa si vuole, è possibile fornire più immagini di riferimento e clip video esistenti; il modello trasporta questi dettagli nel risultato. Se si fornisce una fotografia di un oggetto specifico e si chiede di posizionarlo in una scena, il modello riproduce colori e forma approssimativa dell'oggetto reale, invece di inventare un sostituto generico. Anche se la corrispondenza non è perfetta, è abbastanza vicina da essere riconoscibile. Questo controllo basato su riferimenti rende la funzione interessante dal punto di vista commerciale: una foto prodotto, un logo aziendale o una location specifica possono essere inseriti come ingrediente, anziché descritti in un prompt sperando che funzioni.
Sponsored Protocol
Due punti di forza enterprise: world model e inserimento testo
Due delle quattro capacità chiave evidenziate da Google parlano direttamente al lavoro aziendale. Il primo è un world model, la comprensione del sistema di come si comportano le scene fisiche. Aggiungere pioggia leggera e pozzanghere a un'inquadratura esistente fa sì che il modello renda i riflessi delle persone e degli oggetti sull'asfalto bagnato, il tipo di coerenza fisica che separa le riprese reali dal video AI palese. Il secondo è l'inserimento di testo e logo. Puntando il modello su una scena piena di cartelli, è possibile riscriverli in un'altra lingua o per un marchio di propria scelta, e persino inserire il logo di un'azienda. I risultati non sono impeccabili: nei test, il tracciamento dei cartelli in scene complesse non era sempre perfetto e qualche testo tornava alla lingua originale tra un fotogramma e l'altro. Per video formativi che necessitano di etichette a schermo o annunci che richiedono un logo nella scena, è una capacità da valutare attentamente, ma anche un promemoria che l'output necessita ancora di una revisione umana prima della pubblicazione.
Sponsored Protocol
Interactions API e limiti attuali
Sotto il cofano, il modello funziona sulla nuova interactions API di Google, un'interfaccia stateful progettata per attività multi-turno anziché chat aperta. Ogni turno porta avanti il video precedente e i suoi riferimenti, consentendo alle modifiche di accumularsi in modo coerente. Gli sviluppatori possono concatenare generazioni: produrre un clip, modificare il gatto in un cucciolo di puma, ristilizzare il video in stile 8-bit retrò e poi in acquerello, e conservare ogni versione per ramificarsi in seguito.
I vincoli sono reali e vanno considerati nel budget. I clip attualmente sono limitati a 10 secondi, come indicato nella model card pubblicata. Per realizzare qualcosa di più lungo, si generano blocchi e li si monta insieme. Anche i filmati caricati possono essere modificati, purché durino al massimo 10 secondi e l'utente ne detenga i diritti. La stessa model card di Google ammette che mantenere la coerenza tra le modifiche e rendere il testo accurato rimangono problemi aperti.
Guardrail, watermark e la linea che Google non supera
Per un CISO, le demo contano meno del lavoro di provenienza che accompagna il modello. Ogni clip Omni porta il watermark SynthID di Google, Google sta estendendo le C2PA Content Credentials su tutti i suoi strumenti generativi, e ha lanciato un'API di rilevamento contenuti AI che segnala i media generati dall'intelligenza artificiale, sia di Google che di altri fornitori.
Google ha anche tracciato una linea deliberata. Il modello non accetta una foto statica di una persona più un clip audio per sincronizzare le labbra e far parlare l'immagine; una mossa esplicita per limitare i deepfake. Tuttavia, accetta una registrazione di qualcuno che parla e la traduce in un'altra lingua, un percorso utile per localizzare contenuti formativi globali. Per le imprese regolamentate, questi vincoli e la provenienza integrata sono caratteristiche, non attriti.
Sponsored Protocol
Prezzi aggressivi ma solo 720p e primo in classifica
I prezzi sono stati pubblicati insieme all'API e sono aggressivi. Omni Flash costa $0,10 al secondo di video 720p generato, il che porta un clip di dieci secondi a circa un dollaro. Questo corrisponde a Veo 3.1 Fast alla stessa risoluzione, costa il doppio di Veo 3.1 Lite e sottocosta Veo 3.1 standard di tre quarti.
Ma la tabella dei prezzi rivela anche il limite: Omni Flash genera solo 720p. Non esiste un'opzione 1080p o 4K, mentre i tier Veo arrivano fino al 4K. Per la formazione interna e la maggior parte dei video social, il 720p va bene. Per lavoro premium su grande schermo, è un tetto reale, ed è il motivo per cui Veo 3.1 ha ancora un ruolo.
I clip durano da 3 a 10 secondi in 720p nativo, in orizzontale (16:9) o verticale (9:16). Come input di riferimento, il modello accetta fino a sette immagini e fino a tre clip video di tre secondi o meno. Non accetta ancora audio come input, ma genera audio insieme al video che produce. L'output è MP4 standard e ogni clip viene fornito con watermark SynthID e credenziali C2PA integrate.
Sulla qualità, il segnale iniziale è forte. Nell'LMArena Text-to-Video Arena, una classifica dove le persone votano i risultati head-to-head di modelli concorrenti, Omni Flash era al primo posto con un punteggio di 1527.
Sponsored Protocol
Cosa significa per i budget e cosa manca ancora
Con i prezzi reali in mano, la storia dell'iterazione diventa concreta. Ogni modifica conversazionale è una nuova generazione che si paga, quindi una sessione con molte modifiche si accumula: circa un dollaro per ogni passata di dieci secondi a 720p. Ciò che il modello stateful cambia non è il costo di una modifica, ma il numero di quelle sprecate: poiché il contesto viene trasportato tra i turni, le generazioni vengono utilizzate per rifinire una versione che funziona già, invece di ricominciare da un prompt vuoto sperando che il tentativo successivo azzecchi.
Omni non è solo in questo campo. Veo 3.1 rimane l'opzione di produzione di Google per chi necessita di risoluzioni superiori, e concorrenti come Bytedance, Alibaba e OpenAI inseguono gli stessi budget. Ciò che Omni aggiunge è la capacità di editing stessa: la possibilità di trattare un video come un documento vivo anziché un rendering one-shot.
Per approfondire strumenti AI simili, vedi l'articolo su ChatGPT Custom GPT e la scoperta di Zurich come hub segreto di R&D per Google e OpenAI. Per ulteriori informazioni sul modello Gemini, consulta la voce su Wikipedia.