Hai un PDF di 50 pagine con dati di magazzino da estrarre in un JSON? Un video di formazione da trascrivere e riassumere? O una gallery di foto prodotti da taggare automaticamente? Finora servivano tool diversi, chiavi API separate, e una pazienza da certosino. Con Gemini API e la sua multimodalità nativa, tutto questo si risolve con un unico modello.
Noi, di Meteora Web, lavoriamo con clienti che devono gestire volumi reali: fatture scannerizzate, cataloghi immagini, registrazioni vocali di riunioni. Abbiamo smesso di concatenare servizi e siamo passati direttamente a Gemini. Perché quando un modello capisce testo, immagini, audio e video in modo nativo, il tuo stack si semplifica e il ROI sale.
Cosa significa multimodalità in Gemini
I modelli linguistici tradizionali leggono solo testo. Gemini — dalla versione 1.5 Pro in poi — accetta in input immagini, audio, video e documenti (PDF, DOCX, XLSX, PPTX) e li elabora come fossero testo. Non c'è un pre-processing separato: passi il file e lui lo interpreta.
Per noi che veniamo dalla gestione ERP e dalla contabilità, è come passare da un registro partite doppia cartaceo a un foglio elettronico interconnesso. I dati non viaggiano più in silos: un PDF di fattura diventa un oggetto JSON pronto per il database, un video di assistenza clienti diventa una knowledge base.
Quali formati supporta
Ecco cosa puoi passare direttamente all’API:
- Immagini: JPEG, PNG, WEBP, HEIC, HEIF. Fino a 20 MB per file (ma con ottimizzazione consigliata).
- Audio: MP3, WAV, FLAC, OGG. L’audio viene convertito in testo con timestamps opzionali.
- Video: MP4, MOV, AVI, WebM. Gemini estrae fotogrammi a campione e tracce audio automaticamente.
- Documenti: PDF, DOCX, XLSX, PPTX, TXT. File fino a 50 MB. Vengono letti come sequenze di pagine, fogli o slide.
Non serve alcun preprocessing. No framing manuale di video, no estrazione di testo da PDF. Lo mandi e lui lo processa.
Sponsored Protocol
Immagini: descrizioni, classificazioni e OCR nativo
Il caso d’uso più comune è l’analisi di immagini. Con Gemini puoi:
- Ottenere una descrizione testuale di una foto (utile per SEO di e-commerce o accessibilità).
- Estrarre testo da screenshot, cartelli, documenti scannerizzati (OCR senza librerie aggiuntive).
- Rilevare oggetti, colori, marche, emozioni — tutto in un unico prompt.
Esempio pratico: descrivere un’immagine per un catalogo moda
Supponiamo di avere una foto prodotto. Con una chiamata API otteniamo descrizione, colori dominanti e materiali percepiti. Ecco come fare con Python:
import google.generativeai as genai
# Configurazione (usa la tua API key)
genai.configure(api_key='YOUR_API_KEY')
model = genai.GenerativeModel('gemini-1.5-pro')
# Carica immagine
import PIL.Image
img = PIL.Image.open('catalogo/maglione_rosso.jpg')
# Prompt per analisi
prompt = """Descrivi questa immagine per un catalogo e-commerce.
Includi: tipo di capo, colore predominante, materiale apparente,
stile (casual, elegante, sportivo). Restituisci in formato JSON."""
response = model.generate_content([prompt, img])
print(response.text)
Risultato:
{
"capo": "maglione a collo alto",
"colore_predominante": "rosso borgogna",
"materiale_apparente": "lana o misto lana",
"stile": "elegante casual"
}
Questo output lo inserisci direttamente nel database del tuo e-commerce. Niente taglia-e-cuci manuale. Noi lo abbiamo testato su un catalogo di 300 capi: il tempo di etichettatura è sceso da 3 giorni a 2 ore.
Sponsored Protocol
OCR su fatture e documenti
Un altro uso che ci tocca da vicino: estrarre dati da fatture scannerizzate. Con un solo prompt:
fattura = PIL.Image.open('fattura_1234.jpg')
prompt = "Estrai da questa fattura: numero documento, data, importo totale, partita IVA fornitore. Output JSON."
response = model.generate_content([prompt, fattura])
print(response.text)
Con funzioni di schema (response_schema) puoi forzare la struttura esatta del JSON, eliminando sorprese.
Audio: trascrizione, riassunto e analisi di sentiment
Gemini non è un semplice speech-to-text. Può ascoltare un intero audio e rispondere a domande sul contenuto, identificare parlanti diversi, estrarre azioni da verbali. L’audio viene campionato a 16kHz e processato come sequenza di token, niente codec esterni.
Trascrivere e riassumere una riunione
audio_file = genai.upload_file(path='riunione_team.mp3')
model = genai.GenerativeModel('gemini-1.5-pro')
response = model.generate_content([
"Trascrivi questo audio e poi riassumi i punti principali in bullet list. "
"Evidenzia le azioni assegnate.",
audio_file
])
print(response.text)
Risultato:
Trascrizione
[00:00] Marco: Dobbiamo aggiornare il modulo di contatto...
...
Punti principali
- Aggiornare form contatto entro venerdì
- Preparare report SEO per martedì
- Assegnare revisione documenti a Laura
Azioni assegnate
- Marco: aggiornamento form
- Laura: report SEO
Puoi anche chiedere di estrarre il sentiment dei partecipanti, o di evitare di trascrivere le parti non rilevanti. Noi lo usiamo per i meeting dei clienti: una volta registrata la call, in 30 secondi abbiamo verbale e punti operativi.
Sponsored Protocol
Video: estrarre fotogrammi e tracce in un colpo solo
I video sono il formato più complesso, ma Gemini li tratta come una sequenza di fotogrammi (circa 1 al secondo) più la traccia audio. Puoi chiedere descrizioni, conteggio oggetti, riassunto narrativo, o anche domande specifiche su cosa succede in un preciso istante.
Analizzare un video di formazione
video_file = genai.upload_file(path='formazione_software.mp4')
# Attendi che il file sia processato (a volte serve un polling)
nome_file = video_file.name
model = genai.GenerativeModel('gemini-1.5-pro')
response = model.generate_content([
"Guarda questo video di formazione e rispondi: "
"1. Quali passaggi vengono mostrati? "
"2. Ci sono errori comuni evidenziati? "
"3. Fornisci un indice dei minuti per ogni sezione.",
video_file
])
print(response.text)
Risultato:
1. Passaggi mostrati:
- (0:00-1:30) Configurazione account
- (1:30-3:00) Importazione dati...
2. Errori comuni:
- A 2:15 mostra password in chiaro → sconsigliato
3. Indice:
- 0:00 Introduzione
- 1:30 Setup
- 3:00 Import
Se vuoi solo il testo parlato, aggiungi "Trascrivi solo la componente audio". Se vuoi analizzare solo fotogrammi, usa video_file ma imposta "audio": False nel prompt (anche se non è un parametro esplicito, puoi forzarlo con un prompt).
Documenti: PDF, Excel, Word, Powerpoint
I documenti vengono letti come testo. Gemini estrae il contenuto di ogni pagina (PDF) o di ogni foglio (Excel) e slide (Powerpoint). Puoi fare domande, riassumere, confrontare versioni, o estrarre tabelle.
Sponsored Protocol
Estrarre dati da un Excel di magazzino
excel_file = genai.upload_file(path='inventario_2025.xlsx')
model = genai.GenerativeModel('gemini-1.5-pro')
response = model.generate_content([
"Da questo file Excel, elenca i prodotti con quantità inferiore a 10 "
"e calcola il valore totale delle scorte a rischio rottura di stock. "
"Usa la colonna Prezzo e Quantità.",
excel_file
])
print(response.text)
Risultato:
Prodotti con quantità < 10:
- Maglione rosso: 7 pezzi x €45 = €315
- Scarpe nere 42: 3 pezzi x €89 = €267
...
Valore totale scorte a rischio: €1.234
Attenzione: Gemini non esegue formule. Se il tuo Excel ha calcoli, devono essere già risolti o devi fornire i valori calcolati. Noi consigliamo di esportare in CSV o pre-calcolare le colonne derivate. È un limite noto, ma aggirabile con un preprocessing minimo.
Limiti e accorgimenti pratici
- Dimensioni file: Il limite per file caricato tramite API è 2 GB per i video, ma in pratica con file molto grandi (oltre 50 MB) i tempi di elaborazione salgono. Noi consigliamo di comprimere immagini a 1200px e usare audio a 128kbps.
- Video lunghi: Gemini 1.5 Pro supporta fino a 1 ora di video. Oltre, devi segmentare.
- Documenti complessi: PDF con layout a colonne o tabelle nidificate possono perdere la struttura. Testa sempre su un campione.
- Costo: La multimodalità costa di più in termini di token. Ogni immagine o fotogramma conta come token. Usa prompt concisi per ridurre i costi.
- Privacy: I file caricati vengono elaborati da Google. Se hai dati sensibili, verifica le policy del tuo contratto o usa Vertex AI.
Casi d’uso reali che abbiamo implementato
Con un cliente che gestisce un archivio di fatture, abbiamo automatizzato la categorizzazione contabile: PDF di fatture → estrazione di fornitore, importo, IVA → popolamento di un foglio di partita doppia. Tempo risparmiato: 4 ore a settimana.
Sponsored Protocol
Un’agenzia di comunicazione ci ha chiesto di analizzare i video delle interviste ai clienti: trascrizione automatica, estrazione delle frasi più significative, bozza di case study. Con Gemini, il copywriter riceve pronto il 70% del materiale.
Un negozio di abbigliamento (che seguiamo dall’epoca del sistema ERP) usa l’analisi immagini per taggare automaticamente i nuovi arrivi: colore, tipo, stile. Inserimento in WooCommerce in 2 click.
In sintesi — cosa fare adesso
- Ottieni una chiave API Gemini da Google AI Studio.
- Installa la libreria:
pip install google-generativeai. - Prova l’esempio immagine con una foto prodotto. Verifica l’output JSON.
- Passa a un documento reale (fattura o Excel) e chiedi estrazione di campi.
- Automatizza: crea uno script che legge una cartella di file e produce un report.
La multimodalità di Gemini non è una feature futura: funziona oggi, costa meno di soluzioni multi-modello e semplifica il tuo stack. Noi lo abbiamo integrato nelle nostre piattaforme e i clienti vedono la differenza. Se vuoi approfondire l’intera API, leggi la guida pillar su Gemini API. Per la sicurezza e il tracking, dai un’occhiata agli articoli su INP e Core Web Vitals.
Per documentazione ufficiale: Gemini API Vision (immagini e video) e Gemini API Audio.