Multimodalità Gemini: analisi immagini audio video documenti con l'API • Meteora Web Agency

Hai un PDF di 50 pagine con dati di magazzino da estrarre in un JSON? Un video di formazione da trascrivere e riassumere? O una gallery di foto prodotti da taggare automaticamente? Finora servivano tool diversi, chiavi API separate, e una pazienza da certosino. Con Gemini API e la sua multimodalità nativa, tutto questo si risolve con un unico modello.

Noi, di Meteora Web, lavoriamo con clienti che devono gestire volumi reali: fatture scannerizzate, cataloghi immagini, registrazioni vocali di riunioni. Abbiamo smesso di concatenare servizi e siamo passati direttamente a Gemini. Perché quando un modello capisce testo, immagini, audio e video in modo nativo, il tuo stack si semplifica e il ROI sale.

Cosa significa multimodalità in Gemini

I modelli linguistici tradizionali leggono solo testo. Gemini — dalla versione 1.5 Pro in poi — accetta in input immagini, audio, video e documenti (PDF, DOCX, XLSX, PPTX) e li elabora come fossero testo. Non c'è un pre-processing separato: passi il file e lui lo interpreta.

Per noi che veniamo dalla gestione ERP e dalla contabilità, è come passare da un registro partite doppia cartaceo a un foglio elettronico interconnesso. I dati non viaggiano più in silos: un PDF di fattura diventa un oggetto JSON pronto per il database, un video di assistenza clienti diventa una knowledge base.

Quali formati supporta

Ecco cosa puoi passare direttamente all’API:

Immagini: JPEG, PNG, WEBP, HEIC, HEIF. Fino a 20 MB per file (ma con ottimizzazione consigliata).
Audio: MP3, WAV, FLAC, OGG. L’audio viene convertito in testo con timestamps opzionali.
Video: MP4, MOV, AVI, WebM. Gemini estrae fotogrammi a campione e tracce audio automaticamente.
Documenti: PDF, DOCX, XLSX, PPTX, TXT. File fino a 50 MB. Vengono letti come sequenze di pagine, fogli o slide.

Non serve alcun preprocessing. No framing manuale di video, no estrazione di testo da PDF. Lo mandi e lui lo processa.

Immagini: descrizioni, classificazioni e OCR nativo

Il caso d’uso più comune è l’analisi di immagini. Con Gemini puoi:

Ottenere una descrizione testuale di una foto (utile per SEO di e-commerce o accessibilità).
Estrarre testo da screenshot, cartelli, documenti scannerizzati (OCR senza librerie aggiuntive).
Rilevare oggetti, colori, marche, emozioni — tutto in un unico prompt.

Esempio pratico: descrivere un’immagine per un catalogo moda

Supponiamo di avere una foto prodotto. Con una chiamata API otteniamo descrizione, colori dominanti e materiali percepiti. Ecco come fare con Python:

import google.generativeai as genai

# Configurazione (usa la tua API key)
genai.configure(api_key='YOUR_API_KEY')
model = genai.GenerativeModel('gemini-1.5-pro')

# Carica immagine
import PIL.Image
img = PIL.Image.open('catalogo/maglione_rosso.jpg')

# Prompt per analisi
prompt = """Descrivi questa immagine per un catalogo e-commerce. 
Includi: tipo di capo, colore predominante, materiale apparente, 
stile (casual, elegante, sportivo). Restituisci in formato JSON."""

response = model.generate_content([prompt, img])
print(response.text)

Risultato:

{
  "capo": "maglione a collo alto",
  "colore_predominante": "rosso borgogna",
  "materiale_apparente": "lana o misto lana",
  "stile": "elegante casual"
}

Questo output lo inserisci direttamente nel database del tuo e-commerce. Niente taglia-e-cuci manuale. Noi lo abbiamo testato su un catalogo di 300 capi: il tempo di etichettatura è sceso da 3 giorni a 2 ore.

OCR su fatture e documenti

Un altro uso che ci tocca da vicino: estrarre dati da fatture scannerizzate. Con un solo prompt:

fattura = PIL.Image.open('fattura_1234.jpg')
prompt = "Estrai da questa fattura: numero documento, data, importo totale, partita IVA fornitore. Output JSON."
response = model.generate_content([prompt, fattura])
print(response.text)

Con funzioni di schema (response_schema) puoi forzare la struttura esatta del JSON, eliminando sorprese.

Audio: trascrizione, riassunto e analisi di sentiment

Gemini non è un semplice speech-to-text. Può ascoltare un intero audio e rispondere a domande sul contenuto, identificare parlanti diversi, estrarre azioni da verbali. L’audio viene campionato a 16kHz e processato come sequenza di token, niente codec esterni.

Trascrivere e riassumere una riunione

audio_file = genai.upload_file(path='riunione_team.mp3')
model = genai.GenerativeModel('gemini-1.5-pro')
response = model.generate_content([
    "Trascrivi questo audio e poi riassumi i punti principali in bullet list. "
    "Evidenzia le azioni assegnate.",
    audio_file
])
print(response.text)

Risultato:

Trascrizione
[00:00] Marco: Dobbiamo aggiornare il modulo di contatto...
...
Punti principali
- Aggiornare form contatto entro venerdì
- Preparare report SEO per martedì
- Assegnare revisione documenti a Laura

Azioni assegnate
- Marco: aggiornamento form
- Laura: report SEO

Puoi anche chiedere di estrarre il sentiment dei partecipanti, o di evitare di trascrivere le parti non rilevanti. Noi lo usiamo per i meeting dei clienti: una volta registrata la call, in 30 secondi abbiamo verbale e punti operativi.

Video: estrarre fotogrammi e tracce in un colpo solo

I video sono il formato più complesso, ma Gemini li tratta come una sequenza di fotogrammi (circa 1 al secondo) più la traccia audio. Puoi chiedere descrizioni, conteggio oggetti, riassunto narrativo, o anche domande specifiche su cosa succede in un preciso istante.

Analizzare un video di formazione

video_file = genai.upload_file(path='formazione_software.mp4')
# Attendi che il file sia processato (a volte serve un polling)
nome_file = video_file.name

model = genai.GenerativeModel('gemini-1.5-pro')
response = model.generate_content([
    "Guarda questo video di formazione e rispondi: "
    "1. Quali passaggi vengono mostrati? "
    "2. Ci sono errori comuni evidenziati? "
    "3. Fornisci un indice dei minuti per ogni sezione.",
    video_file
])
print(response.text)

Risultato:

1. Passaggi mostrati:
- (0:00-1:30) Configurazione account
- (1:30-3:00) Importazione dati...
2. Errori comuni:
- A 2:15 mostra password in chiaro → sconsigliato
3. Indice:
- 0:00 Introduzione
- 1:30 Setup
- 3:00 Import

Se vuoi solo il testo parlato, aggiungi "Trascrivi solo la componente audio". Se vuoi analizzare solo fotogrammi, usa video_file ma imposta "audio": False nel prompt (anche se non è un parametro esplicito, puoi forzarlo con un prompt).

Documenti: PDF, Excel, Word, Powerpoint

I documenti vengono letti come testo. Gemini estrae il contenuto di ogni pagina (PDF) o di ogni foglio (Excel) e slide (Powerpoint). Puoi fare domande, riassumere, confrontare versioni, o estrarre tabelle.

Estrarre dati da un Excel di magazzino

excel_file = genai.upload_file(path='inventario_2025.xlsx')
model = genai.GenerativeModel('gemini-1.5-pro')
response = model.generate_content([
    "Da questo file Excel, elenca i prodotti con quantità inferiore a 10 "
    "e calcola il valore totale delle scorte a rischio rottura di stock. "
    "Usa la colonna Prezzo e Quantità.",
    excel_file
])
print(response.text)

Risultato:

Prodotti con quantità < 10:
- Maglione rosso: 7 pezzi x €45 = €315
- Scarpe nere 42: 3 pezzi x €89 = €267
...
Valore totale scorte a rischio: €1.234

Attenzione: Gemini non esegue formule. Se il tuo Excel ha calcoli, devono essere già risolti o devi fornire i valori calcolati. Noi consigliamo di esportare in CSV o pre-calcolare le colonne derivate. È un limite noto, ma aggirabile con un preprocessing minimo.

Limiti e accorgimenti pratici

Dimensioni file: Il limite per file caricato tramite API è 2 GB per i video, ma in pratica con file molto grandi (oltre 50 MB) i tempi di elaborazione salgono. Noi consigliamo di comprimere immagini a 1200px e usare audio a 128kbps.
Video lunghi: Gemini 1.5 Pro supporta fino a 1 ora di video. Oltre, devi segmentare.
Documenti complessi: PDF con layout a colonne o tabelle nidificate possono perdere la struttura. Testa sempre su un campione.
Costo: La multimodalità costa di più in termini di token. Ogni immagine o fotogramma conta come token. Usa prompt concisi per ridurre i costi.
Privacy: I file caricati vengono elaborati da Google. Se hai dati sensibili, verifica le policy del tuo contratto o usa Vertex AI.

Casi d’uso reali che abbiamo implementato

Con un cliente che gestisce un archivio di fatture, abbiamo automatizzato la categorizzazione contabile: PDF di fatture → estrazione di fornitore, importo, IVA → popolamento di un foglio di partita doppia. Tempo risparmiato: 4 ore a settimana.

Un’agenzia di comunicazione ci ha chiesto di analizzare i video delle interviste ai clienti: trascrizione automatica, estrazione delle frasi più significative, bozza di case study. Con Gemini, il copywriter riceve pronto il 70% del materiale.

Un negozio di abbigliamento (che seguiamo dall’epoca del sistema ERP) usa l’analisi immagini per taggare automaticamente i nuovi arrivi: colore, tipo, stile. Inserimento in WooCommerce in 2 click.

In sintesi — cosa fare adesso

Ottieni una chiave API Gemini da Google AI Studio.
Installa la libreria: pip install google-generativeai.
Prova l’esempio immagine con una foto prodotto. Verifica l’output JSON.
Passa a un documento reale (fattura o Excel) e chiedi estrazione di campi.
Automatizza: crea uno script che legge una cartella di file e produce un report.

La multimodalità di Gemini non è una feature futura: funziona oggi, costa meno di soluzioni multi-modello e semplifica il tuo stack. Noi lo abbiamo integrato nelle nostre piattaforme e i clienti vedono la differenza. Se vuoi approfondire l’intera API, leggi la guida pillar su Gemini API. Per la sicurezza e il tracking, dai un’occhiata agli articoli su INP e Core Web Vitals.

Per documentazione ufficiale: Gemini API Vision (immagini e video) e Gemini API Audio.

Multimodalità Gemini: Analisi di Immagini, Audio, Video e Documenti con l’API di Google

Cosa significa multimodalità in Gemini

Quali formati supporta

Immagini: descrizioni, classificazioni e OCR nativo

Esempio pratico: descrivere un’immagine per un catalogo moda

OCR su fatture e documenti

Audio: trascrizione, riassunto e analisi di sentiment

Trascrivere e riassumere una riunione

Video: estrarre fotogrammi e tracce in un colpo solo

Analizzare un video di formazione

Documenti: PDF, Excel, Word, Powerpoint

Estrarre dati da un Excel di magazzino

Limiti e accorgimenti pratici

Casi d’uso reali che abbiamo implementato

In sintesi — cosa fare adesso

> AUTHOR_EXTRACTED

Ing. Calogero Bono

Costruiamo la presenza digitale che la tua azienda merita.

Rimani sul pezzo

> MW_JOURNAL LATEST_LOGS

Test comparativo laptop su batteria e alimentazione: Intel, Apple e Qualcomm superano AMD nella stabilità prestazionale

OpenAI President smentisce le accuse di Apple: siamo sufficientemente innovativi

Microsoft assicura: i giochi su disco Xbox dovevano funzionare durante il blackout — un aggiornamento correggerà l'errore di verifica delle licenze

Gemini per macOS arriva il controllo vocale con trascrizione intelligente come Gboard Rambler

Galaxy Tab S11 Ultra in offerta fino a 515 dollari di sconto con i preordini dei Galaxy Z Fold 8