Analisi Log File per SEO — Usa Screaming Frog per Scoprire Cosa Vede Googlebot • Meteora Web Agency

Il tuo sito è indicizzato male, ma non capisci perché. Hai ottimizzato i meta tag, migliorato la velocità, creato contenuti nuovi. Eppure Google salta le pagine che contano e spreca budget di crawl su quelle sbagliate. I report di Search Console ti danno numeri, ma non ti dicono la verità cruda: cosa fa realmente Googlebot quando visita il tuo server.

La risposta sta nei log file del tuo server. Ogni richiesta al tuo sito viene registrata: indirizzo IP, data, URL, codice di stato, user agent. Analizzando questi file con Screaming Frog Log File Analyzer riesci a ricostruire esattamente il comportamento di Googlebot. Non è SEO da bar — è ingegneria dei dati applicata al traffico organico.

Noi, di Meteora Web, lo facciamo da anni. Abbiamo salvato e-commerce che spendevano il 70% del crawl budget su pagine di ricerca interna senza valore. E abbiamo scoperto server che restituivano 500 a Googlebot senza che nessuno lo sapesse. In questa guida ti portiamo dentro il processo: cosa cercare, come usare Screaming Frog, e come trasformare i dati in azioni che migliorano il posizionamento.

Cosa sono i log file e perché contano per la SEO?

Ogni volta che un visitatore — umano o bot — carica una pagina del tuo sito, il server web (Apache, Nginx, IIS) scrive una riga in un file di log. Ogni riga contiene almeno: indirizzo IP del richiedente, timestamp, metodo HTTP (GET, POST), URL richiesto, codice di stato restituito (200, 404, 301, ecc.), dimensione della risposta, user agent (il browser o bot che ha fatto la richiesta).

Perché questo interessa a chi fa SEO? Perché Googlebot è un visitatore come gli altri, e i suoi passaggi sono registrati esattamente come quelli di un utente. Analizzando i log puoi rispondere a domande concrete:

Googlebot scansiona le pagine più importanti o spreca tempo su parametri di tracking, archivi di tag, pagine duplicate?
Quanto tempo impiega Googlebot a tornare su pagine nuove o modificate?
Ci sono errori 404, 500 o 301 che Googlebot incontra e che potrebbero bloccare l'indicizzazione?
Il crawl budget è ben distribuito o concentrato su poche sezioni?

I dati di Google Search Console sono aggregati e filtrati — i log file sono la fonte primaria, senza interpretazioni di mezzo. Noi li usiamo sempre per diagnosticare problemi di indicizzazione che i tool standard non mostrano.

Esempio concreto: un cliente e-commerce di abbigliamento (quelli che seguiamo da quando abbiamo gestito internamente il sistema ERP) aveva una sezione "lookbook" con decine di URL con parametri di sessione. Googlebot li scansionava tutti, generando centinaia di richieste al giorno su pagine identiche. Analizzando i log con Screaming Frog, abbiamo individuato il pattern e bloccato quelle URL via robots.txt, liberando il 40% del crawl budget per le pagine prodotto reali. Il risultato? Le pagine prodotto sono state indicizzate in metà tempo.

Quali metriche estrarre dai log per migliorare l'indicizzazione?

Non tutto quello che registra il server è utile per la SEO. Devi concentrarti su tre macro-aree: health (salute del sito per i bot), crawl budget (come Google spende le sue visite), e freshness (frequenza di ricrawl). Screaming Frog Log File Analyzer ti aiuta ad aggregare queste metriche automaticamente, ma è importante sapere cosa significano.

Codici di stato per Googlebot

Il primo filtro: estrai solo le righe con user agent contenente "Googlebot" (escludendo Googlebot-Image, Googlebot-News se non pertinenti). Poi raggruppa per codice di stato. Una distribuzione sana dovrebbe vedere il 90-95% di richieste con 200 (OK) o 301/302 (reindirizzamenti previsti). Se vedi un numero significativo di 404 (non trovato), 500 (errore server) o 410 (rimosso) su pagine che dovrebbero essere indicizzate, hai un problema da risolvere subito.

# Esempio: estrarre richieste Googlebot da access.log (Nginx) e contare i codici di stato
grep 'Googlebot' /var/log/nginx/access.log | awk '{print $9}' | sort | uniq -c | sort -rn

Screaming Frog fa questo lavoro in automatico, ma saperlo fare manualmente ti dà controllo quando il tool non è disponibile.

Crawl budget e URL scanstiti

Quante pagine diverse ha visitato Googlebot in un periodo? Quali sono le più scansionate? Screaming Frog produce una lista ordinata per numero di richieste. Se le prime 10 URL sono la home page, una pagina di contatto e una categoria — bene. Se sono URL con parametri di tracking (es. ?utm_source=facebook&fbclid=...), hai un problema di canonici o di definizione dei parametri in Search Console.

Attenzione ai pattern di risorse statiche: Screaming Frog filtra automaticamente CSS, JS, immagini, ma puoi includerli se vuoi capire se Googlebot le sta scaricando (come richiesto per il rendering). Un numero anomalo di richieste a file JavaScript obsoleti può indicare che Googlebot sta provando a renderizzare pagine con script pesanti — e fallendo.

Frequenza di ricrawl

Ogni volta che Googlebot ritorna su una pagina, nel log c'è un timestamp. Screaming Frog ti mostra l'intervallo medio tra due visite consecutive per ogni URL. Se una pagina importante (es. una pagina prodotto aggiornata settimanalmente) viene rivisitata ogni 30 giorni, mentre pagine di tag senza valore vengono scansionate ogni giorno, hai uno squilibrio da correggere — tipicamente con una strategia di internal linking o sitemap XML differenziata.

Come configurare Screaming Frog Log File Analyzer per l’analisi?

Screaming Frog Log File Analyzer è un modulo separato dal classico crawler SEO, ma si integra nello stesso software. Puoi acquistarlo come estensione o usare la versione di prova che analizza fino a 100.000 righe di log. Ecco i passi pratici.

1. Ottenere i log del server

Devi accedere ai file di log del tuo server. Se hai un hosting condiviso, di solito li trovi in una cartella tipo /logs/ o /var/log/ se hai accesso SSH. Su Nginx il file principale è access.log, su Apache access_log. Scarica almeno 7 giorni di log (meglio 30) per avere un campione significativo. Puoi usare scp o un client FTP. Se il server li ruota automaticamente (logrotate), cerca i file compressi .gz e decomprimili.

# Esempio: copiare i log di Nginx degli ultimi 7 giorni via scp
scp user@tuoserver:/var/log/nginx/access.log.1.gz .
gunzip access.log.1.gz

Noi, di Meteora Web, abbiamo risolto casi in cui il cliente non aveva accesso diretto ai log. In quel caso, o si chiede al provider di fornire un dump, o si configura un modulo come mod_log_config di Apache per scrivere i log in un formato che Screaming Frog possa analizzare direttamente via syslog o rsyslog. Ma la via più semplice è: chiedi al tuo hosting di darti i log in formato Common o Combined.

2. Caricare i log in Screaming Frog

Apri Screaming Frog, vai su File > Upload Logs (o Log File Analyzer se hai il modulo attivo). Carica uno o più file di log. Puoi anche caricare file .gz. Il tool parserà automaticamente le righe e riconoscerà i campi (IP, data, metodo, URL, status, user agent). Se il formato è personalizzato, puoi definire un pattern Regex nel pannello Configuration > Log File Parser Settings.

Consiglio: se hai log di più server (es. load balancer), caricali tutti insieme. Screaming Frog deduplica le richieste basandosi su timestamp + URL + user agent, ma puoi anche aggregare per IP del server.

3. Filtrare per Googlebot

Nel tab Filters, imposta un filtro sullo user agent: Googlebot (attiva Contains). Puoi anche escludere altri bot se non ti interessano (Bingbot, DuckDuckBot). Poi nel tab Reports scegli la visualizzazione. Le più utili:

Status Codes — distribuzione errori.
Top URLs by Hits — le pagine più scansionate.
Response Time — tempo medio di risposta per URL (se il log include il tempo di risposta).
User Agent Summary — quante richieste da Googlebot vs altri.

Puoi esportare tutto in CSV e analizzare con Excel o Google Sheets. Noi lo facciamo spesso per creare dashboard personalizzate per i clienti.

4. Interpretare i dati e agire

Ora hai i numeri. Cosa fai? Ecco una checklist operativa che usiamo quotidianamente:

Se vedi 404 su URL che dovrebbero esistere: controlla redirect o reimposta la risorsa.
Se vedi 500: parla col tuo sviluppatore o hosting — il server restituisce errori a Googlebot.
Se Googlebot scansiona troppe pagine con parametri: imposta in Search Console i parametri da ignorare, oppure usa robots.txt per bloccare pattern (con cautela).
Se la home page viene scansionata 1000 volte al giorno ma le pagine prodotto una volta a settimana: probabilmente il tuo internal linking o la sitemap non stanno funzionando. Rivedi la struttura dei link.
Se Googlebot non scansiona mai le pagine nuove nonostante la sitemap: verifica che la sitemap sia nella lista di Search Console e che le URL siano accessibili.

Noi abbiamo un caso concreto: un cliente con un blog su WordPress. I log mostravano che Googlebot scansionava le pagine degli autori (es. /author/mario) centinaia di volte al giorno, mentre gli articoli nuovi venivano ignorati per settimane. Abbiamo aggiunto un tag noindex alle pagine autore e inserito link diretti dagli articoli principali. Il crawl budget si è riequilibrato in 10 giorni.

Come interpretare i report di Screaming Frog e trasformarli in azioni SEO?

I numeri da soli non bastano. La vera differenza la fa la capacità di leggere i pattern. Screaming Frog offre diversi report; i più importanti sono elencati nel menu a sinistra dopo l'analisi. Vediamo i tre che usiamo sempre.

Report "Status Codes"

Ti mostra la percentuale di 2xx, 3xx, 4xx, 5xx per Googlebot. Se la percentuale di 4xx+5xx supera il 5%, hai un problema serio. Approfondisci: clicca su una riga per vedere gli URL specifici. Noi abbiamo visto siti con il 30% di richieste 404 perché avevano rimosso pagine vecchie senza impostare redirect. Googlebot continuava a visitarle dai backlink — abbiamo creato redirect 301 sulle URL più linkate e risolto.

Report "Top URLs"

Ordina per numero di richieste. Identifica le URL che consumano più crawl budget. Possono essere pagine importanti (ok) o spazzatura. Se tra le prime 20 vedi URL con parametri di sessione, pagine di ricerca interna, o versioni stampa, agisci. Noi consigliamo di usare il filtro per escludere risorse statiche, così vedi solo pagine HTML.

Report "Response Time"

Mostra il tempo medio di risposta del server per ogni URL. Se il server impiega più di 2 secondi a rispondere a Googlebot, il crawl budget ne risente (Google può rallentare o abbandonare). I log non sempre includono il tempo di risposta, ma molti server moderni lo registrano. Screaming Frog lo estrae se presente. Tempi alti su pagine specifiche possono indicare query lente, immagini non ottimizzate, o plugin pesanti. Agisci su quelle pagine per prime.

Ricorda: le analisi dei log sono uno strumento diagnostico, non una bacchetta magica. I dati ti dicono dove guardare, ma la soluzione la trovi combinando competenze tecniche e di contenuto. Noi, di Meteora Web, abbiamo affrontato situazioni in cui il server rispondeva bene, ma Googlebot non tornava perché il contenuto non era cambiato da mesi. In quel caso il problema non era tecnico ma editoriale: abbiamo spinto aggiornamenti periodici e migliorato la frequenza di pubblicazione.

Cosa fare adesso

Se non hai mai analizzato i log del tuo server per la SEO, ecco i passi immediati:

Recupera almeno 7 giorni di log dal server (access.log). Se non sai come fare, chiedi al tuo hosting — è un diritto.
Scarica Screaming Frog Log File Analyzer (versione di prova se non hai la licenza). Carica i log.
Filtra per Googlebot e guarda il report Status Codes. Se vedi errori, inizia da quelli.
Esporta le prime 100 URL per numero di richieste e confrontale con la tua lista di pagine strategiche. Se c'è disallineamento, hai trovato cosa ottimizzare.
Ripeti l'analisi ogni mese. Il comportamento di Googlebot cambia col tempo. Monitorare i log è come fare il tagliando all'auto — previeni guasti prima che costino clienti.

Se preferisci una consulenza, noi lo facciamo per i nostri clienti. Ma se inizi da solo, con Screaming Frog e questa guida hai gli strumenti per vedere il tuo sito come lo vede Googlebot. E quella è la base di ogni SEO che funziona.

Leggi anche la nostra guida pillar sul SEO tecnico avanzato per approfondire crawling, indicizzazione e performance.

Risorsa esterna: Documentazione ufficiale Screaming Frog Log File Analyzer.

Analisi Log File per SEO — Usare Screaming Frog per Scoprire Cosa Vede Googlebot Davvero

Cosa sono i log file e perché contano per la SEO?

Quali metriche estrarre dai log per migliorare l'indicizzazione?

Codici di stato per Googlebot

Crawl budget e URL scanstiti

Frequenza di ricrawl

Come configurare Screaming Frog Log File Analyzer per l’analisi?

1. Ottenere i log del server

2. Caricare i log in Screaming Frog

3. Filtrare per Googlebot

4. Interpretare i dati e agire

Come interpretare i report di Screaming Frog e trasformarli in azioni SEO?

Report "Status Codes"

Report "Top URLs"

Report "Response Time"

Cosa fare adesso

> AUTHOR_EXTRACTED

Ing. Calogero Bono

Costruiamo la presenza digitale che la tua azienda merita.

Rimani sul pezzo

> MW_JOURNAL LATEST_LOGS

Topic Cluster e Pillar Page — Come Organizzare i Contenuti per il Successo SEO nel 2026

Nginx Performance Tuning — Cache, Keepalive e Worker Process per Server più Veloci

La California lancia un tracker per monitorare la perdita di posti di lavoro legata all'IA

Microsoft e Apple alzano i prezzi di Xbox, MacBook e iPad fino a 1.300 dollari a causa dell'AI boom

RabbitMQ o Kafka per Microservizi — Come Scegliere il Message Broker che Riduce Costi e Complessità