Crawl Budget: guida operativa per ottimizzare la scansione Googlebot • Meteora Web Agency

Il tuo sito ha 10.000 pagine, ma Google ne indicizza solo 500. Hai contenuti di qualità, ma nessuno li trova. Non è un errore di contenuto: è un problema di crawl budget. Googlebot non scansiona tutto all'infinito: ha risorse limitate per ogni sito. Se sprechi quelle risorse su pagine inutili, quelle importanti restano fuori. Noi, di Meteora Web, lo vediamo ogni giorno: siti con 50.000 URL generati da filtri, parametri, pagine di ricerca interna, versioni stampa. E poi ci si chiede perché le pagine prodotto non compaiono su Google. La buona notizia? Si può ottimizzare. E si fa con logica, non con bacchette magiche.

Cos'è il crawl budget (e perché ti riguarda)

Il crawl budget è il numero di URL che Googlebot scansiona sul tuo sito in un dato periodo. Dipende da due fattori: crawl rate limit (quanto velocemente Googlebot può scansionare senza sovraccaricare il server) e crawl demand (quanto Google ritiene importanti le tue pagine). Se il tuo server risponde lento, Google rallenta. Se hai pagine di bassa qualità, Google scansiona meno. Risultato: le pagine nuove o aggiornate restano in coda.

Esempio concreto

Un e-commerce con 5.000 prodotti, 5 taglie e 3 colori per prodotto = 75.000 URL di varianti. Ogni variante ha una pagina unica. Aggiungi filtri per categoria, pagine di ricerca, pagine di categoria con ordinamento. Totale: 200.000 URL. Googlebot ha un budget di, mettiamo, 1.000 URL al giorno. In 200 giorni scansiona tutto, ma intanto le novità non vengono viste. Spreco puro.

I tre pilastri dell'ottimizzazione del crawl budget

1. Eliminare gli URL inutili

Ogni URL che non deve essere indicizzato va bloccato. Non solo con noindex, ma direttamente con robots.txt o tag canonical ben fatti. Gli URL da eliminare:

Pagine di ricerca interna (es. /search?q=scarpe)
Parametri di tracking (es. ?utm_source=facebook)
Versioni stampa, pagine di filtro senza valore aggiunto
Pagine con contenuto duplicato o sottile
URL generati da sessioni (es. ?session_id=abc)

Azione pratica: Vai su Google Search Console → Rapporti → Statistiche di scansione. Guarda gli URL scansionati con errore 404, 301 o 500. Quelli sono buchi neri. Bloccali in robots.txt o correggi i link interni.

2. Ottimizzare la velocità del server

Googlebot aspetta. Se il server impiega 3 secondi a rispondere, Googlebot riduce il rate. Se il tempo di risposta è sotto 200 ms, Googlebot accelera. Sembra poca cosa, ma su 10.000 URL fa la differenza. Noi abbiamo visto siti passare da 200 URL scansionati al giorno a 3.000 dopo aver ottimizzato TTFB e abilitato HTTP/2.

# Esempio di test TTFB con curl
curl -o /dev/null -s -w "Connect time: %{time_connect}s\nTTFB: %{time_starttransfer}s\nTotal: %{time_total}s\n" https://tuosito.it

Azione pratica: Usa curl sopra o strumenti come PageSpeed Insights per misurare il TTFB. Obiettivo: sotto 300 ms. Se supera 500 ms, parla con l'hosting o passa a un server più performante (noi usiamo server dedicati ottimizzati per WordPress e Laravel).

3. Dare priorità alle pagine importanti

Non tutte le pagine meritano lo stesso budget. Usa sitemap XML per segnalare le pagine principali. Aggiorna la sitemap ogni volta che pubblichi contenuti nuovi. Googlebot legge la sitemap e dà priorità agli URL elencati. La sitemap non forza la scansione, ma aiuta. Inoltre, usa i link interni: le pagine con più link interni vengono scansionate prima. È una questione di architettura.

Strumenti pratici per monitorare e ottimizzare

Google Search Console — Statistiche di scansione

Qui vedi esattamente quante richieste fa Googlebot al giorno, il tempo medio di risposta, gli errori. Noi lo controlliamo settimanalmente per ogni cliente. Se vedi un picco di errori 404, significa che hai link rotti o redirect mal gestiti. Se il tempo di risposta è alto, è ora di intervenire sul server.

Log Analysis

Il metodo più preciso: analizzare i log del server per vedere esattamente quali URL Googlebot ha scansionato, quanto spesso, e con che esito. Strumenti come Loggly o GoAccess (gratuito) possono farlo. Se noti che Googlebot scansiona 50 volte al giorno la pagina "contatti" e mai le pagine prodotto, hai un problema di architettura link.

# Esempio di analisi rapida con grep e awk
cat access.log | grep "Googlebot" | awk '{print $7}' | sort | uniq -c | sort -nr | head -20

Azione pratica: Se hai accesso ai log, esegui il comando sopra. Se non hai accesso, chiedi al tuo hosting. I log non mentono.

Robot.txt e meta robots

Non bloccare CSS o JS (Googlebot deve vederli per valutare la pagina). Blocca solo URL dinamici senza valore. Esempio di robots.txt ottimizzato:

User-agent: *
Disallow: /search/
Disallow: /tag/
Disallow: /page/
Disallow: /*?utm_
Disallow: /*?session_
Sitemap: https://tuosito.it/sitemap.xml

Attenzione: non usare Disallow: / a meno che tu non voglia escludere tutto. E non bloccare mai l'accesso a file CSS/JS: Googlebot ne ha bisogno per il rendering.

Errori comuni e come evitarli

Troppi redirect a catena

Una pagina che fa 301 → 302 → 200. Googlebot segue ogni redirect, consumando budget. Se hai un cambio di dominio o di struttura, usa un solo redirect diretto.

Parametri di tracking senza gestione

URL come ?ref=newsletter generano infinite varianti. Usa il tag rel="canonical" per indicare la versione pulita, oppure configurali in Search Console → Impostazioni → Parametri URL.

Pagine orfane

Pagine senza link interni. Googlebot le scopre solo se sono nella sitemap o tramite link esterni. Ma se non hai backlink, potrebbero non essere mai scansionate. Assicurati che ogni pagina importante sia raggiungibile con un click dalla home (o quasi).

Quando il crawl budget non è il problema

Se hai meno di 1.000 pagine, il crawl budget raramente è un collo di bottiglia. Il vero problema è Google che non dà importanza alle tue pagine perché hanno bassa qualità, link deboli o contenuti duplicati. Ottimizzare il crawl budget ha senso quando hai decine di migliaia di URL e Google ne scansiona solo una frazione. Prima di tutto, assicurati che i contenuti siano buoni.

In sintesi — cosa fare adesso

Controlla le statistiche di scansione in Search Console: tempo di risposta, errori, totale URL scansionati al giorno.
Blocca gli URL inutili in robots.txt e sitemap. Usa il comando curl per test TTFB.
Analizza i log per vedere dove spreca budget Googlebot (esempio grep + awk).
Ottimizza link interni: le pagine importanti devono avere più link interni di quelle secondarie.
Aggiorna la sitemap ad ogni nuovo contenuto.

Noi, di Meteora Web, lo facciamo quotidianamente per i nostri clienti. Se vuoi una mano, sappiamo dove mettere le mani. Ma anche da solo puoi iniziare: parte da Search Console e dai log. Il resto viene da sé.