Robots.txt e bot AI: come configurarlo senza danneggiare la GEO

Bloccare i bot delle intelligenze artificiali nel file robots.txt sembra una scelta prudente per proteggere i contenuti del sito. In realtà è quasi sempre un errore che danneggia la visibilità del sito su ChatGPT, Gemini, Perplexity e tutti gli altri agenti AI che milioni di persone usano ogni giorno per cercare informazioni. Un sito che blocca GPTBot non appare nelle risposte di ChatGPT. Un sito che blocca ClaudeBot non viene citato da Claude. Un sito che blocca Google-Extended non contribuisce agli AI Overview di Google. Il danno è reale, silenzioso e quasi nessuno lo controlla sistematicamente.

Nelle ultime settimane abbiamo trovato questo problema su diversi siti in manutenzione per le agenzie partner: configurazioni di Wordfence o Sucuri che bloccavano i crawler AI a livello firewall, trattandoli come bot di scraping malevoli. I proprietari dei siti non lo sapevano. Le agenzie non lo avevano notato. I siti erano tecnicamente sicuri ma invisibili all’ecosistema AI che sta diventando il canale di ricerca principale per una quota crescente di utenti.

Perché i bot AI vengono bloccati per errore

I plugin di sicurezza come Wordfence, Sucuri e iThemes Security sono progettati per proteggere i siti da accessi non autorizzati e da bot malevoli che tentano di accedere a dati sensibili o di eseguire attacchi brute force. Fanno il loro lavoro bene. Il problema è che le loro regole di default spesso non distinguono tra un bot malevolo che tenta di compromettere il sito e un crawler AI legittimo che vuole indicizzarne i contenuti per rispondere alle domande degli utenti.

GPTBot, il crawler di OpenAI, fa molte richieste HTTP in poco tempo su molte pagine. Il pattern è identico a quello di uno scraper. Wordfence con le impostazioni aggressive lo vede come una minaccia e lo blocca a livello IP prima ancora che possa leggere il robots.txt. Il risultato è che il robots.txt può anche essere configurato correttamente, ma il firewall del plugin interviene prima e il bot non passa.

Abbiamo trovato questa configurazione su un sito ecommerce di un cliente di un’agenzia partner: il sito vendeva prodotti artigianali italiani con distribuzione internazionale. Il proprietario aveva investito in contenuti di qualità e voleva che il sito apparisse nelle ricerche AI. Wordfence stava bloccando GPTBot, ClaudeBot e Applebot-Extended a livello firewall da mesi. Nessuna delle pagine del sito appariva nelle risposte di ChatGPT o Perplexity su query pertinenti. Dopo la correzione, in quattro settimane il sito ha iniziato a comparire nelle risposte di Perplexity su tre query di settore rilevanti.

I principali user-agent AI del 2026: chi sono e cosa fanno

Conoscere i principali crawler AI è il primo passo per configurare correttamente robots.txt e firewall. Ogni agente ha il proprio user-agent identificativo che permette di trattarlo in modo specifico.

GPTBot — OpenAI/ChatGPT User-agent: GPTBot Cosa fa: crawla il web per aggiornare la base di conoscenza di ChatGPT e alimentare le funzionalità di browsing in tempo reale. Raccomandazione: permettere l’accesso alle pagine di contenuto pubblico. Bloccare solo le aree con dati sensibili come checkout, area clienti, pagine amministrative.

Google-Extended — Google AI Overview e Gemini User-agent: Google-Extended Cosa fa: è separato da Googlebot e viene usato specificamente per alimentare i prodotti AI di Google, inclusi gli AI Overview nella SERP e Gemini. Bloccare Google-Extended non impatta il ranking organico tradizionale ma esclude il sito dagli AI Overview. Raccomandazione: permettere sempre, salvo contenuti esplicitamente riservati.

ClaudeBot — Anthropic/Claude User-agent: ClaudeBot Cosa fa: crawla il web per aggiornare la base di conoscenza di Claude e per le funzionalità di ricerca in tempo reale. Raccomandazione: permettere l’accesso alle pagine di contenuto pubblico.

Applebot-Extended — Apple Intelligence e Siri User-agent: Applebot-Extended Cosa fa: alimenta le funzionalità AI di Apple Intelligence e Siri su iOS e macOS. Separato dall’Applebot standard usato per Safari Reader. Raccomandazione: permettere, soprattutto per siti con audience prevalentemente Apple.

PerplexityBot — Perplexity AI User-agent: PerplexityBot Cosa fa: crawla il web per alimentare le risposte di Perplexity, uno dei motori di ricerca AI con la crescita più rapida nel 2026. Raccomandazione: permettere sempre. Perplexity cita le fonti con link diretto: essere indicizzati da PerplexityBot porta traffico qualificato.

Bytespider — ByteDance/TikTok AI User-agent: Bytespider Cosa fa: usato per alimentare i prodotti AI di ByteDance. Raccomandazione: valutare caso per caso in base al mercato del cliente.

Come configurare il robots.txt correttamente

Un robots.txt ben configurato per il 2026 deve bilanciare tre obiettivi: permettere ai crawler AI legittimi di indicizzare i contenuti pubblici, proteggere le aree sensibili del sito, e non interferire con il posizionamento su Google tradizionale.

Questa è la configurazione che usiamo come base su ogni sito che ottimizziamo per la GEO:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-login.php
Disallow: /checkout/
Disallow: /cart/
Disallow: /my-account/
Allow: /wp-admin/admin-ajax.php

User-agent: GPTBot
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Applebot-Extended
Allow: /

Sitemap: https://www.tuodominio.it/sitemap.xml

La logica è semplice: la regola generale blocca le aree amministrative e private per tutti i bot. Le regole specifiche per i bot AI principali esplicitano il permesso di accesso a tutto il resto, sovrascrivendo qualsiasi ambiguità nella regola generale. L’istruzione Allow: / per i bot AI è ridondante tecnicamente, ma rende il file leggibile e la politica esplicita.

Come verificare che il firewall non blocchi i bot AI

Il robots.txt corretto è necessario ma non sufficiente. Se il plugin di sicurezza blocca i bot AI a livello IP prima che possano leggere il robots.txt, la configurazione è irrilevante.

Problema: Wordfence che blocca i bot AI a livello firewall Causa: Le regole di Wordfence trattano le richieste ad alta frequenza da IP non noti come potenziali attacchi. I crawler AI fanno molte richieste in breve tempo e possono essere classificati come bot malevoli. Soluzione Blurr: Aggiungere gli IP range dei principali crawler AI alla whitelist di Wordfence. OpenAI pubblica i range IP di GPTBot su https://openai.com/gptbot-ranges.txt. Google pubblica i range di Googlebot e Google-Extended tramite DNS. In alternativa, configurare le regole del firewall per permettere esplicitamente gli user-agent dei crawler AI prima delle regole di rate limiting.

Problema: Cloudflare che blocca i bot AI come scraper Causa: Le regole del Bot Fight Mode di Cloudflare possono classificare i crawler AI come bot automatici non autorizzati e bloccarli con una challenge o un blocco diretto. Soluzione Blurr: Nel pannello Cloudflare, nella sezione Security > Bots, verificare che il “Verified Bot” di OpenAI, Google e altri provider AI sia nella lista dei bot verificati consentiti. Cloudflare mantiene una lista di bot verificati che vengono automaticamente esclusi dalle regole di blocco: verificare che sia attiva.

Problema: Plugin di caching che serve pagine errate ai crawler AI Causa: Alcuni plugin di caching servono pagine con header X-Robots-Tag: noindex alle versioni cache delle pagine, confondendo i crawler AI che leggono questi header. Soluzione Blurr: Verificare con uno strumento come Screaming Frog che le pagine principali non abbiano header X-Robots-Tag: noindex nelle risposte HTTP, indipendentemente da quanto dichiarato nel meta tag visibile nell’HTML.

Come verificare se i bot AI stanno crawlando il sito

Dopo aver corretto la configurazione, è utile verificare che i bot AI stiano effettivamente visitando il sito. Il modo più diretto è controllare i log del server cercando gli user-agent specifici.

Su hosting con accesso ai log Apache o Nginx, una ricerca semplice mostra le visite di GPTBot nelle ultime settimane. Su hosting condivisi senza accesso diretto ai log, strumenti come Cloudflare Analytics mostrano il traffico per categoria di bot, inclusi i bot AI verificati.

Una verifica più pratica e immediata è cercare il sito su ChatGPT, Perplexity e Claude con query pertinenti al settore del cliente. Se il sito non compare mai nelle risposte su query per cui dovrebbe essere rilevante, è un segnale che i crawler AI non lo stanno indicizzando correttamente. Non è una prova definitiva, ma è il test più vicino alla realtà dell’utente finale.

Per una verifica tecnica completa della prontezza del sito per i crawler AI, il Cloudflare Agent Readiness Score su isitagentready.com dà un punteggio dettagliato su tutti gli aspetti tecnici che impattano la citabilità AI. Per approfondire come strutturiamo la SEO tecnica su ogni progetto includendo la verifica dei crawler AI, leggi l’articolo dedicato. Per capire perché la visibilità su ChatGPT e Perplexity è diventata cruciale quanto quella su Google, leggi perché il tuo sito appare su ChatGPT e il competitor no.

Su blurr.it/contatti/ puoi prenotare una chiamata per verificare la configurazione dei siti che gestisci e assicurarti che siano visibili sia su Google che sull’ecosistema AI.

FAQ

Sì. Se GPTBot non può crawlare il sito, OpenAI non ha i dati necessari per citarlo nelle risposte di ChatGPT. La stessa logica si applica a tutti i crawler AI: bloccare ClaudeBot esclude il sito dalle risposte di Claude, bloccare Google-Extended esclude il sito dagli AI Overview di Google. La decisione di bloccare un crawler AI deve essere consapevole e motivata da ragioni specifiche, non da una configurazione di default che non distingue tra bot malevoli e crawler legittimi.

No, se il firewall del plugin di sicurezza blocca i bot prima che possano leggere il robots.txt. Wordfence, Sucuri e altri plugin di sicurezza con regole aggressive possono bloccare i crawler AI a livello IP, rendendo il robots.txt irrilevante. La verifica deve coprire sia il robots.txt che le regole del firewall e, se si usa Cloudflare, le impostazioni del Bot Fight Mode.

Controllando i log del server cercando gli user-agent specifici: GPTBot, ClaudeBot, Google-Extended, PerplexityBot. Su hosting con Cloudflare, Analytics mostra il traffico per categoria di bot. Una verifica pratica è cercare il sito su ChatGPT e Perplexity con query pertinenti al settore: se non appare mai su query per cui dovrebbe essere rilevante, i crawler probabilmente non lo stanno indicizzando correttamente.

Sì, in alcuni casi specifici. Siti con contenuti protetti da paywall che non vogliono che il contenuto premium venga estratto e distribuito gratuitamente dagli agenti AI. Siti con dati sensibili o proprietari che non devono essere inclusi nelle basi di conoscenza dei modelli. E-learning con contenuti proprietari. In questi casi il blocco è una scelta consapevole. Per la grande maggioranza dei siti aziendali e PMI, bloccare i bot AI è un danno senza nessun beneficio.

Robots.txt e bot AI: come configurarlo senza danneggiare la GEO

Perché i bot AI vengono bloccati per errore

I principali user-agent AI del 2026: chi sono e cosa fanno

Come configurare il robots.txt correttamente

Come verificare che il firewall non blocchi i bot AI

Come verificare se i bot AI stanno crawlando il sito

FAQ

Bloccare GPTBot nel robots.txt impedisce al sito di apparire su ChatGPT?

Il robots.txt è sufficiente per permettere ai bot AI di crawlare il sito?

Come si verifica se un bot AI sta crawlando il sito?

Esiste un motivo valido per bloccare i bot AI?

Hai un cliente che ti chiede un sito?

Hai un cliente
che ti chiede un sito?