Come indicizzare un sito su ChatGPT: Crawling e Intelligenza Artificiale
Intelligenza artificiale e indicizzazione: come lavorano i crawler basati su IA?
Un’interessante studio svolto da Vercel ci offre spunti di riflessione molto utili. Al momento di scrittura dell’articolo originale (Dicembre 2024) possiamo osservare come i principali crawler dei più noti sistemi di Intelligenza Artificiale, quali ChatGPT, Claude e Perplexity, non sono in grado di eseguire Javascript nelle pagine web.
Questo significa che tutti i siti che fanno forte uso di framework Javascript come Node, Next, e simili potrebbero non venire affatto indicizzati dai bot che scansionano le pagine.
Riassumiamo quanto evidenziato dallo studio:
- I crawler GPTBot, Claude, AppleBot, e PerplexityBot in totale hanno effettuato circa il 28% di richieste rispetto a Googlebot
- Tutti i crawler utilizzavano datacenter statunitensi
- ChatGPT e Claude in effetti scansionano i file Javascript ma non li eseguono
- Di contro, Gemini di Google utilizza la stessa architettura di Googlebot, quindi riesce a scansionare completamente una pagina web moderna
- ChatGPT dà priorità al contenuto HTML
- Claude sembra concentrarsi molto sulle immagini
- Googlebot, diviso tra Gemini e la ricerca Google, distribuisce le proprie richieste in modo uniforme tra i vari tipi di contenuto (HTML, JSON, testo, immagini)
- ChatGPT e Claude sembrano spendere circa un terzo (~30%) delle loro richieste su pagine 404, inoltre ChatGPT sembra investire un ulteriore 14% circa delle sue risorse nel seguire i redirect. Per confronto, Googlebot spende circa l’8% sui 404, e l’1,49% sui redirect
- Le pagine con un alto traffico organico sembrano ricevere più visite dai crawler
In sostanza quindi possiamo pensare che, sebbene sia evidente il grosso lavoro che stanno svolgendo le aziende di I.A. come OpenAI o Anthropic per migliorare i loro motori di ricerca (o forse meglio chiamarli “motori di risposta”), la situazione sia ancora piuttosto instabile.
Senza dubbio i siti web che generano l’HTML in back-end per poi consegnarlo già elaborato al front-end avranno più possibilità di essere ritrovati dai crawler.
Questo a mio avviso rimane sempre valido: anche se Googlebot al giorno d’oggi è in grado di eseguire Javascript, rimango dell’idea che sia una strategia molto migliore, a lungo termine, quella di progettare delle pagine web che vengono renderizzate lato server e non lato client.
È comunque utile conoscere questi aspetti, anche perché nei prossimi anni vedremo sicuramente un netto miglioramento da parte dei vari crawler basati su intelligenza artificiale, che riusciranno a eseguire il codice lato client come fa adesso Google.
Sarà interessante vedere come risponderà proprio Google a tutto questo. Ricordiamo infatti che una novità importante era stata introdotta con i Core Web Vitals, e un altro punto spesso sottovalutato riguarda l’accessibilità. Insomma, i vari fattori che influiscono il posizionamento (ranking) sono stati studiati e raffinati da Google e dagli altri motori di ricerca nel corso di molti anni. Vedremo cosa ci aspetta nel prossimo futuro.
Cosa dovrebbe fare chi vuole indicizzarsi su ChatGPT, Claude e altre IA?
Ecco alcuni consigli utili:
- Senza dubbio è importante dare priorità al rendering lato server (SSR), almeno per il contenuto principale della pagina (titoli, abstract, informazioni sul prodotto, contenuto dell’articolo, dati tecnici, ecc.) e per i meta tag principali (description, canonical, ecc.)
- Gestire gli URL nel modo corretto rimane uno dei punti cardine, verificando quindi i redirect e risolvendo eventuali 404 indesiderati
- Anche prestare attenzione alle performance e al caricamento delle immagini, come si fa generalmente per i Core Web Vitals, può aiutare molto a ridurre il lavoro dei bot basati su Intelligenza Artificiale
Per chi invece non vuole far comparire il proprio sito web su ChatGPT e simili?
Questa purtroppo rimane una grande incognita: certo, possiamo usare il solito file robots.txt che è ormai uno standard, facendo riferimento alle liste ufficiali fornite dai crawler (ad esempio Applebot e ChatGPT). Tuttavia siamo sempre nell’incertezza poiché non possiamo impedire a priori che il nostro sito web pubblico venga indicizzato.
La misura migliore che possiamo mettere in atto è quella di identificare i vari crawler tramite il loro User-Agent e cercare di bloccarli a monte, tramite alcune regole lato server nel nostro codice. Nei link utili qui sotto troviamo alcune risorse da consultare su questo.