{"id":423,"date":"2025-01-06T13:50:55","date_gmt":"2025-01-06T13:50:55","guid":{"rendered":"https:\/\/blog.devlancer.it\/?p=423"},"modified":"2025-01-06T14:10:33","modified_gmt":"2025-01-06T14:10:33","slug":"crawling-intelligenza-artificiale","status":"publish","type":"post","link":"https:\/\/blog.devlancer.it\/en\/crawling-intelligenza-artificiale\/","title":{"rendered":"Come indicizzare un sito su ChatGPT: Crawling e Intelligenza Artificiale"},"content":{"rendered":"<h2><strong>Intelligenza artificiale <\/strong><strong>e indicizzazione: come lavorano<\/strong> <strong>i crawler basati su IA?<\/strong><\/h2>\n<p>Un\u2019interessante studio svolto da <a href=\"https:\/\/vercel.com\/blog\/the-rise-of-the-ai-crawler\" rel=\"nofollow noopener\">Vercel<\/a> ci offre spunti di riflessione molto utili. Al momento di scrittura dell\u2019articolo originale (Dicembre 2024) possiamo osservare come i principali <b>crawler<\/b> dei pi\u00f9 noti sistemi di Intelligenza Artificiale, quali ChatGPT, Claude e Perplexity, <b>non sono in grado di eseguire Javascript <\/b>nelle pagine web.<\/p>\n<p>Questo significa che tutti i siti che fanno forte uso di <b>framework Javascript<\/b> come Node, Next, e simili potrebbero <b>non venire affatto indicizzati<\/b> dai bot che scansionano le pagine.<\/p>\n<p>Riassumiamo quanto evidenziato dallo studio:<\/p>\n<ul>\n<li>I crawler GPTBot, Claude, AppleBot, e PerplexityBot in totale hanno effettuato <b>circa il 28% di richieste rispetto a Googlebot<\/b><\/li>\n<li>Tutti i crawler utilizzavano <b>datacenter statunitensi<\/b><\/li>\n<li>ChatGPT e Claude in effetti <b>scansionano<\/b> i file Javascript <b>ma non li eseguono<\/b><\/li>\n<li>Di contro, <b>Gemini di Google<\/b> utilizza la stessa architettura di Googlebot, quindi riesce a <b>scansionare completamente<\/b> una pagina web moderna<\/li>\n<li>ChatGPT d\u00e0 priorit\u00e0 al <b>contenuto HTML<\/b><\/li>\n<li>Claude sembra concentrarsi molto sulle <b>immagini<\/b><\/li>\n<li><b>Googlebot<\/b>, diviso tra Gemini e la ricerca Google, <b>distribuisce le proprie richieste in modo uniforme<\/b> tra i vari tipi di contenuto (HTML, JSON, testo, immagini)<\/li>\n<li><b>ChatGPT e Claude<\/b> sembrano spendere circa <b>un terzo<\/b> (~30%) delle loro richieste su <b>pagine 404<\/b>, inoltre ChatGPT sembra investire un <b>ulteriore 14% circa<\/b> delle sue risorse nel <b>seguire <\/b><b>i<\/b><b> redirect<\/b>. Per confronto, <b>Googlebot<\/b> spende circa l\u20198% sui 404, e l\u20191,49% sui redirect<\/li>\n<li>Le pagine con un <b>alto traffico organico<\/b> sembrano ricevere <b>pi\u00f9 visite dai crawler<\/b><\/li>\n<\/ul>\n<p>In sostanza quindi possiamo pensare che, sebbene sia evidente il <b>grosso lavoro<\/b> che stanno svolgendo le aziende di I.A. come OpenAI o Anthropic per migliorare i loro motori di ricerca (o forse meglio chiamarli <b>\u201cmotori di risposta\u201d<\/b>), la situazione sia ancora piuttosto instabile.<\/p>\n<p>Senza dubbio i siti web che <b>generano l\u2019HTML in back-end<\/b> per poi consegnarlo <b>gi\u00e0 elaborato al front-end<\/b> avranno <b>pi\u00f9 possibilit\u00e0 di essere ritrovati dai crawler<\/b>.<\/p>\n<p>Questo a mio avviso rimane sempre valido: anche se Googlebot al giorno d\u2019oggi \u00e8 in grado di eseguire Javascript, rimango dell\u2019idea che sia <b>una strategia molto migliore<\/b>, a lungo termine, quella di <b>progettare delle pagine web che vengono renderizzate lato server<\/b> e non lato client.<\/p>\n<p>\u00c8 comunque utile conoscere questi aspetti, anche perch\u00e9 <b>nei prossimi anni vedremo sicuramente un netto miglioramento<\/b> da parte dei vari crawler basati su intelligenza artificiale, che riusciranno a eseguire il codice lato client come fa adesso Google.<\/p>\n<p>Sar\u00e0 interessante vedere come risponder\u00e0 proprio Google a tutto questo. Ricordiamo infatti che una novit\u00e0 importante era stata introdotta con i <b>Core Web Vitals<\/b>, e un altro punto spesso sottovalutato riguarda <b>l\u2019accessibilit\u00e0<\/b>. Insomma, <b>i vari fattori che influiscono il posizionamento<\/b> (ranking) sono stati studiati e raffinati da Google e dagli altri motori di ricerca <b>nel corso di molti anni<\/b>. Vedremo cosa ci aspetta nel prossimo futuro.<\/p>\n<h3>Cosa dovrebbe fare chi vuole indicizzarsi su ChatGPT, Claude e altre IA?<\/h3>\n<p>Ecco alcuni consigli utili:<\/p>\n<ul>\n<li>Senza dubbio \u00e8 importante <strong>dare priorit\u00e0 al rendering lato server<\/strong> (SSR), almeno per il contenuto principale della pagina (titoli, abstract, informazioni sul prodotto, contenuto dell&#8217;articolo, dati tecnici, ecc.) e per i meta tag principali (description, canonical, ecc.)<\/li>\n<li><strong>Gestire gli URL nel modo corretto<\/strong> rimane uno dei punti cardine, verificando quindi i redirect e risolvendo eventuali 404 indesiderati<\/li>\n<li>Anche prestare attenzione alle <strong>performance<\/strong> e al <strong>caricamento delle immagini<\/strong>, come si fa generalmente per i Core Web Vitals, pu\u00f2 aiutare molto a ridurre il lavoro dei bot basati su Intelligenza Artificiale<\/li>\n<\/ul>\n<h3>Per chi invece non vuole far comparire il proprio sito web su ChatGPT e simili?<\/h3>\n<p>Questa purtroppo rimane una grande incognita: certo, possiamo usare il solito file <strong>robots.txt<\/strong> che \u00e8 ormai uno standard, facendo riferimento alle <strong>liste ufficiali<\/strong> fornite dai crawler (ad esempio <a href=\"https:\/\/support.apple.com\/en-us\/119829\" rel=\"nofollow noopener\">Applebot<\/a> e <a href=\"https:\/\/platform.openai.com\/docs\/bots\" rel=\"nofollow noopener\">ChatGPT<\/a>). Tuttavia siamo sempre nell&#8217;incertezza poich\u00e9 non possiamo impedire a priori che il nostro sito web pubblico venga indicizzato.<\/p>\n<p>La misura migliore che possiamo mettere in atto \u00e8 quella di <strong>identificare i vari crawler<\/strong> tramite il loro <strong>User-Agent<\/strong> e cercare di bloccarli a monte, tramite alcune regole lato server nel nostro codice. Nei link utili qui sotto troviamo <strong>alcune risorse da consultare<\/strong> su questo.<\/p>\n<h2>Link utili<\/h2>\n<ul>\n<li>Vercel: <a href=\"https:\/\/vercel.com\/blog\/the-rise-of-the-ai-crawler\" rel=\"external nofollow noopener\">The rise of the AI crawler<\/a><\/li>\n<li><a href=\"\/seo-core-web-vitals-come-migliorarli\/\">I Core Web Vitals per la SEO: Come funzionano e come migliorarli<\/a><\/li>\n<li><a href=\"\/seo-e-accessibilita-binomio-migliore-indicizzazione\/\">SEO e Accessibilit\u00e0: Perch\u00e9 un sito web accessibile ha una migliore indicizzazione<\/a><\/li>\n<li><a href=\"https:\/\/www.websitellm.com\/comprehensive-list-of-ai-search-engine-crawlers\/\" rel=\"nofollow noopener\">Comprehensive List of AI Search Engine Crawlers<\/a><\/li>\n<li><a href=\"https:\/\/www.foundationwebdev.com\/2023\/11\/which-web-crawlers-are-associated-with-ai-crawlers\/\" rel=\"nofollow noopener\">User agents list of all known AI web crawlers<\/a><\/li>\n<\/ul>\n","protected":false},"excerpt":{"rendered":"<p>Come indicizzare il nostro sito web sui motori di ricerca basati su intelligenza artificiale come ChatGPT? Ecco alcuni consigli utili.<\/p>\n","protected":false},"author":2,"featured_media":426,"comment_status":"closed","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"footnotes":""},"categories":[1],"tags":[],"class_list":["post-423","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-uncategorized"],"acf":[],"_links":{"self":[{"href":"https:\/\/blog.devlancer.it\/en\/wp-json\/wp\/v2\/posts\/423","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/blog.devlancer.it\/en\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/blog.devlancer.it\/en\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/blog.devlancer.it\/en\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/blog.devlancer.it\/en\/wp-json\/wp\/v2\/comments?post=423"}],"version-history":[{"count":2,"href":"https:\/\/blog.devlancer.it\/en\/wp-json\/wp\/v2\/posts\/423\/revisions"}],"predecessor-version":[{"id":425,"href":"https:\/\/blog.devlancer.it\/en\/wp-json\/wp\/v2\/posts\/423\/revisions\/425"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/blog.devlancer.it\/en\/wp-json\/wp\/v2\/media\/426"}],"wp:attachment":[{"href":"https:\/\/blog.devlancer.it\/en\/wp-json\/wp\/v2\/media?parent=423"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/blog.devlancer.it\/en\/wp-json\/wp\/v2\/categories?post=423"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/blog.devlancer.it\/en\/wp-json\/wp\/v2\/tags?post=423"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}