{"id":283,"date":"2024-08-18T20:54:21","date_gmt":"2024-08-18T20:54:21","guid":{"rendered":"https:\/\/blog.devlancer.it\/?p=283"},"modified":"2024-08-23T10:11:53","modified_gmt":"2024-08-23T10:11:53","slug":"seo-come-indicizzare-deindicizzare-contenuti","status":"publish","type":"post","link":"https:\/\/blog.devlancer.it\/en\/seo-come-indicizzare-deindicizzare-contenuti\/","title":{"rendered":"Come indicizzare e deindicizzare i contenuti tramite robots, noindex e 404"},"content":{"rendered":"<p>Esistono diversi metodi che possiamo seguire per indicizzare o deindicizzare i contenuti del nostro sito web.<\/p>\n\n<h2>Robots.txt e meta robots<\/h2>\n<p>Google ci spiega facilmente <a href=\"https:\/\/developers.google.com\/search\/docs\/crawling-indexing\/robots\/intro?hl=it\" rel=\"nofollow noopener\">cos\u2019\u00e8 un file robots.txt<\/a>:<\/p>\n<blockquote><p><b>Indica ai crawler dei motori di ricerca a quali URL possono accedere sul tuo sito<\/b>. Viene usato principalmente per evitare di sovraccaricare di richieste il sito; <b>non \u00e8 un meccanismo che permette di escludere una pagina web da Google<\/b>. Per escludere una pagina web da Google, blocca l&#8217;indicizzazione con il <b>meta tag noindex<\/b> oppure proteggi tramite password la pagina.<\/p><\/blockquote>\n<p>Qui vediamo gi\u00e0 alcuni elementi fondamentali: anzitutto, <b>robots.txt \u00e8 un file stabilito come standard<\/b>, che viene <b>letto dai crawler<\/b> dei motori di ricerca. Quando questi bot, come GoogleBot o altri, arrivano al nostro sito, <b>verificano la presenza di un robots.txt<\/b>. Se abbiamo \u201cvietato\u201d l\u2019indicizzazione di alcuni o tutti i contenuti, il bot potrebbe andarsene senza fare nulla.<\/p>\n<p>Ecco un esempio di robots.txt che chiede ai crawler di non indicizzare al sito:<\/p>\n<pre class=\"language-txt\"><code>User-agent: *\r\nDisallow: \/<\/code><\/pre>\n<p>Viceversa possiamo semplicemente <b>rimuovere la seconda riga<\/b> per comunicare che vogliamo permettere l\u2019indicizzazione.<\/p>\n<p>Se vogliamo <b>rivolgerci a un crawler specifico<\/b>, possiamo fare cos\u00ec:<\/p>\n<pre class=\"language-txt\"><code>User-agent: Googlebot<\/code><\/pre>\n<p>Per <b>permettere o meno l\u2019indicizzazione<\/b> di singoli URL possiamo fare cos\u00ec:<\/p>\n<pre class=\"language-txt\"><code>Disallow: \/non-indicizzarmi\/\r\nAllow: \/indicizzami\/<\/code><\/pre>\n<p>Ci sono alcune <b>regole precise da conoscere<\/b> su come formare le varie righe del robots.txt, usando alias e asterischi, ma per questo rimando alla guida dettagliata di Google Search Central: <a href=\"https:\/\/developers.google.com\/search\/docs\/crawling-indexing\/robots\/create-robots-txt?hl=it\" rel=\"nofollow noopener\">Come scrivere e inviare un file robots.txt<\/a><\/p>\n<div class=\"textblock background-color-1\">\n<p><b>Importante<\/b>: ricordiamo che questa \u00e8 una \u201crichiesta\u201d da parte nostra, sta poi ai crawler rispettarla correttamente, non dipende da noi.<\/p>\n<\/div>\n<p>Tuttavia, usare robots.txt <b>non \u00e8 il modo consigliato se vogliamo deindicizzare un contenuto gi\u00e0 indicizzato<\/b>. In questi casi, <b>il metodo migliore<\/b> \u00e8 fare in modo che la pagina risponda con un <b>codice 404<\/b>, o al massimo 403. I vari <a href=\"https:\/\/developer.mozilla.org\/en-US\/docs\/Web\/HTTP\/Status\" rel=\"nofollow noopener\">codici di risposta HTTP<\/a> sono spiegati meglio su MDN.<\/p>\n<h2>Meta tag noindex<\/h2>\n<p>In alternativa, possiamo usare il <a href=\"https:\/\/developers.google.com\/search\/docs\/crawling-indexing\/block-indexing?hl=it\" rel=\"nofollow noopener\">meta tag noindex<\/a>, che serve solo per indicare ai motori di ricerca che una pagina non deve essere indicizzata (= no index).<\/p>\n<p>Si potrebbe <b>aprire un dibattito<\/b> su quale sia <b>la strada migliore per deindicizzare<\/b> un contenuto: in genere preferisco usare il 404, anche perch\u00e9 molto pi\u00f9 perentorio e non lascia spazio a dubbi, ma dipende da cosa dobbiamo fare. <b>Se la pagina deve rimanere visibile agli utenti<\/b> ma nascosta ai motori di ricerca, meglio usare la soluzione del <b>noindex<\/b> inserito come meta tag nell\u2019HTML di quella pagina (attenzione: la pagina <b>non deve<\/b> venire esclusa dal robots.txt). Diversamente, se il contenuto non deve pi\u00f9 essere leggibile dall\u2019esterno, utenti inclusi, meglio usare la risposta 404.<\/p>\n<p>Il <b>noindex<\/b> viene inserito in forma di <a href=\"https:\/\/developer.mozilla.org\/en-US\/docs\/Web\/HTML\/Element\/meta\" rel=\"nofollow noopener\">meta tag<\/a>, all\u2019interno della <b>&lt;head&gt; <\/b>di un documento HTML in questo modo:<\/p>\n<pre class=\"language-markup\"><code>&lt;meta name=\"robots\" content=\"noindex\"&gt;<\/code><\/pre>\n<p>Questo <b>indica a tutti i crawler di non indicizzare la pagina<\/b>, mentre se vogliamo rivolgerci a un <b>crawler specifico<\/b>, ad esempio il GoogleBot:<\/p>\n<pre class=\"language-markup\"><code>&lt;meta name=\"googlebot\" content=\"noindex\"&gt;<\/code><\/pre>\n<h2>404: s\u00ec o no?<\/h2>\n<p>Nel caso in cui dovessimo decidere di <b>nascondere una pagina ai crawler<\/b>, lasciandola visibile al resto del mondo, possiamo <b>fare in modo che il server risponda con lo stato 404<\/b>: questo non significa per forza che la pagina non venga trovata, ma \u00e8 comunque utile per stabilire che la pagina non ha motivo di essere indicizzata. Pensiamo ad esempio al caso di un filtro prodotti che restituisce contenuti quasi identici, in questi casi potrebbe avere senso optare per un 404 per ogni singolo URL filtrato, o almeno per i filtri pi\u00f9 avanzati.<\/p>\n<p>Ha senso restituire 404 anche <b>quando una funzionalit\u00e0 di ricerca nel sito presenta zero risultati<\/b> (\u201cNessun risultato trovato per la tua ricerca\u201d), anche se in questi casi potrebbe essere <b>pi\u00f9 ottimale il \u201cnoindex\u201d<\/b>.<\/p>\n<p>Su questo tema, \u00e8 utile la <a href=\"https:\/\/www.reddit.com\/r\/SEO\/comments\/17jhnxm\/comment\/k72n3sa\/\" rel=\"nofollow noopener\">risposta su Reddit<\/a> di <b>John Mueller<\/b> (gi\u00e0 citato in come <b>Search relations team lead<\/b> in Google quando abbiamo parlato di <a href=\"https:\/\/blog.devlancer.it\/seo-eta-dominio-influenza-ranking\/\">et\u00e0 del dominio nella SEO<\/a>):<\/p>\n<blockquote><p>Thousands of 404 Errors in GSC from Spam Sites &#8211; Should I Care?<br \/>\n<i>Just ignore them. If the page isn&#8217;t meant to exist, then having it return 404 is expected. If you thought the page was supposed to exist, then this error is a good reminder.<\/i><\/p><\/blockquote>\n<p>Crediti: <a href=\"https:\/\/www.searchenginejournal.com\/google-search-console-404-errors-report\/499751\/\" rel=\"nofollow noopener\">Search Engine Journal<\/a><\/p>\n<p>Dunque in buona sostanza si conferma che la strategia del 404 \u00e8 corretta se la pagina effettivamente non deve esistere. Per gli altri casi, valutiamo l\u2019uso del tag noindex.<\/p>\n<h2>Indicizzazione e deindicizzazione dirette<\/h2>\n<p>Vi sono anche <strong>altri metodi<\/strong> per deindicizzare una pagina, ma questi che abbiamo visto sono i principali e pi\u00f9 conosciuti. Ad esempio, potremmo fare una richiesta di deindicizzazione attiva tramite lo strumento <strong>Rimozione URL<\/strong> di <a href=\"https:\/\/search.google.com\/search-console\/removals\" rel=\"nofollow noopener\">Google Search Console<\/a>\u00a0o <a href=\"http:\/\/blockurl\/?siteUrl=https:\/\/www.gaminghouse.community\/\" rel=\"nofollow\">Bing Webmaster Tools<\/a><strong>:<\/strong><\/p>\n<figure><img decoding=\"async\" class=\"aligncenter wp-image-290 size-large\" src=\"https:\/\/blog.devlancer.it\/app\/uploads\/2024\/08\/Figura-11-Bing-e-GSC-Rimozione-URL-1024x491.png\" alt=\"\" width=\"1024\" height=\"491\" srcset=\"https:\/\/blog.devlancer.it\/app\/uploads\/2024\/08\/Figura-11-Bing-e-GSC-Rimozione-URL-1024x491.png 1024w, https:\/\/blog.devlancer.it\/app\/uploads\/2024\/08\/Figura-11-Bing-e-GSC-Rimozione-URL-300x144.png 300w, https:\/\/blog.devlancer.it\/app\/uploads\/2024\/08\/Figura-11-Bing-e-GSC-Rimozione-URL-768x368.png 768w, https:\/\/blog.devlancer.it\/app\/uploads\/2024\/08\/Figura-11-Bing-e-GSC-Rimozione-URL-521x250.png 521w, https:\/\/blog.devlancer.it\/app\/uploads\/2024\/08\/Figura-11-Bing-e-GSC-Rimozione-URL.png 1134w\" sizes=\"(max-width: 1024px) 100vw, 1024px\" \/><figcaption>Strumento rimozione URL su Google e Bing<\/figcaption><\/figure>\n<p>Per quanto riguarda <strong>l&#8217;indicizzazione<\/strong>, oltre alle azioni passive che abbiamo visto relative a Robots.txt, tramite le quali possiamo comunicare ai motori di ricerca se il nostro sito \u00e8 indicizzabile o meno, e fermo restando che <strong>in molti casi l&#8217;indicizzazione avviene in modo naturale ed automatico<\/strong>, possiamo velocizzarla inviando direttamente ai crawler una <strong>richiesta di indicizzazione<\/strong> su <a href=\"https:\/\/search.google.com\/search-console\/\" rel=\"nofollow noopener\">Google Search Console<\/a> o su <a href=\"https:\/\/www.bing.com\/webmasters\/\" rel=\"nofollow noopener\">Bing Webmaster Tools<\/a>, che spesso porta a un risultato positivo anche in poche ore.<\/p>\n<p>Consiglio anche di valutare l&#8217;uso di <a href=\"https:\/\/webmaster.yandex.com\/welcome\/\" rel=\"nofollow noopener\">Yandex Webmaster Tools<\/a> per il <strong>pubblico russo<\/strong>, di <a href=\"https:\/\/reporter.seznam.cz\/wm\" rel=\"nofollow noopener\">Seznam.cz Webmaster<\/a> per il <strong>pubblico ceco<\/strong>, e di <a href=\"https:\/\/www.indexnow.org\/\" rel=\"nofollow noopener\">IndexNow<\/a> come <strong>protocollo opensource<\/strong> creato da Bing e Yandex e usato da vari strumenti come <a href=\"https:\/\/rankmath.com\/kb\/how-to-use-indexnow\/\" rel=\"nofollow noopener\">Rank Math<\/a> e <a href=\"https:\/\/yoast.com\/what-is-indexnow\/\" rel=\"nofollow noopener\">YoastSEO<\/a>.<\/p>\n<h2>Conclusioni<\/h2>\n<p>Alcune impostazioni utili relative alle scelte di indicizzazione si possono scegliere anche dal CMS, ad esempio con plugin come <a href=\"https:\/\/rankmath.com\/kb\/how-to-noindex-urls\/\" rel=\"nofollow noopener\">Rank Math per WordPress<\/a>. Lo stesso WordPress di default ha una impostazione che <strong>&#8220;Scoraggia l&#8217;indicizzazione dei motori di ricerca&#8221;<\/strong>, utile quando siamo in fase di sviluppo di un nuovo sito web.<\/p>\n<figure><img decoding=\"async\" class=\"aligncenter wp-image-291 size-full\" src=\"https:\/\/blog.devlancer.it\/app\/uploads\/2024\/08\/Figura-12-Wordpress-Scoraggia-Motori-ricerca.png\" alt=\"\" width=\"704\" height=\"140\" srcset=\"https:\/\/blog.devlancer.it\/app\/uploads\/2024\/08\/Figura-12-Wordpress-Scoraggia-Motori-ricerca.png 704w, https:\/\/blog.devlancer.it\/app\/uploads\/2024\/08\/Figura-12-Wordpress-Scoraggia-Motori-ricerca-300x60.png 300w, https:\/\/blog.devlancer.it\/app\/uploads\/2024\/08\/Figura-12-Wordpress-Scoraggia-Motori-ricerca-600x119.png 600w\" sizes=\"(max-width: 704px) 100vw, 704px\" \/><figcaption>Su WordPress \u00e8 possibile impostare il meta robots in noindex<\/figcaption><\/figure>\n<p class=\"textblock background-color-1\"><b>Importante<\/b>: quando creiamo <b>un nuovo sito<\/b>, assicuriamoci che sia <b>impostato in noindex<\/b> e non permetta l\u2019indicizzazione, e ricordiamoci poi di <b>permettere nuovamente l\u2019indicizzazione quando lo pubblichiamo<\/b>. Errore tipico \u00e8 di dimenticarsi questi due piccoli dettagli, che possono portare a <b>un calo improvviso<\/b> o una <b>variazione drastica del traffico<\/b> quando viene fatto un restyling.<\/p>\n<p>Per il resto, <b>l\u2019indicizzazione dei contenuti avviene in modo abbastanza automatico e naturale<\/b>, ma <b>possiamo velocizzarla<\/b> per i nuovi contenuti usando <b>Google Search Console<\/b> o strumenti simili, che ci permettono di <b>inviare i singoli URL<\/b> per richiederne l\u2019indicizzazione.<\/p>\n<h2>Link utili<\/h2>\n<ul>\n<li><a href=\"https:\/\/developers.google.com\/search\/docs\/crawling-indexing\/robots\/intro?hl=it\" rel=\"nofollow noopener\">Introduzione ai file robots.txt<\/a><\/li>\n<li>Google Search Central: <a href=\"https:\/\/developers.google.com\/search\/docs\/crawling-indexing\/robots\/create-robots-txt?hl=it\" rel=\"nofollow noopener\">Come scrivere e inviare un file robots.txt<\/a><\/li>\n<li>MDN: <a href=\"https:\/\/developer.mozilla.org\/en-US\/docs\/Web\/HTTP\/Status\" rel=\"nofollow noopener\">HTTP response status codes<\/a><\/li>\n<li>Reddit: <a href=\"https:\/\/www.reddit.com\/r\/SEO\/comments\/17jhnxm\/comment\/k72n3sa\/\" rel=\"nofollow noopener\">Thousands of 404 Errors in GSC from Spam Sites &#8211; Should I Care?<\/a><\/li>\n<li>Search Engine Journal: <a href=\"https:\/\/www.searchenginejournal.com\/google-search-console-404-errors-report\/499751\/\" rel=\"nofollow noopener\">Google On What To Do About 404 Errors In Search Console<\/a><\/li>\n<li>MDN: <a href=\"https:\/\/developer.mozilla.org\/en-US\/docs\/Web\/HTML\/Element\/meta\" rel=\"nofollow noopener\">The &lt;meta&gt; element<\/a><\/li>\n<li><a href=\"https:\/\/rankmath.com\/kb\/how-to-noindex-urls\/\" rel=\"nofollow noopener\">How to Noindex URLs With Rank Math<\/a><\/li>\n<li><a href=\"https:\/\/search.google.com\/search-console\/\" rel=\"nofollow noopener\">Google Search Console<\/a>, <a href=\"https:\/\/www.bing.com\/webmasters\/\" rel=\"nofollow noopener\">Bing Webmaster Tools<\/a>, <a href=\"https:\/\/webmaster.yandex.com\/welcome\/\" rel=\"nofollow noopener\">Yandex Webmaster Tools<\/a>, <a href=\"https:\/\/reporter.seznam.cz\/wm\" rel=\"nofollow noopener\">Seznam.cz Webmaster<\/a> e <a href=\"https:\/\/www.indexnow.org\/\" rel=\"nofollow noopener\">IndexNow<\/a><\/li>\n<li>IndexNow per <a href=\"https:\/\/rankmath.com\/kb\/how-to-use-indexnow\/\" rel=\"nofollow noopener\">Rank Math<\/a> e <a href=\"https:\/\/yoast.com\/what-is-indexnow\/\" rel=\"nofollow noopener\">YoastSEO<\/a><\/li>\n<\/ul>\n<h2>Leggi anche<\/h2>\n<ul>\n<li><a href=\"https:\/\/blog.devlancer.it\/cose-e-come-funziona-lindicizzazione-dei-contenuti\/\">Cos\u2019\u00e8 e come funziona l\u2019indicizzazione dei contenuti?<\/a><\/li>\n<li><a href=\"https:\/\/blog.devlancer.it\/seo-on-page\/\">SEO On page: Che cos&#8217;\u00e8 e come farla bene<\/a><\/li>\n<li><a href=\"https:\/\/blog.devlancer.it\/come-migliorare-la-seo-del-proprio-sito-web\/\">Come migliorare la SEO del proprio sito web?<\/a><\/li>\n<li><a href=\"https:\/\/blog.devlancer.it\/cose-e-come-funziona-la-link-building-interna-ed-esterna\/\">Cos&#8217;\u00e8 e come funziona la link building interna ed esterna<\/a><\/li>\n<\/ul>\n","protected":false},"excerpt":{"rendered":"<p>Esistono diversi metodi che possiamo seguire per indicizzare o deindicizzare i contenuti del nostro sito web. Robots.txt e meta robots Google ci spiega facilmente cos\u2019\u00e8 un file robots.txt: Indica ai crawler dei motori di ricerca a quali URL possono accedere sul tuo sito. Viene usato principalmente per evitare di sovraccaricare di richieste il sito; non [&hellip;]<\/p>\n","protected":false},"author":2,"featured_media":294,"comment_status":"closed","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"footnotes":""},"categories":[10,9],"tags":[11],"class_list":["post-283","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-approfondimenti","category-guide","tag-seo"],"acf":[],"_links":{"self":[{"href":"https:\/\/blog.devlancer.it\/en\/wp-json\/wp\/v2\/posts\/283","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/blog.devlancer.it\/en\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/blog.devlancer.it\/en\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/blog.devlancer.it\/en\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/blog.devlancer.it\/en\/wp-json\/wp\/v2\/comments?post=283"}],"version-history":[{"count":9,"href":"https:\/\/blog.devlancer.it\/en\/wp-json\/wp\/v2\/posts\/283\/revisions"}],"predecessor-version":[{"id":394,"href":"https:\/\/blog.devlancer.it\/en\/wp-json\/wp\/v2\/posts\/283\/revisions\/394"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/blog.devlancer.it\/en\/wp-json\/wp\/v2\/media\/294"}],"wp:attachment":[{"href":"https:\/\/blog.devlancer.it\/en\/wp-json\/wp\/v2\/media?parent=283"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/blog.devlancer.it\/en\/wp-json\/wp\/v2\/categories?post=283"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/blog.devlancer.it\/en\/wp-json\/wp\/v2\/tags?post=283"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}