OKPEDIA SEO

Robots.txt ( motori di ricerca )

Robots.txt è un file di testo utilizzato nei siti web per fornire informazioni ai motori di ricerca durante l'indicizzazione. Il file robots.txt è situato nella cartella principale ( root ) del sito web e utilizza un apposito linguaggio standard riconosciuto da tutti i motori di ricerca. Gli spider ( software bot ) dei search engine cercano il file robots.txt esclusivamente nella root di un sito web e, quando lo trovano, leggono il contenuto per sapere quali regole seguire durante l'indicizzazione delle risorse.

esempio di file robots.txt su un sito web e passaggio dello spider

Ad esempio, nel file robots.txt è possibile indicare quali risorse possono essere indicizzate e quali non devono essere indicizzate. È anche possibile specificare le regole di indicizzazione per ogni singolo motore di ricerca. I principali campi in un file robots.txt sono i seguenti:

  • User-agent. il campo User-agent è utilizzato per indicare il nome dello spider a cui si sta fissando le regole, seguito dall'elenco delle limitazioni. Quando si utilizza il simbolo asterisco (*) si intende fissare le stesse regole per tutti gli spider dei search engine, senza alcuna distinzione.
  • Disallow. Questo campo consente di specificare il percorso di una risorsa, file o cartella, all'interno di un sito web da non indicizzare sui motori di ricerca. Il campo Disallow consente di indicare il percorso delle cartelle, dei file o delle risorse da non indicizzare. In tal modo l'accesso a queste risorse è esplicitamente proibito ai motori di ricerca.

Un esempio di file robots.txt è il seguente:

User-agent: *
Disallow: /cartella
Disallow: /pagina.htm

Per autorizzare l'indicizzazione su tutto il sito è sufficiente non indicare alcun parametro nel campo Disallow.

User-agent: *
Disallow:

Il file robots.txt può contenere anche istruzioni specifiche per un singolo motore di ricerca. In questo caso si indica nel campo User-agent il nome dello spider del search engine.

User-agent: googlebot
Disallow: /cartella1
Disallow: /cartella2
User-agent: *
Disallow:/cartella1

Nell'esempio precedente viene esplicitamente indicato nel primo campo User-agent il nome googlebot, lo spider ufficiale del motore di ricerca Google. Tutte le regole che seguono sono, pertanto, riferite soltanto a questo motore di ricerca, al quale è negato l'accesso sia alla prima cartella che alla seconda del sito web. Nel secondo campo User-agent è indicato il simbolo dell'asterisco per fissare le regole a tutti gli altri spider dei motori di ricerca, diversi d Google, ai quali è negato l'accesso soltanto alla prima cartella.

https://www.okpedia.it/robots_txt


Segnala un errore o invia un suggerimento per migliorare la pagina


Search Engine Optimization


FacebookTwitterLinkedinLinkedin