robot configurazione

Semplice Guida Creare Robots.txt

La Guida al File Robots.txt

Il file robots.txt permette ai programmatori web e agli amministratori di sistema di indicare agli spider dei
motori di ricerca quali pagine HTML non debbano essere esaminate.

Lo standard per l’esclusione dei robot/spider si avvale dell’utilizzo di un normale file di
testo, da creare attraverso un qualunque text editor (es. Notepad / Blocco Note di Windows).

Tale file va chiamato “robots.txt” e contiene, in un particolare formato, delle istruzioni che possono
impedire a tutti o alcuni spider il prelievo di alcune o tutte le pagine del sito.

Il file robots.txt va creato e pubblicato on-line nella directory principale del sito web. Ad esempio, se
il sito ha indirizzo https://www.nomesito.estensione , il file dovrà essere accessibile all’indirizzo
https://www.nomesito.estensione/robots.txt

Tutti gli spider di quei motori di ricerca che hanno deciso di aderire a questo standard e di seguire le
indicazioni del file robots.txt, ogni volta che accederanno al sito web, per prima cosa andranno a
cercare nella directory principale il suddetto file e, se lo troveranno, seguiranno le direttive contenute
al suo interno.

Contenuti del file robots.txt

google robots txt

Il file robots.txt contiene una lista di pagine e directory che gli spider NON possono prelevare.
Cio significa che non esiste una istruzione per dire allo spider: “puoi prelevare questa
pagina” ma esistono solo istruzioni per dirgli: “NON puoi prelevare questa pagina”. Non a caso lo
standard si chiama Standard per l’esclusione dei robot.

Quanto appena specificato è estremamente importante, in quanto molti degli errori che i
webmaster spesso inseriscono nei file robots.txt hanno origine dall’errata comprensione di
ciò che è possibile fare con essi.

Se non avete la necessità di impedire ai motori ricerca di prelevare alcune (o tutte) pagine
del vostro sito, allora il file robots.txt non vi serve, però è sempre meglio inserirlo in questo modo come riportato qui sotto:

In questo modo fate scansionare tutto il vostro sito web.

Formato di robots.txt

Il file robots.txt contiene dei record, ognuno dei quali comprende due campi: il campo “User-agent”
ed uno o più campi “Disallow”.

Il campo User-agent serve ad indicare a quale robot/spider le direttive successive sono rivolte. La
sua sintassi è:

User-agent

Il campo Disallow serve a indicare a quali file e/o directory non può accedere lo spider
indicato nel campo User-agent. La sintassi di questo campo è:

Disallow

Esempio di un record:

User-agent: googlebot
Disallow: /pagina-esempio.html
Disallow: /cartella-file/

Il suddetto record dice a Google (“googlebot” è il nome dello spider di Google“) che non gli
è permesso prelevare il file pagina-esempio.html è accedere alla directory “cartella-file” e ai suoi
contenuti, sottodirectory comprese. Notate come il nome del file è preceduto da un carattere
“/” (che indica la directory principale del sito) e come il nome della directory fa uso di un carattere “/”
anche in coda.

Il campo User-agent può contenere un asterisco “*”, sinonimo di “qualunque spider”. Per cui
l’esempio seguente dice a tutti gli spider di non prelevare il file momentaneo.html:
User-agent: *
Disallow: /momentaneo.html

Il campo Disallow può contenere un carattere “/” ad indicare “qualunque file e directory”.
l’esempio che segue impedisce a scooter (lo spider di Bing) di prelevare qualunque cosa:
User-agent: Bingbot
Disallow: /

Infine, il campo Disallow può; essere lasciato vuoto, ad indicare che non ci sono file o
directory di cui si vuole impedire il prelievo. l’esempio seguente mostra come dire a tutti i
motori di ricerca di prelevare tutti i file del sito:

User-agent: *
Disallow:

Come scritto poc’anzi, il file robots.txt si compone di uno o più record, ognuno dei quali
prende in esame spider differenti. Ecco dunque un esempio completo di file robots.txt, che blocca
del tutto Bing, impedisce a Google l’accesso ad alcuni file e directory e lascia libero
accesso a tutti gli altri motori di ricerca.

User-agent: BingBot
Disallow: /
User-agent: googlebot
Disallow: /pagina.html
Disallow: /links.html
Disallow: /temporaneo/
Disallow: /cgi-bin/
User-agent: *
Disallow:

Quando gli spider non trovano il file robots.txt, si comportano come se avessero ricevuto via libera
ed accederanno dunque a tutte le pagine trovate nel sito.

Per approfondimenti leggete la guida di google creare un file robots.txt

Se avete bisogno di aiuto oppure assistenza info@programmatoresitoweb.com

Sommario
Semplice Guida Creare Robots.txt
Titolo Articolo
Semplice Guida Creare Robots.txt
Descrizione
Il file robots.txt permette ai programmatori web di indicare agli spider dei motori di ricerca quali pagine HTML non debbano essere esaminate.
Autore
Editore
programmatoresitoweb.com
Logo Editore
Condividi con i Social Network
Pubblicato in con tag .

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.