Els robots són màquines que pertanyen a entitats cercadores a Internet, com podrien ser Google, Yahoo o Bing. Aquests robots accedeixen a pàgines web per buscar informació dins d'elles, per afegir aquesta informació en els cercadors. Aquesta acció es coneix com indexar o posicionar una web en Internet.

Si es disposa d'un arxiu correctament configurat, pots fer que aquests robots seleccionin la informació correcta més ràpidament, obtenint així una millora en la navegabilitat de la web, un millor posicionament en els cercadors i també es redueix alguns inconvenients que poden ocasionar aquests robots si no es controlen.

Aquests robots també s'anomenen "spiders", "crawlers", aranyes, "bots" o indexadors.

 

1.-Què és l'arxiu robots.txt i per a què serveix

L'arxiu robots.txt és un arxiu de text pla creat per l'usuari per controlar l'accés dels robots a l'allotjament. Aquest arxiu exposa unes recomanacions que els robots cercadors hauran de complir. És a dir, els hi indiques que no vols indexar perquè seleccionin millor la informació de la teva web i millori el posicionament en el cercador.

L'arxiu robots.txt s'ha de pujar a l'arrel de l'allotjament per indicar als robots quines pàgines o directoris no t'interessa indexar. Només hi ha d'haver un arxiu robots.txt per a cada allotjament.

La configuració d'aquest arxiu és important, ja que ofereix diversos beneficis per l'allotjament, com per exemple:

  • Ajuda a realitzar una indexació més fluida del contingut important de la web, amb el que es millora el posicionament a Internet. A més a més, agilitza el rastreig dels robots, millorant la navegabilitat de la web.
  • Impedeix l'accés a determinats robots, ja que alguns només ens proporcionen problemes en la web perquè no són cercadors, es limita la informació que vols mostrar per evitar que les dades privades puguin ser trobades.
  • Redueix la saturació del servidor, perquè es pot controlar el temps d'accés d'alguns robots. Hi ha robots que es dediquen a realitzar una quantitat elevada de peticions que poden saturar el servidor i que l'usuari real disposi d'una navegació més lenta en la web.

 

2.-Com es crea un arxiu robots.txt

L'arxiu robots.txt es crea mitjançant aquestes dues comandes:


User-Agent: (Spider Name)
Disallow: (Ruta)


L'"Spider Name", és el nom del robot cercador. Si es vol indicar que les prohibicions realitzades afectin tots els cercadors, s'haurà de posar "*", en lloc del nom del robot.

La "Ruta", és el nom de l'arxiu o carpeta que no es vol indexar. Per prohibir la indexació a tots els documents d'un directori, a la ruta que hi ha al "Disallow", s'ha d'incloure el caràcter "/" al final del nom del directori. És a dir, el format ha de ser:


Disallow: /directori/


Exemples:

Disallow: / prohibeix l'entrada a tot l'allotjament
Disallow: /foro/ prohibeix l'entrada al directori foro
Disallow: permet l'entrada a tot l'allotjament

 

3.-Com introduir comentaris en un arxiu

Si es volen afegir comentaris en el fitxer, s'ha de comentar la línia amb el signe #. Això significa que aquesta línia és un comentari i no s'ha de llegir.


Exemple:

# Deixem accés total a webcrawler, ja que Disallow està buit.
User-agent: webcrawler
Disallow:

 

4.-Què és el "Crawl-delay"

Si es comproven estadístiques, es pot observar, que a vegades alguns robots que revisen la web realitzen moltes peticions al servidor fins a carregar-lo. Per evitar aquesta càrrega es pot posar la directiva “ Crawl-delay” que indiqui el temps entre cada accés dels robots.


Exemple:

User-agent: *
Crawl-delay: 60


Això indica que els robots han d'esperar 30 segons entre cada accés. L'inconvenient que aporta aquesta directiva és que no afecta tots els robots, alguns dels que si els afecta són: MSNBot, Slurp i Googlebot.

 

5.-Altres directives per controlar el temps d'accés

Per controlar el temps en el qual els robots indexen les pàgines, es poden utilitzar alguna d'aquestes directives:


# Permetre treballar als bots de 2 am a 7:45 am (les hores són sempre en Greenwitch)

Visit-time: 0200-0745


# Un document cada 30 minuts
Request-rate: 1/30m


# Combinat: 1 doc cada 10 minuts i entre la 1 i les 5 de la tarda
Request-rate: 1/10m 1300-1659


És important comprovar l'arxiu abans de pujar-lo a la web, ja que si conté algun error, alguns cercadors no desitjats podrien indexar la web incorrectament o pel contrari, que cap cercador dels que desitges indexi la web.

 

6.-Com ha de ser un arxiu robots.txt

Per donar accés a l'allotjament a tots els robots:


User-agent: *
Disallow:
Crawl-delay: 60


Per treure l'accés a tots els robots de l'allotjament:
User-agent: *
Disallow: /
Crawl-delay: 60


Per no permetre l'accés dels robots a una pàgina en concret:
User-agent: *
Disallow: /arxiu.html
Request-rate: 1/10m 1300-1659


Per limitar l'accés a directoris específics:
Aquesta configuració és la recomanada, ja que prohibeix a tots els robots l'accés a les carpetes que has remarcat, i més a més els hi restringeixes el temps d'accés per evitar saturacions al servidor.

User-agent: *
Disallow: /Carpeta1/
Disallow: /Carpeta2/
Crawl-delay: 60


En aquesta web surt una llista de tots els robots: http://www.robotstxt.org/db.html

 

7.-Com configurar un arxiu robots.txt amb CMS en concret

Cal destacar que molts gestors de contingut com Joomla, Drupal, WordPress, etc., ja porten el seu propi robots.txt que s'instal·la juntament amb l'aplicació. L'únic que caldria afegir és la directiva “crawl-delay” per no sobrecarregar la pàgina i les parts o articles que no vulguis que siguin indexades.


Exemples de robots.txt:

Per a un Wordpress:


User-agent: *
Crawl-Delay: 60
Disallow: /wp-content/
Disallow: /wp-icludes/
Disallow: /trackback/
Disallow: /wp-admin/
Disallow: /archives/
Disallow: /category/
Disallow: /tag/*
Disallow: /tag/
Disallow: /wp-*
Disallow: /login/
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.php$
User-agent: All
Allow:/
User-agent: Googlebot-Image
Disallow: /
User-agent: ia_archiver
Disallow: /
User-agent: duggmirror
Disallow: /


Per a un Drupal:


User-agent: *
Crawl-delay: 60
# Directories
Disallow: /includes/
Disallow: /misc/
Disallow: /modules/
Disallow: /profiles/
Disallow: /scripts/
Disallow: /sites/
Disallow: /themes/
# Files
Disallow: /changelog.txt
Disallow: /cron.php
Disallow: /install.mysql.txt
Disallow: /install.pgsql.txt
Disallow: /install.php
Disallow: /install.txt
Disallow: /license.txt
Disallow: /maintaners.txt
Disallow: /update.php
Disallow: /upgrade.txt
Disallow: /xmlrpc.php
# Paths (clean URLs)
Disallow: /admin/
Disallow: /comment/reply/
Disallow: /contact/
Disallow: /logout/
Disallow: /node/add/
Disallow: /search/
Disallow: /user/register/
Disallow: /user/password/
Disallow: /user/login/
# Paths (no clean URLs)
Disallow: /?q=admin/
Disallow: /?q=comment/reply/
Disallow: /?q=contact/
Disallow: /?q=logout/
Disallow: /?q=node/add/
Disallow: /?q=search/
Disallow: /?q=user/password/
Disallow: /?q=user/register/
Disallow: /?q=user/login/
Disallow: /?q=search/
# Extras on drupal.org
# no access for table sorting paths or any paths that have parameters
Disallow: /*?sort*
Disallow: /*&sort*
Disallow: /*?solrsort*
Disallow: /*&solrsort*
# no access to profiles that are often targeted by spammers.
Disallow: /profile/interest/*
Disallow: /profile/industries/*
Disallow: /profile/companies/*
# Disallow bogus aggregator pages
Disallow: /aggregator/*
# Disallow project search
Disallow: /project/issues/search/*
Disallow: /project/issues/*
# Disallow book export
Disallow: /book/export/*
# Disallow pift tests
Disallow: /pift/retest/*
# Disallow project subscription
Disallow: /project/issues/subscribe-mail/*


Per a un Joomla:


User-agent: *
Crawl-delay: 60
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/

 

Per a més informació, pots contactar amb nosaltres.