Els robots són màquines que pertanyen a entitats cercadores a Internet, com podrien ser Google, Yahoo o Bing. Aquests robots accedeixen a pàgines web per buscar informació dins d'elles, per afegir aquesta informació en els cercadors. Aquesta acció es coneix com indexar o posicionar una web en Internet.

Si es disposa d'un arxiu correctament configurat, podem fer que aquests robots seleccionin la informació correcta més ràpidament, obtenint així una millora en la navegabilitat de la web, un millor posicionament en els cercadors i també es redueix alguns inconvenients que poden ocasionar aquests robots si no es controlen.

Aquests robots també s'anomenen "spiders", "crawlers", aranyes, "bots" o indexadors.

 

1.-Què és l'arxiu robots.txt i per a què serveix

L'arxiu robots.txt és un arxiu de text pla creat per l'usuari per controlar l'accés dels robots a l'allotjament. Aquest arxiu exposa unes recomanacions que els robots cercadors hauran de complir. És a dir, els hi indiquem què no volem indexar perquè seleccionin millor la informació de la nostra web i ens millori el posicionament en el cercador.

L'arxiu robots.txt s'ha de pujar a l'arrel de l'allotjament per indicar als robots quines pàgines o directoris no ens interessa indexar. Només hi ha d'haver un arxiu robots.txt per a cada allotjament.

La configuració d'aquest arxiu és important, ja que ens ofereix diversos beneficis per al nostre allotjament, com per exemple:

  • Ajuda a realitzar una indexació més fluïda del contingut important de la web, amb el que es millora el posicionament a Internet. A més a més, agilitza el rastreig dels robots, millorant la navegabilitat de la web.
  • Impedeix l'accés a determinats robots, ja que alguns només ens proporcionen problemes en la web perquè no són cercadors, es limita la informació que volem mostrar per evitar que les dades privades puguin ser trobades.
  • Redueix la saturació del servidor, perquè es pot controlar el temps d'accés d'alguns robots. Hi ha robots que es dediquen a realitzar una quantitat elevada de peticions que poden saturar el servidor i que l'usuari real disposi d'una navegació més lenta en la web.

 

2.-Com es crea un arxiu robots.txt

L'arxiu robots.txt es crea mitjançant aquestes dues comandes:

User-Agent: (Spider Name)
Disallow: (Ruta)

L'"Spider Name", és el nom del robot cercador. Si es vol indicar que les prohibicions realitzades afectin tots els cercadors, s'haurà de posar "*", en lloc del nom del robot.

La "Ruta", és el nom de l'arxiu o carpeta que no es vol indexar. Per prohibir la indexació a tots els documents d'un directori, a la ruta que hi ha al "Disallow", s'ha d'incloure el caràcter "/" al final del nom del directori. És a dir, el format ha de ser:

Disallow: /directori/

Exemples:

Disallow: / prohibeix l'entrada a tot l'allotjament
Disallow: /foro/ prohibeix l'entrada al directori foro
Disallow: permet l'entrada a tot l'allotjament

 

3.-Com introduir comentaris en un arxiu

Si es volen afegir comentaris en el fitxer, s'ha de comentar la línia amb el signe #. Això significa que aquesta línia és un comentari i no s'ha de llegir.

Exemple:

# Deixem accés total a webcrawler, ja que Disallow està buit.
User-agent: webcrawler
Disallow:

 

4.-Què és el "Crawl-delay"

Si es comproven estadístiques, es pot observar que a vegades alguns robots que revisen la nostra web realitzen moltes peticions al nostre servidor fins a carregar-lo. Per evitar aquesta càrrega es pot posar la directiva “ Crawl-delay” que indiqui el temps entre cada accés dels robots.

Exemple:

User-agent: *
Crawl-delay: 60

Això indica que els robots han d'esperar 30 segons entre cada accés. L'inconvenient que aporta aquesta directiva és que no afecta tots els robots, alguns dels que si els afecta són: MSNBot, Slurp i Googlebot.

 

5.-Altres directives per controlar el temps d'accés

Per controlar el temps en el qual els robots indexen les pàgines, es poden utilitzar alguna d'aquestes directives:

# Permetre treballar als bots de 2 am a 7:45 am (les hores són sempre en Greenwitch)

Visit-time: 0200-0745
# Un document cada 30 minuts
Request-rate: 1/30m
# Combinat: 1 doc cada 10 minuts i entre la 1 i les 5 de la tarda
Request-rate: 1/10m 1300-1659

És important comprovar l'arxiu abans de pujar-lo a la web, ja que si conté algun error, alguns cercadors no desitjats podrien indexar la web incorrectament o pel contrari, que cap cercador dels que nosaltres desitgem ens indexi la web.

 

6.-Com ha de ser un arxiu robots.txt

Per donar accés a l'allotjament a tots els robots:
User-agent: *
Disallow:
Crawl-delay: 60

Per treure l'accés a tots els robots de l'allotjament:
User-agent: *
Disallow: /
Crawl-delay: 60

Per no permetre l'accés dels robots a una pàgina en concret:
User-agent: *
Disallow: /arxiu.html
Request-rate: 1/10m 1300-1659

Per limitar l'accés a directoris específics:
Aquesta configuració és la recomanada, ja que prohibeix a tots els robots l'accés a les carpetes que hem remarcat, i més a més els hi restringim el temps d'accés per evitar saturacions al servidor.

User-agent: *
Disallow: /Carpeta1/
Disallow: /Carpeta2/
Crawl-delay: 60

En aquesta web surt una llista de tots els robots: http://www.robotstxt.org/db.html

 

7.-Com configurar un arxiu robots.txt amb CMS en concret

Cal destacar que molts gestors de contingut com Joomla, Drupal, WordPress, etc., ja porten el seu propi robots.txt que s'instal·la juntament amb l'aplicació. L'únic que caldria afegir és la directiva “crawl-delay” per no sobrecarregar la pàgina i les parts o articles que no vulguem que siguin indexades.

Exemples de robots.txt:

Per a un Wordpress:

User-agent: *
Crawl-Delay: 60
Disallow: /wp-content/
Disallow: /wp-icludes/
Disallow: /trackback/
Disallow: /wp-admin/
Disallow: /archives/
Disallow: /category/
Disallow: /tag/*
Disallow: /tag/
Disallow: /wp-*
Disallow: /login/
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.php$
User-agent: All
Allow:/
User-agent: Googlebot-Image
Disallow: /
User-agent: ia_archiver
Disallow: /
User-agent: duggmirror
Disallow: /

Per a un Drupal:

User-agent: *
Crawl-delay: 60
# Directories
Disallow: /includes/
Disallow: /misc/
Disallow: /modules/
Disallow: /profiles/
Disallow: /scripts/
Disallow: /sites/
Disallow: /themes/
# Files
Disallow: /changelog.txt
Disallow: /cron.php
Disallow: /install.mysql.txt
Disallow: /install.pgsql.txt
Disallow: /install.php
Disallow: /install.txt
Disallow: /license.txt
Disallow: /maintaners.txt
Disallow: /update.php
Disallow: /upgrade.txt
Disallow: /xmlrpc.php
# Paths (clean URLs)
Disallow: /admin/
Disallow: /comment/reply/
Disallow: /contact/
Disallow: /logout/
Disallow: /node/add/
Disallow: /search/
Disallow: /user/register/
Disallow: /user/password/
Disallow: /user/login/
# Paths (no clean URLs)
Disallow: /?q=admin/
Disallow: /?q=comment/reply/
Disallow: /?q=contact/
Disallow: /?q=logout/
Disallow: /?q=node/add/
Disallow: /?q=search/
Disallow: /?q=user/password/
Disallow: /?q=user/register/
Disallow: /?q=user/login/
Disallow: /?q=search/
# Extras on drupal.org
# no access for table sorting paths or any paths that have parameters
Disallow: /*?sort*
Disallow: /*&sort*
Disallow: /*?solrsort*
Disallow: /*&solrsort*
# no access to profiles that are often targeted by spammers.
Disallow: /profile/interest/*
Disallow: /profile/industries/*
Disallow: /profile/companies/*
# Disallow bogus aggregator pages
Disallow: /aggregator/*
# Disallow project search
Disallow: /project/issues/search/*
Disallow: /project/issues/*
# Disallow book export
Disallow: /book/export/*
# Disallow pift tests
Disallow: /pift/retest/*
# Disallow project subscription
Disallow: /project/issues/subscribe-mail/*

Per a un Joomla:

User-agent: *
Crawl-delay: 60
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/

 

Per a més informació, podeu contactar amb nosaltres.