Robots.txt y su importancia para SEO

Comparte este artículo

A pesar de ser uno de los archivos más simples de cualquier sitio web, el robots.txt juega un papel fundamental a la hora de optimizar el rastreo que hacen los motores de búsqueda del mismo.

Contenidos

¿Qué es un archivo robots.txt?

Un archivo robots.txt se encarga de proporcionar instrucciones a los motores de búsqueda sobre la forma en que estos pueden rastrear el sitio web. El archivo debe colocarse en el directorio raíz de la web: ejemplo.com/robots.txt

El archivo se compone de un conjunto de directivas Allow y Disallow que indican a los motores de búsqueda que secciones de la web pueden rastrear y cuáles no. Es posible dar instrucciones generales a todos los bots o dirigirse a uno en particular utilizando una directiva user-agent, con el que impedir que un bot determinado acceda a una sección de la web.

Por último, es posible (y recomendable) añadir una declaración de sitemap al final del robots.txt, indicando a los motores de búsqueda la URL en la que pueden encontrar el sitemap XML.

User Agents

Los user agents o agentes de usuario son la forma en que los robots de los motores de búsqueda se identifican a si mismos al acceder al sitio web.

Al colocar una directiva de user-agent en el robots.txt podemos indicar a los diferentes robots a que páginas de la web pueden acceder o no. Por ejemplo, podríamos bloquear el acceso a Google a una sección de nuestra web utilizando el user-agent googlebot.

Es importante tener en cuenta que si nos dirigimos a diferentes user agents en nuestro robots.txt, dichos agentes de usuario ignorarán el resto de indicaciones que aparezcan en el archivo, obedeciendo únicamente a las que se dirigen a ellos directamente.

Allow y Disallow

La forma que tenemos de indicar a los robots si pueden acceder o no a una sección de la web es a través de las directivas allow y disallow, siendo esta última la más común.

La directiva disallow se utiliza para indicar a los motores de búsqueda que no pueden acceder a la sección de la web que se indica a continuación. Así pues, una vez colocado el disallow en el archivo, los user agents asignados dejarán de rastrear esa parte de la página web.

Al bloquear el acceso a los motores de búsqueda a determinadas partes de la web, evitamos que éstos pierdan tiempo y recursos crawleando secciones que no tienen ningún valor para nosotros, como los carritos de la compra, páginas de inicio de sesión o de cuentas de usuarios, o secciones privadas.

La directiva allow sirve para abrir subsecciones más pequeñas que se encuentran cerradas por una directiva disallow. Un ejemplo de esto sería:

User-agent: *
Disallow: /acceso-prohibido/
Allow: /acceso-prohibido/hola-google.html

En el ejemplo anterior, estaríamos bloqueando a todos los robots el acceso a la sección /acceso-prohibido/ de nuestra web, excepto al archivo hola-google.html que cuenta con una directiva allow. Esto sucede porque los motores de búsqueda respetan la directiva más específica.

Declaración de sitemap XML

Todos los robots comienzan su crawleo accediendo al archivo robots.txt para saber a que páginas de la web tienen permitido el acceso. Así pues, es recomendable incluir al final del archivo una declaración de sitemap XML en la que indicarle a los robots donde se encuentra tu sitemap.

Si tu web cuenta con más de un sitemap, es posible indicar donde se encuentra cada uno de ellos. No obstante, es más recomendable poner la URL al índice de sitemaps, si se tiene uno. En cualquier caso, la declaración del sitemap no es obligatoria.

Crawl-delay

La directiva Crawl-delay sirve para indicarle a los diferentes robots el tiempo que debe pasar entre cada acción de rastreo que realizan.

Esta directiva ya no es utilizada por Google, puesto que su bot se adapta a cada web para no realizar un número de peticiones elevado que pueda saturar el servidor en el que se encuentra alojada. No obstante, otros buscadores, como Bing o Yandex, siguen utilizando esta directiva.

También es posible retrasar el rastreo de otros robots, como el de Screaming Frog o Ahrefs, para evitar que estas herramientas realicen demasiadas peticiones al servidor.

¿Por qué es importante el robots.txt?

El robots.txt te permite tener un mayor control sobre la forma en que los motores de búsqueda rastrean tu página web, indicándoles a que secciones pueden o no pueden acceder.

Cada web es completamente diferente, por lo que no existe un archivo robots.txt que se adapte a todos los sitios web. Algunas de las secciones que te podría interesar bloquear son:

Navegaciones facetadas de comercios electrónicos
Secciones de testeo
Páginas de resultados de búsqueda internos
Páginas de inicio de sesión y perfiles de usuarios
Carritos de la compra

Bloqueando el acceso a páginas sin ningún interés o páginas con contenido duplicado o thin content, como pueden ser las navegaciones facetadas de un e-commerce, podemos evitar que el bot de Google malgaste presupuesto de rastreo o crawl budget y se centre en aquellas páginas que nos interesan.

Hay que tener en cuenta que el archivo robots.txt solo impide el rastreo de la URL. Eso no significa que los motores de búsqueda no puedan indexarla. Si la URL cuenta con enlaces, internos o externos, apuntando hacia ella, ésta podría ser indexada. Además, colocar una etiqueta noindex en la cabecera no impediría la indexación, puesto que el robot nunca llegará a acceder a la URL y no leerá dicha directiva.

Por último, tras subir tu nuevo archivo robots.txt puedes utilizar el probador de robots.txt de Google para comprobar que directivas están bloqueando el acceso a googlebot al contenido de tu web. Si lo prefieres, otras herramientas, como Screaming Frog, te permiten utilizar un robots.txt personalizado para realizar el crawleo, de forma que puedes comprobar la correcta implementación de las directivas antes de subirlo a producción.

Comparte este artículo