Uno de los aspectos más importantes a tener en cuenta a la hora de optimizar nuestro sitio web para los motores de búsqueda es conocer el comportamiento de los bots que lo visitan.
Conocer la frecuencia con la que Googlebot visita nuestra web o cuáles son las URLs que más visita puede ser útil para modificar nuestra estrategia SEO o para detectar problemas en la página, entre otros.
Contenidos
¿Qué es un fichero log de servidor?
Un log de servidor es un fichero que almacena todas las peticiones que ha recibido el servidor. Cada petición realizada genera una entrada que incluye la fecha y hora de la solicitud, la dirección IP, el contenido que se ha solicitado y el user-agent del navegador.
Una entrada del fichero log tiene el siguiente aspecto:
66.249.64.142 - - [30/Sep/2021:20:28:12 +0200] "GET /pagina-ejemplo HTTP/1.1" 200 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
Como podemos ver, la entrada anterior nos indica la IP del cliente que ha realizado la solicitud, la fecha y hora, el tipo de petición (GET en este caso), la URL a la que se ha accedido y el protocolo seguido (HTTP/1.1), el código de respuesta que ha devuelto el recurso solicitado y el user-agent que ha realizado la petición.
Toda esta información es almacenada en el fichero log para cada una de las solicitudes realizadas a nuestro sitio web, lo cual, como podemos ver, es una cantidad enorme de información útil para descubrir como se comportan los diferentes bots en la página.
¿Cómo se puede acceder a los ficheros?
La forma más fácil de descargar los ficheros log es conectándonos al servidor utilizando un cliente FTP como Filezilla. Tras acceder, podremos encontrar una carpeta llamada logs en la que se encuentran almacenados todos los archivos, generalmente uno por día.
Otra forma de obtener los archivos es accediendo al panel del hosting en el que esté alojada la web y descargarlos directamente desde allí.
En el caso de utilizar un CDN, es recomendable acceder a los ficheros log a través del proveedor de CDN, puesto que se tratará del punto de conexión más cercano entre tu contenido y el cliente. Un servicio de CDN almacena en caché el contenido de tu web y lo sirve al cliente evitando que acceda a tu servidor, por lo que la mayoría de las solicitudes irán a parar al log del CDN. Únicamente llegarán a tu servidor en caso de que el contenido al que se acceda no se encuentre cacheado por el servidor del CDN.
Además, hay que tener en cuenta que los ficheros no se almacenan de forma indefinida. Cada compañía de hosting decide como y cuanto tiempo mantiene almacenado un archivo de log en el servidor, por lo que tendrás que asegurarte de que tu hosting guarda los ficheros el tiempo suficiente para que puedas descargarlos y trabajar con ellos.
¿Por qué el análisis de logs es importante para SEO?
Aunque los ficheros log se utilizan principalmente para encontrar y resolver problemas técnicos en el sitio web, estos pueden ser de gran utilidad en la optimización para motores de búsqueda.
Realizando un análisis de logs, podemos descubrir si el crawl budget se está gastando de forma eficiente, si los bots tienen algún problema para crawlear la web o si existen partes de la web a las que estos acceden con menor frecuencia.
Conociendo la forma en la que los bots interaccionan con nuestro sitio web y los problemas y errores con los que se encuentran, podremos llevar a cabo mejoras en nuestra página que nos ayuden a mejorar el posicionamiento orgánico.
Entre los usos que podemos darle al análisis de logs para SEO encontramos:
Analizar el crawl budget
El crawl budget consiste en el número de páginas que un bot es capaz de rastrear en un periodo de tiempo determinado. El presupuesto de rastreo de cada sitio web depende de diferentes factores, entre los que destacan la frecuencia con la que se publica nuevo contenido, el tamaño del sitio web y la facilidad de rastreo.
Los bots, entre ellos Googlebot, no rastrean toda tu web cada vez que la visitan, sino que acceden al contenido que les interesa y destinan un tiempo determinado para llevar a cabo el rastreo. Por este motivo, es importante que el presupuesto de rastreo asignado se gaste en las páginas que más nos interesan.
Los problemas de crawl budget suelen encontrarse en páginas web grandes, que cuentan con millones de URLs. Si estos sitios llevan al bot a zonas de la web que no nos interesan, como puede ser una página con redirección, estaremos malgastando una gran cantidad de presupuesto. No obstante, los sitios web más pequeños también pueden analizar y optimizar su crawl budget para lograr una pequeña ventaja sobre sus competidores.
El análisis de los ficheros de logs nos permitirá descubrir si nuestro archivo robots.txt y las etiquetas meta-robots están bien optimizadas o si, por el contrario, los bots pueden seguir accediendo a partes de la web que no son de interés.
Solucionar errores de código de estado
Analizar los ficheros log nos permite descubrir los errores que se han encontrado los bots al intentar acceder a diferentes contenidos del sitio web.
Aunque algunas herramientas, como Screaming Frog, pueden ayudar a encontrar este tipo de errores, la realidad es que la única forma de hallar los problemas que realmente ha encontrado Googlebot es realizando un análisis del log.
Los errores de código de estado HTTP afectan al posicionamiento orgánico de la web, por lo que es importante conocer si los bots se están encontrando con algún tipo de problema y, en caso de haberlo, donde se lo están encontrando.
Por ejemplo, si el bot se encuentra con un error 500 al acceder al servidor, el rastreo no se llevará a cabo y las páginas afectadas podrían incluso llegar a ser eliminadas del índice. En otros casos, el bot podría encontrar errores 404 provocados por páginas que ya no están disponibles. Si el log muestra un número elevado de estas, podría ser interesante realizar una redirección 301 a otras páginas para que el bot continúe el rastreo en páginas que si están disponibles.
Analizar la frecuencia y priorizar el rastreo
Existe la posibilidad de que Googlebot no llegue a rastrear alguna parte de tu sitio web. En el caso de que alguna URL importante, como una página de producto, no esté siendo crawleada por Google, esta no aparecerá en su índice y, por tanto, se estarán perdiendo visitas y conversiones.
Para evitar que esto suceda, debemos utilizar los logs del servidor para saber que páginas o apartados de la web no están siendo descubiertos por los bots. Una vez encontrados, será necesario implementar una nueva estrategia en el sitio para que esas zonas sean rastreadas.
Una optimización del sitemap o del enlazado interno de la web nos permitirá facilitar la llegada de los bots a las páginas que más nos interesan, logrando así que estas sean descubiertas e indexadas.
De la misma forma, podemos encontrar páginas huérfanas, es decir, aquellas que los bots siguen rastreando pero que ya no nos interesan e incluso ni siquiera tienen enlaces entrantes en el sitio web. Gracias al análisis de logs podremos descubrirlas y tratarlas, normalmente con una redirección, para que no sigan siendo rastreadas.
Analizar la frecuencia de rastreo nos permitirá saber cuales son las URLs más visitadas por Googlebot, lo que nos podría dar alguna pista acerca de cuales son las páginas que prioriza y considera más importantes de nuestra web.
¿Cómo analizar logs para SEO?
Existen diferentes herramientas para realizar un análisis de logs de servidor para SEO. Estas se pueden clasificar en dos grupos: las que trabajan con los logs desde el servidor y las que lo hacen de forma local.
En el primer grupo encontramos las herramientas, como Oncrawl o Seolyzer, que se conectan al servidor y procesan automáticamente los ficheros log para ofrecer toda la información que contienen de forma “bonita”, a través de gráficos, tablas y diferentes filtros con los que excluir user-agents, direcciones IP, fechas…
Entre las herramientas que trabajan de forma local destaca el Log File Analyser de Screaming Frog. Para poder usar la herramienta, es necesario descargar los ficheros log del servidor y subirlos manualmente al programa. Este cuenta con una versión gratuita que te permite crear un proyecto y analizar un total de 1000 entradas.
La herramienta de Screaming Frog no solo permite realizar análisis en función del tipo de bot o de un periodo de tiempo concreto, sino que cuenta con una funcionalidad única muy interesante: la verificación de bots. Esta nos permite excluir los crawlers que emulan a otros. Por ejemplo, un bot haciéndose pasar por Googlebot.
Como puedes ver, el análisis de logs puede ayudarnos a descubrir una gran cantidad de información que otras herramientas, como Search Console o Google Analytics, no nos ofrecen. Si trabajas con sitios web grandes, el análisis de ficheros log se convierte en una tarea casi obligatoria para poder optimizar el crawl budget y obtener una mejora en el posicionamiento orgánico.