robots.txt

El archivo robots.txt indica a los rastreadores qué zonas de una web pueden visitar. En una revisión previa a la publicación o entrega de una web WordPress, este check sirve para confirmar que el archivo existe en la ubicación esperada, es accesible públicamente y no está introduciendo bloqueos que afecten a páginas importantes.

Por qué es importante

Un robots.txt válido ayuda a definir el comportamiento de rastreo a nivel de sitio. Puede ser útil para controlar el acceso a determinadas rutas, pero debe configurarse con cuidado. Si el archivo no existe, no responde bien, está mal formado o bloquea más de la cuenta, los buscadores pueden rastrear zonas incorrectas o dejar de acceder a partes que sí deberían descubrir.

Esto es especialmente importante antes de publicar, porque un error en robots.txt puede afectar al rastreo desde el primer momento en que la web está online. También conviene no confundir bloqueo de rastreo con control de indexación. Una regla en robots.txt no funciona igual que una directiva noindex.

Qué revisar

Antes de dar este check por correcto, conviene revisar lo siguiente:

Ubicación en la raíz

El archivo debería estar disponible en /robots.txt en la raíz pública del sitio.

Respuesta accesible

La respuesta debería ser accesible, sin errores ni redirecciones rotas.

Reglas válidas

El archivo debería usar reglas válidas en texto plano.

Sin bloqueo accidental

Las secciones públicas importantes de la web no deberían quedar bloqueadas por error.

No sustituye a noindex

robots.txt no debería usarse como sustituto de una directiva noindex a nivel de página.

Cómo evalúa PreFlight este check

PreFlight solicita el archivo robots.txt desde la raíz pública del sitio y comprueba si es accesible y se comporta como debería desde fuera. También verifica que el archivo exista en una forma utilizable, en lugar de devolver un error, una respuesta inválida o una configuración poco fiable.

Este check ayuda a detectar si robots.txt está disponible y es técnicamente coherente antes de la entrega. No sustituye una revisión completa de la política de rastreo, pero sí es una señal muy útil de preparación técnica antes de publicar.

PASS / WARN / FAIL

PASS

El archivo robots.txt existe en la ubicación esperada, responde correctamente y no muestra problemas evidentes que debiliten el control de rastreo de la web pública.

WARN

El archivo existe, pero hay algo que conviene revisar, por ejemplo un comportamiento poco limpio, dependencia de redirecciones, accesibilidad mejorable o reglas que pueden generar dudas antes del lanzamiento.

FAIL

El archivo robots.txt no existe, no es accesible, no es válido o se comporta de una forma que vuelve poco fiable el control de rastreo del sitio público.

Errores comunes

Colocar robots.txt fuera de la raíz.

Devolver HTML, errores o redirecciones rotas en lugar de un archivo de texto válido.

Bloquear por accidente URLs públicas importantes.

Usar robots.txt para intentar evitar la indexación en lugar de usar noindex cuando corresponde.

Mantener restricciones antiguas de staging después de migrar la web.

FAQ

robots.txt impide que una página se indexe?

No de forma fiable por sí solo. robots.txt controla el rastreo, no la indexación del mismo modo que una directiva noindex.

Dónde debe estar robots.txt?

Debe estar en la raíz pública del sitio, por ejemplo en /robots.txt, porque esa es la ubicación que esperan los rastreadores para aplicar reglas a nivel de host.

Puede ser un problema que no exista robots.txt?

Sí. Una web puede funcionar sin él, pero si el comportamiento de rastreo forma parte de la configuración esperada antes de publicar, no tenerlo o no poder acceder a él sigue siendo una carencia técnica.

Verifica tu web WordPress antes de entregarla

Reduce retrabajo, detecta errores de última hora y revisa lo crítico antes de publicar.

Analizar ahora