¿Qué bots de IA debes bloquear para mejorar tu SEO?

¿Qué bots de IA debes bloquear por el bien de tu web?

Te explico cómo bloquear bots LLM maliciosos y cómo centrar tu contenido en servicios basados en LLM que puedan aportarte valor.

El argumento de que si los usuarios humanos reales van a utilizar servicios como ChatGPT o Claude para encontrar información, debemos asegurarnos de que las webs que trabajamos sean visibles en estos entornos y fomentar que estos sistemas respeten la web abierta.

Cuando se utilizan correctamente, los sistemas de IA basados en modelos de lenguaje (LLM1) suponen una gran ayuda para la productividad humana y la toma de decisiones del consumidor. Sin embargo, con cada nuevo anuncio de una empresa de IA que recibe una inversión desmesurada o es adquirida por miles de millones de dólares, surgen más y más operaciones de scraping de LLM. Estos servicios no solo buscan robar contenido de un sitio web sin ofrecer nada a cambio con la esperanza de obtener grandes beneficios, sino que también provocan un aumento en los costes de ancho de banda e incluso caídas del sitio.

Pero a esto le podemos poner solución. O al menos intentarlo bloqueando bots LLM maliciosos conocidos o sospechosos para que no accedan a tu servidor o sitio web, y cómo centrar tu contenido en servicios basados en LLM que puedan aportarte valor en lugar de perjudicarte.

¿Qué entendemos por un bot LLM malicioso?

«Malicioso» en este contexto puede significar varias cosas:

  • No aporta valor al sitio web original en términos de tráfico, ventas, generación de leads, etc.
  • Toma grandes volúmenes de contenido que probablemente se usen o reutilicen para sus propios fines sin tu permiso.
  • Escrapea páginas a gran velocidad, lo que puede causar problemas de carga para usuarios reales o incluso hacer que tu sitio se caiga.
  • Extrae cualquier cantidad de contenido de tu sitio para ayudar a uno o más de tus competidores a rendir mejor que tú y/o quitarte clientes.

Los bots LLM maliciosos (y en realidad todo tipo de bots de scraping) pueden causar muchos problemas. Cuando vamos más allá del SEO clásico hacia la Optimización para LLM (o GEO, o AI SEO, o ChatGPT SEO, o como se le llame hoy), vemos un aumento en los posibles inconvenientes y complicaciones de rendimiento.

Problemas comunes que ocasionan los bots maliciosos

  • Tiempos de carga lentos o caídas del sitio debido a tráfico sostenido de bots.
  • Aunque la búsqueda tradicional como Google o Bing no ha muerto, sigue siendo el método preferido por miles de millones de usuarios. Permitir el acceso sin restricciones puede aumentar la competencia y reducir el valor de tus esfuerzos de SEO.
  • Disminución del motivo para visitar un sitio web, abrir una app o interactuar con una marca. Si los usuarios pueden consultar toda la información sobre ti en sistemas que no devuelven nada, el valor de por vida de tu contenido y SEO puede colapsar.

Queremos que los LLM que aporten valor nos visiten pero no los que roban contenido

El problema central: la falta de infraestructura de consentimiento

El núcleo del problema es la falta de una infraestructura adecuada de consentimiento. La web temprana estableció un «consenso» entre sitios web y motores de búsqueda: los motores podían rastrear si respetaban el archivo Robots.txt y usaban la información para clasificar páginas, no para competir con ellas. A cambio, los sitios recibían tráfico valioso.

Muchos LLM rompen este acuerdo y toman lo que quieren, como quieren, sin devolver nada. La mayoría ni siquiera informa de sus operaciones hasta después de haber entrenado sus modelos. Incluso cuando ofrecen formas de bloqueo, muchos bots como ChatGPT-User, Google-Extended o Meta-externalagent ignoran Robots.txt y siguen extrayendo contenido.

Agentes de usuario que deberías considerar bloquear en Robots.txt

  • Google-Extended: Promete no usar tus datos para preentrenamiento, pero sí para funciones como AI Overviews. Recomendación: Bloquear.
  • meta-externalagent: Meta no ofrece valor a cambio. Recomendación: Bloquear.
  • GPTBot: Bot principal de OpenAI. Recomendación: Bloquear.
  • ChatGPT-User: Ignora Robots.txt si la acción es iniciada por el usuario. Recomendación: No bloquear (es inútil).
  • OAI-SearchBot: Aparece poco, pero no se usa para entrenamiento. Recomendación: No bloquear.
  • PerplexityBot: Reescribe contenido sin clics ni anuncios. Recomendación: Bloquear.
  • Perplexity-User: Facilita el robo de contenido. Recomendación: Bloquear.
  • anthropic-ai: No hay documentación oficial. Recomendación: Bloquear.
  • AwarioSmartBot: A menos que uses Awario, Recomendación: Bloquear.

Ejemplo de Robots.txt para bloquearlos

User-Agent: Google-Extended
Disallow: /

User-Agent: Meta-externalagent
Disallow: /

User-Agent: GPTBot
Disallow: /

User-Agent: PerplexityBot
Disallow: /

User-Agent: Perplexity-User
Disallow: /

User-Agent: Anthropic-ai
Disallow: /

User-Agent: AwarioSmartBot
Disallow: /

Direcciones IP sospechosas a bloquear

  • 206.41.168.153 – Thoughtport (EE. UU.). Recomendación: Bloquear.
  • 103.208.70.211 – “Tataskythief” (India). Recomendación: Bloquear.
  • 152.59.163.47 – “Reliancethief” (India). Recomendación: Bloquear.
  • 188.213.34.101 – “M247thief” (Rumanía). Recomendación: Bloquear.
  • 158.181.11.203 – “Megalinethief” (Kirguistán). Recomendación: Bloquear.

Cómo identificar otras IPs sospechosas:

  1. No pertenecen a un ISP o proveedor móvil.
  2. No provienen de regiones donde haces negocio.
  3. Acceden a muchas páginas por minuto o a páginas 404.

¿Quieres saber más sobre las soluciones de inteligencia artificial generativa de Microsoft? En DQS/ te asesoramos. ¿Por qué no nos preguntas cómo podemos ayudarte?

Información basada en la publicación Blocking Bad LLM Bots For SEO Performance
de Joe Youngblood, la lista de agentes de Darkvisitors.com, los agentes de Google, los crawlers de Meta, los crawlers de OpenAI y los crawlers de Perplexity.

  1. Un LLM (Large Language Model) es un modelo de inteligencia artificial entrenado con grandes cantidades de texto para comprender y generar lenguaje natural. Puede responder preguntas, resumir, traducir, redactar textos y realizar tareas relacionadas con el lenguaje, aprendiendo patrones y contexto gracias a su entrenamiento masivo. Ejemplos de LLM son GPT-4 o Claude. ↩︎
Resume o comparte este contenido a través de:

Publicaciones Similares

¿Te ha parecido interesante? ¿Tienes dudas sobre el contenido?
Para cualquier pregunta ponte en contacto conmigo.