llms.txt ignorado por los bots de IA

llms.txt ignorado por los bots de IA

Flavio Longato, estratega SEO en Adobe, comprobó que la mayoría de los bots de empresas de IA no están leyendo el archivo llms.txt.

En los últimos meses, el archivo llms.txt ha generado mucha conversación en el mundo SEO y de IA. Se presenta como el “robots.txt para modelos de lenguaje”, pero ¿realmente lo usan los bots de IA? Para responder, auditamos 30 días de logs CDN en 1.000 dominios con Adobe Experience Manager. Los resultados fueron contundentes.

Resumiendo las conclusiones

llms.txt es una buena idea en teoría, pero hoy no sirve para nada práctico. Hasta que haya adopción real, tu mejor defensa sigue siendo robots.txt y una política clara de contenido respaldada por logs.

Hallazgos clave del análisis

  • Los bots de LLM no lo tocan: Ni GPTBot, ni ClaudeBot, ni PerplexityBot aparecieron en los registros.
  • Google sigue siendo el rey: Su crawler de escritorio representó el 95% de todas las peticiones.
  • Bing, anecdótico: Solo 7 peticiones, concentradas en un único dominio.
  • OpenAI apenas asoma: 10 llamadas de OpenAIBotSearch, pero GPTBot no apareció.
  • SEO tools inflan las métricas: Semrush y SiteAudit generaron hits que nada tienen que ver con IA.

Ranking de user-agents en llms.txt

  1. GoogleBotDesktop – 94,9%
  2. OpenAIBotSearch – 1,1%
  3. ScanPire – 0,8%
  4. BingBot – 0,8%
  5. Otros 8 bots <1% cada uno

¿Por qué los LLMs ignoran llms.txt?

  • Especificación no oficial: Ningún laboratorio de IA se ha comprometido a soportarlo.
  • Entrenamiento con datasets preconstruidos: Common Crawl, libros, etc., no crawling en vivo.
  • Robots.txt ya cubre lo básico: Los grandes respetan tokens estándar como GPTBot o ClaudeBot.
  • Coste ineficiente: Consultar llms.txt en cada dominio consume presupuesto de rastreo.

¿Deberías implementarlo?

Depende del esfuerzo. Si es fácil, hazlo. Si implica recursos significativos, espera. Hoy no hay beneficios tangibles.

Recomendaciones prácticas

  • Sigue usando robots.txt: Es el único estándar respetado.
  • Monitoriza tus logs: Herramientas como Grafana o BigQuery son clave.
  • Si usas CDN, revisa sus logs: Ahí está la verdad.

¿Qué podría cambiar pronto?

A agosto de 2025, ningún proveedor importante lo soporta y no hay cambios importantes a la vista:

  • OpenAI: no han anunciado que lo vayan a soportar.
  • Google: lo monitoriza a través de Google-Extended
  • Microsoft: silencio
  • Meta y Anthropic: no lo mencionan

FAQ: ¿Qué es llms.txt?

Es un archivo en formato Markdown que se coloca en la raíz del dominio (https://consultor365.com/llms.txt) para guiar a los LLMs hacia contenido relevante. La propuesta original está en llmstxt.org. Aunque suena bien, ningún bot importante lo respeta hoy.

Conclusión

Ninguno de los principales rastreadores de LLM (GPTBot de OpenAI, ClaudeBot de Anthropic, PerplexityBot, el rastreador de Meta, etc.) solicita actualmente el archivo llms.txt.

Solo los rastreadores SEO tradicionales, como GoogleBot o BingBot, han hecho alguna petición, y no con fines de entrenamiento.

Por lo tanto, aunque pueda parecer una medida proactiva, añadir llms.txt hoy en día prácticamente no aporta nada.

¿Quieres saber más sobre las soluciones de inteligencia artificial generativa de Microsoft? En DQS/ te asesoramos. ¿Por qué no nos preguntas cómo podemos ayudarte?

Información basada en la publicación LLMs.txt – Why Almost Every AI Crawler Ignores it as of August 2025

Resume o comparte este contenido a través de:

Publicaciones Similares

¿Te ha parecido interesante? ¿Tienes dudas sobre el contenido?
Para cualquier pregunta ponte en contacto conmigo.