llms.txt ignorado por los bots de IA
Flavio Longato, estratega SEO en Adobe, comprobó que la mayoría de los bots de empresas de IA no están leyendo el archivo llms.txt.
En los últimos meses, el archivo llms.txt ha generado mucha conversación en el mundo SEO y de IA. Se presenta como el “robots.txt para modelos de lenguaje”, pero ¿realmente lo usan los bots de IA? Para responder, auditamos 30 días de logs CDN en 1.000 dominios con Adobe Experience Manager. Los resultados fueron contundentes.
Resumiendo las conclusiones
llms.txt es una buena idea en teoría, pero hoy no sirve para nada práctico. Hasta que haya adopción real, tu mejor defensa sigue siendo robots.txt y una política clara de contenido respaldada por logs.
Hallazgos clave del análisis
- Los bots de LLM no lo tocan: Ni GPTBot, ni ClaudeBot, ni PerplexityBot aparecieron en los registros.
- Google sigue siendo el rey: Su crawler de escritorio representó el 95% de todas las peticiones.
- Bing, anecdótico: Solo 7 peticiones, concentradas en un único dominio.
- OpenAI apenas asoma: 10 llamadas de OpenAIBotSearch, pero GPTBot no apareció.
- SEO tools inflan las métricas: Semrush y SiteAudit generaron hits que nada tienen que ver con IA.
Ranking de user-agents en llms.txt
- GoogleBotDesktop – 94,9%
- OpenAIBotSearch – 1,1%
- ScanPire – 0,8%
- BingBot – 0,8%
- Otros 8 bots <1% cada uno
¿Por qué los LLMs ignoran llms.txt?
- Especificación no oficial: Ningún laboratorio de IA se ha comprometido a soportarlo.
- Entrenamiento con datasets preconstruidos: Common Crawl, libros, etc., no crawling en vivo.
- Robots.txt ya cubre lo básico: Los grandes respetan tokens estándar como
GPTBot
oClaudeBot
. - Coste ineficiente: Consultar llms.txt en cada dominio consume presupuesto de rastreo.
¿Deberías implementarlo?
Depende del esfuerzo. Si es fácil, hazlo. Si implica recursos significativos, espera. Hoy no hay beneficios tangibles.
Recomendaciones prácticas
- Sigue usando robots.txt: Es el único estándar respetado.
- Monitoriza tus logs: Herramientas como Grafana o BigQuery son clave.
- Si usas CDN, revisa sus logs: Ahí está la verdad.
¿Qué podría cambiar pronto?
A agosto de 2025, ningún proveedor importante lo soporta y no hay cambios importantes a la vista:
- OpenAI: no han anunciado que lo vayan a soportar.
- Google: lo monitoriza a través de
Google-Extended
- Microsoft: silencio
- Meta y Anthropic: no lo mencionan
FAQ: ¿Qué es llms.txt?
Es un archivo en formato Markdown que se coloca en la raíz del dominio (https://consultor365.com/llms.txt
) para guiar a los LLMs hacia contenido relevante. La propuesta original está en llmstxt.org. Aunque suena bien, ningún bot importante lo respeta hoy.
Conclusión
Ninguno de los principales rastreadores de LLM (GPTBot de OpenAI, ClaudeBot de Anthropic, PerplexityBot, el rastreador de Meta, etc.) solicita actualmente el archivo llms.txt.
Solo los rastreadores SEO tradicionales, como GoogleBot o BingBot, han hecho alguna petición, y no con fines de entrenamiento.
Por lo tanto, aunque pueda parecer una medida proactiva, añadir llms.txt hoy en día prácticamente no aporta nada.
Información basada en la publicación LLMs.txt – Why Almost Every AI Crawler Ignores it as of August 2025