llms.txt: Un nuevo estándar de accesibilidad para LLMs
Si has estado siguiendo las tendencias de la IA, probablemente hayas oído hablar de llms.txt. Voy a explicarte porqué lo deberías usar.
Este nuevo estándar para hacer que el contenido web sea más accesible para los modelos de lenguaje grande (LLMs) ha ganado popularidad en 2025.
Pero como ocurre con cualquier tecnología emergente de IA, surge la pregunta de si aporta valor o es una moda.
En septiembre de 2024, Jeremy Howard, cofundador de Answer.AI, propuso el formato de archivo /llms.txt
como una forma estandarizada para que los sitios web proporcionen información clave a los modelos de lenguaje (LLMs). Este archivo, basado en Markdown, resume el contenido de un sitio en un formato conciso y estructurado, evitando que los LLMs tengan que analizar HTML complejo, anuncios o JavaScript.
Al adoptar este estándar, estamos dando un paso hacia un futuro en el que cada empresa proporcione dos versiones de su documentación: una para humanos y otra para LLMs.
Entendiendo el escepticismo
Algunos críticos cuestionan si llms.txt realmente mejora la recuperación y precisión de la IA o aumenta el tráfico. Mencionan que no hay un compromiso universal por parte de todos los proveedores de LLM para analizar llms.txt, y sugieren que seguir principios generales de SEO, como tener un sitemap, es suficiente.
El SEO es muy diferente de la optimización para LLM
La primera idea errónea es que las prácticas tradicionales de SEO son suficientes para el descubrimiento impulsado por IA. Los datos cuentan otra historia:
- Vercel informa que el 10% de sus registros ahora provienen de ChatGPT como resultado de esfuerzos GEO calculados (no SEO).
- Google —quien definió la era moderna del SEO— incluyó un archivo llms.txt en su nuevo protocolo Agents to Agents (A2A).
- Los LLMs tienen necesidades fundamentalmente diferentes a los motores de búsqueda tradicionales. Se benefician de la claridad, el contexto y la estructura de formas que el buscador convencional no requiere.
Los archivos de texto simplificados mejoran la recuperación de IA
Dado cómo funcionan los LLMs, tener archivos de texto estructurados y simplificados es fundamentalmente beneficioso:
- Una estructura más clara significa menos tokens, respuestas más rápidas y menores costes.
- El formato más simple reduce el esfuerzo computacional necesario para que los LLMs extraigan significado de tu contenido.
- Empresas como Windsurf han destacado que llms.txt ahorra tiempo y tokens cuando los agentes no necesitan analizar HTML complejo.
Los principales proveedores de LLM están comprometidos con llms.txt
La evidencia más crítica del valor de llms.txt proviene de los propios líderes de la industria.
Anthropic, creador de Claude, implementó llms.txt y llms-full.txt en su documentación, demostrando un compromiso claro con estos estándares por parte de una de las principales empresas de IA.
Esto no es solo evidencia anecdótica. Profound, una empresa especializada en el seguimiento de métricas GEO, ha recopilado datos que muestran que modelos de Microsoft, OpenAI y otros están rastreando e indexando activamente archivos llms.txt y llms-full.txt.
Cuando las empresas que construyen los principales LLMs están implementando activamente estos estándares, es una señal de su impacto más allá de los argumentos teóricos.
Los datos de Profound confirman que esto no se trata solo de seguir una tendencia, sino de mejoras medibles en cómo los sistemas de IA interactúan con tu contenido.
El auge de llms-full.txt
Curiosamente los LLMs están accediendo a llms-full.txt incluso más que al original llms.txt.
Mientras que llms.txt enumera qué páginas rastrear, llms-full.txt es un único archivo Markdown que contiene el texto completo de tu sitio, diseñado para una ingesta más simple y rápida.
llms-full.txt se desarrollo por Mintlify en colaboración con Anthropic, quien necesitaba una forma más limpia de alimentar toda su documentación a los LLMs sin analizar HTML. Tras ver su impacto, lo implementamos para todos los clientes y fue adoptado oficialmente en el estándar de llmstxt.org.
En resumen: funciona.
Preparando tu contenido para el futuro
Hoy, ser accesible para los LLMs te da una ventaja competitiva. Pronto, será un requisito básico.
Estos estándares representan un cambio fundamental en cómo pensamos sobre la accesibilidad del contenido. Tu audiencia ahora incluye tanto a LLMs como a humanos, y optimizar para la IA no se trata de engañar al sistema, sino de asegurar que tu contenido esté representado con precisión.
Las mejores prácticas emergentes generalmente implican algún tipo de simplificación a Markdown, como llms.txt o llms-full.txt, pero también puede incluir otros métodos como proporcionar páginas individuales en Markdown para facilitar la ingesta por parte de los LLMs.
Considera no solo cómo la IA indexa tu contenido, sino cómo los usuarios interactuarán a través de interfaces de IA. A medida que las personas cambian a flujos de trabajo centrados en IA, es más importante que nunca que tu sitio web o documentación sea fácil de consultar en cualquier LLM.
El archivo /llms.txt
Los modelos de lenguaje grande dependen cada vez más de la información de sitios web, pero enfrentan una limitación crítica: las ventanas de contexto son demasiado pequeñas para manejar sitios completos. Convertir páginas HTML complejas con navegación, anuncios y JavaScript en texto plano amigable para LLMs es difícil e impreciso.
Aunque los sitios web sirven tanto a lectores humanos como a LLMs, estos últimos se benefician de información más concisa y especializada reunida en un solo lugar accesible. Esto es especialmente importante en entornos de desarrollo, donde los LLMs necesitan acceso rápido a documentación y APIs.
Se propone agregar un archivo Markdown /llms.txt
a los sitios web para ofrecer contenido amigable para LLMs. Este archivo proporciona información de contexto, orientación y enlaces a archivos Markdown detallados.
El formato es legible tanto para humanos como para LLMs, pero también está estructurado de forma precisa para permitir procesamiento mediante técnicas clásicas (como parsers y expresiones regulares).
Además, se propone que las páginas con información útil para LLMs ofrezcan una versión Markdown limpia en la misma URL que la original, pero con .md
añadido (o index.html.md
si no hay nombre de archivo).
Formato
El formato más ampliamente comprendido por los LLMs es Markdown. Mostrar dónde están los archivos clave en Markdown es un buen primer paso. Una estructura básica ayuda a los modelos a encontrar la información necesaria.
El archivo llms.txt
usa Markdown en lugar de XML porque se espera que lo lean modelos y agentes. Aun así, sigue una estructura específica que puede ser procesada por herramientas programáticas.
Especificación del archivo llms.txt
Debe estar en la ruta raíz /llms.txt
(o subruta opcional). Contiene las siguientes secciones en orden:
- Un encabezado H1 con el nombre del proyecto o sitio (obligatorio)
- Una cita (blockquote) con un resumen corto del proyecto
- Cero o más secciones Markdown con detalles adicionales
- Cero o más secciones con encabezado H2 que contienen listas de archivos con enlaces y descripciones opcionales
Ejemplo de archivo llms.txt
# Título
> Descripción opcional
Detalles opcionales
## Nombre de sección
- https://url: Detalles opcionales
## Opcional
- https://url
La sección “Opcional” indica que los enlaces allí pueden omitirse si se necesita un contexto más corto.
Estándares existentes
llms.txt
está diseñado para coexistir con estándares web actuales. Mientras que los sitemaps listan todas las páginas, llms.txt
ofrece una vista curada para LLMs. Puede complementar robots.txt
proporcionando contexto sobre el contenido permitido.
Sigue el enfoque de rutas estándar como /robots.txt
y /sitemap.xml
.
robots.txt
indica qué acceso es aceptable para botsllms.txt
se usa bajo demanda cuando un usuario solicita información, como incluir documentación en un proyecto o consultar a un chatbot
Aunque su uso principal es en inferencia, si se vuelve común, podría usarse también en entrenamiento.
sitemap.xml
no sustituye a llms.txt
porque:
- No suele listar versiones legibles por LLMs.
- No incluye URLs externas útiles.
- Cubre documentos demasiado grandes para una ventana de contexto de LLM y con información innecesaria.
Ejemplos de archivos llms.txt
- Anthropic: https://docs.anthropic.com/llms-full.txt
- Hugging Face: https://huggingface-projects-docs-llms-txt.hf.space/accelerate/llms.txt
- Perplexity: https://docs.perplexity.ai/llms-full.txt
- LLMsTxt Manager: https://llmstxtmanager.com/llms.txt
- Zapier: https://docs.zapier.com/llms-full.txt
Información basada en las publicaciones «The /llms.txt file«, «The value of llms.txt: Hype or real?» y Google A2A (Agent2Agent) Protocol High-Level Summary.