llms.txt: Un nuevo estándar de accesibilidad para LLMs

llms.txt: Un nuevo estándar de accesibilidad para LLMs

Si has estado siguiendo las tendencias de la IA, probablemente hayas oído hablar de llms.txt. Voy a explicarte porqué lo deberías usar.

Este nuevo estándar para hacer que el contenido web sea más accesible para los modelos de lenguaje grande (LLMs) ha ganado popularidad en 2025.

Pero como ocurre con cualquier tecnología emergente de IA, surge la pregunta de si aporta valor o es una moda.

En septiembre de 2024, Jeremy Howard, cofundador de Answer.AI, propuso el formato de archivo /llms.txt como una forma estandarizada para que los sitios web proporcionen información clave a los modelos de lenguaje (LLMs). Este archivo, basado en Markdown, resume el contenido de un sitio en un formato conciso y estructurado, evitando que los LLMs tengan que analizar HTML complejo, anuncios o JavaScript.

Al adoptar este estándar, estamos dando un paso hacia un futuro en el que cada empresa proporcione dos versiones de su documentación: una para humanos y otra para LLMs.

Entendiendo el escepticismo

Algunos críticos cuestionan si llms.txt realmente mejora la recuperación y precisión de la IA o aumenta el tráfico. Mencionan que no hay un compromiso universal por parte de todos los proveedores de LLM para analizar llms.txt, y sugieren que seguir principios generales de SEO, como tener un sitemap, es suficiente.

El SEO es muy diferente de la optimización para LLM

La primera idea errónea es que las prácticas tradicionales de SEO son suficientes para el descubrimiento impulsado por IA. Los datos cuentan otra historia:

  • Vercel informa que el 10% de sus registros ahora provienen de ChatGPT como resultado de esfuerzos GEO calculados (no SEO).
  • Google —quien definió la era moderna del SEO— incluyó un archivo llms.txt en su nuevo protocolo Agents to Agents (A2A).
  • Los LLMs tienen necesidades fundamentalmente diferentes a los motores de búsqueda tradicionales. Se benefician de la claridad, el contexto y la estructura de formas que el buscador convencional no requiere.

Los archivos de texto simplificados mejoran la recuperación de IA

Dado cómo funcionan los LLMs, tener archivos de texto estructurados y simplificados es fundamentalmente beneficioso:

  • Una estructura más clara significa menos tokens, respuestas más rápidas y menores costes.
  • El formato más simple reduce el esfuerzo computacional necesario para que los LLMs extraigan significado de tu contenido.
  • Empresas como Windsurf han destacado que llms.txt ahorra tiempo y tokens cuando los agentes no necesitan analizar HTML complejo.

Los principales proveedores de LLM están comprometidos con llms.txt

La evidencia más crítica del valor de llms.txt proviene de los propios líderes de la industria.

Anthropic, creador de Claude, implementó llms.txt y llms-full.txt en su documentación, demostrando un compromiso claro con estos estándares por parte de una de las principales empresas de IA.

Esto no es solo evidencia anecdótica. Profound, una empresa especializada en el seguimiento de métricas GEO, ha recopilado datos que muestran que modelos de Microsoft, OpenAI y otros están rastreando e indexando activamente archivos llms.txt y llms-full.txt.

Cuando las empresas que construyen los principales LLMs están implementando activamente estos estándares, es una señal de su impacto más allá de los argumentos teóricos.

Los datos de Profound confirman que esto no se trata solo de seguir una tendencia, sino de mejoras medibles en cómo los sistemas de IA interactúan con tu contenido.

El auge de llms-full.txt

Curiosamente los LLMs están accediendo a llms-full.txt incluso más que al original llms.txt.

Mientras que llms.txt enumera qué páginas rastrear, llms-full.txt es un único archivo Markdown que contiene el texto completo de tu sitio, diseñado para una ingesta más simple y rápida.

 llms-full.txt se desarrollo por Mintlify en colaboración con Anthropic, quien necesitaba una forma más limpia de alimentar toda su documentación a los LLMs sin analizar HTML. Tras ver su impacto, lo implementamos para todos los clientes y fue adoptado oficialmente en el estándar de llmstxt.org.

En resumen: funciona.

Preparando tu contenido para el futuro

Hoy, ser accesible para los LLMs te da una ventaja competitiva. Pronto, será un requisito básico.

Estos estándares representan un cambio fundamental en cómo pensamos sobre la accesibilidad del contenido. Tu audiencia ahora incluye tanto a LLMs como a humanos, y optimizar para la IA no se trata de engañar al sistema, sino de asegurar que tu contenido esté representado con precisión.

Las mejores prácticas emergentes generalmente implican algún tipo de simplificación a Markdown, como llms.txt o llms-full.txt, pero también puede incluir otros métodos como proporcionar páginas individuales en Markdown para facilitar la ingesta por parte de los LLMs.

Considera no solo cómo la IA indexa tu contenido, sino cómo los usuarios interactuarán a través de interfaces de IA. A medida que las personas cambian a flujos de trabajo centrados en IA, es más importante que nunca que tu sitio web o documentación sea fácil de consultar en cualquier LLM.

El archivo /llms.txt

Los modelos de lenguaje grande dependen cada vez más de la información de sitios web, pero enfrentan una limitación crítica: las ventanas de contexto son demasiado pequeñas para manejar sitios completos. Convertir páginas HTML complejas con navegación, anuncios y JavaScript en texto plano amigable para LLMs es difícil e impreciso.

Aunque los sitios web sirven tanto a lectores humanos como a LLMs, estos últimos se benefician de información más concisa y especializada reunida en un solo lugar accesible. Esto es especialmente importante en entornos de desarrollo, donde los LLMs necesitan acceso rápido a documentación y APIs.

Se propone agregar un archivo Markdown /llms.txt a los sitios web para ofrecer contenido amigable para LLMs. Este archivo proporciona información de contexto, orientación y enlaces a archivos Markdown detallados.

El formato es legible tanto para humanos como para LLMs, pero también está estructurado de forma precisa para permitir procesamiento mediante técnicas clásicas (como parsers y expresiones regulares).

Además, se propone que las páginas con información útil para LLMs ofrezcan una versión Markdown limpia en la misma URL que la original, pero con .md añadido (o index.html.md si no hay nombre de archivo).

Formato

El formato más ampliamente comprendido por los LLMs es Markdown. Mostrar dónde están los archivos clave en Markdown es un buen primer paso. Una estructura básica ayuda a los modelos a encontrar la información necesaria.

El archivo llms.txt usa Markdown en lugar de XML porque se espera que lo lean modelos y agentes. Aun así, sigue una estructura específica que puede ser procesada por herramientas programáticas.

Especificación del archivo llms.txt

Debe estar en la ruta raíz /llms.txt (o subruta opcional). Contiene las siguientes secciones en orden:

  1. Un encabezado H1 con el nombre del proyecto o sitio (obligatorio)
  2. Una cita (blockquote) con un resumen corto del proyecto
  3. Cero o más secciones Markdown con detalles adicionales
  4. Cero o más secciones con encabezado H2 que contienen listas de archivos con enlaces y descripciones opcionales

Ejemplo de archivo llms.txt

# Título

> Descripción opcional

Detalles opcionales

## Nombre de sección

- https://url: Detalles opcionales

## Opcional

- https://url

La sección “Opcional” indica que los enlaces allí pueden omitirse si se necesita un contexto más corto.

Estándares existentes

llms.txt está diseñado para coexistir con estándares web actuales. Mientras que los sitemaps listan todas las páginas, llms.txt ofrece una vista curada para LLMs. Puede complementar robots.txt proporcionando contexto sobre el contenido permitido.

Sigue el enfoque de rutas estándar como /robots.txt y /sitemap.xml.

  • robots.txt indica qué acceso es aceptable para bots
  • llms.txt se usa bajo demanda cuando un usuario solicita información, como incluir documentación en un proyecto o consultar a un chatbot

Aunque su uso principal es en inferencia, si se vuelve común, podría usarse también en entrenamiento.

sitemap.xml no sustituye a llms.txt porque:

  • No suele listar versiones legibles por LLMs.
  • No incluye URLs externas útiles.
  • Cubre documentos demasiado grandes para una ventana de contexto de LLM y con información innecesaria.

Ejemplos de archivos llms.txt

¿Quieres saber más sobre las soluciones de inteligencia artificial generativa de Microsoft? En DQS/ te asesoramos. ¿Por qué no nos preguntas cómo podemos ayudarte?

Información basada en las publicaciones «The /llms.txt file«, «The value of llms.txt: Hype or real?» y Google A2A (Agent2Agent) Protocol High-Level Summary.

Publicaciones Similares

¿Te ha parecido interesante? ¿Tienes dudas sobre el contenido?
Para cualquier pregunta ponte en contacto conmigo.