Sindicador de canales de noticias
Development » SpotBugs #2866 (stable)
Casi 93.000 personas visitaron la exposición de trenes históricos restaurados de Metro de Barcelona
FGC incrementa la oferta y ajusta horarios en la línea LleidaLa Pobla de Segur
Modificación del servicio en hora punta de la línea Llobregat-Anoia de FGC
Nuevo sistema embarcado de medición de vías vmRail
Comienzan las obras de conexión del Metro de Granada con la prolongación Sur en Armilla
Las obras del nuevo acceso ferroviario al aeropuerto de Barcelona-El Prat encaran la recta final
La alta velocidad, el servicio mejor valorado por los usuarios
Inversión de 13,2 millones para completar la construcción del nuevo cambiador de ancho de Vila-seca
Licitada la renovación de espacios en las bases de mantenimiento de Renfe Ingeniería
Avances en el proyecto de metro ligero LRT4 de Abu Dhabi, en Emiratos Árabes Unidos
Development » Packages #2909 (stable)
Consortium selected to supply driverless suburban trains for København
LLMs.txt es como el robots.txt pero para que los modelos de IA puedan leer cualquier web sin dramas
LLMs.txt es, según indica la propia página que lo define, «como el robots.txt de los sistemas de IA». Dicen sus creadores que a día de hoy las más grandes empresas del ramo, como OpenAI, Anthropic, Google, Apple y Perplexity, ya lo respetan. Minipunto ahí para ellos. LLMs.txt surgió en 2023 y, tras un lento arranque, en enero de 2025 ya había más de 2.000 sitios web relevantes usándolo.
La explicación larga de la iniciativa lo define así:
El LLMs.txt es un formato de archivo estandarizado que permite a los propietarios de sitios web comunicar sus políticas de entrenamiento y uso de contenidos a los rastreadores de IA, a los modelos lingüísticos y a los motores de búsqueda basados en IA.En la práctica el LLMs.txt es un archivo de texto fácilmente legible también por humanos, que se supone que los robots y arañas (bots, spiders y a veces scrapers) leerán y respetarán antes de engullir todo el contenido de una web.
Al igual que en el robots.txt, en el LLMs.txt se pueden indicar zonas prohibidas («no leer»), si el contenido se puede usar para entrenamiento de los modelos, de forma comercial, si hay que citar la fuente, si se puede modificar el contenido, redistribuirlo o recolectar otros datos.
Pero, ¡ojo, cuidao! que nada de esto es obligatorio para los bots: es una recomendación, petición de cortesía y algo voluntario que pueden respetar (o no) quienes los lanzan libremente a la red.
El contenido del LLMs.txt incluye ciertas pistas para «ayudar» a los modelos: cuáles son las páginas más importantes (como el Acerca de, la página de Privacidad, Términos y Condiciones, las Noticias, Artículos y otra Documentación, por encima quizá de páginas intermedias o secundarias. Suena un poco a SEO, pero no es la idea. Simplemente es algo importante teniendo en cuenta que, según la organización, alrededor del 40% de las búsquedas en internet ya comienzan en herramientas conversacionales y los resúmenes automáticos aparecen en hasta el 60% de los resultados.
Una de las principales quejas de mucha gente ha sido que los LLMs han lanzado a sus bots a rastrear y deglutir toda la web sin criterio, aviso previo y sin el más mínimo cuidado, saturando en muchas ocasiones a pequeños servidores. Para evitarlo, el LLMs.txt incluye el campo Crawl‑delay: s, donde se puede indicar, en segundos, cuánto tiempo debería esperar el rastreador antes de solicitar otra página. Ojo de nuevo: que es una petición de cortesía, y no siempre se va a respetar, pero si alguien ve que su servidor cae arrodillado ante un bot de estos, tal vez definiendo un valor entre 1 y 5 segundos puede hacer que la cosa mejore.
A Enrique Dans, que es a través de quien llegué a esto, le parece una idea sensata y de bajo coste para guiar a los sistemas basados en IA hacia el contenido relevante, reduciendo el ruido, los errores de contexto y algunas malas atribuciones, especialmente en sitios grandes. Él ya tiene un LLMs.txt montado y nosotros haremos próximamente otro tanto, en cuanto tengamos un rato. Ya que hay mucho bot de IA por ahí suelto, mejor llevarse bien con ellos (alabado sea Roko).
(Vía Enrique Dans.)





