Mensaje de error

Deprecated function: Optional parameter $path declared before required parameter $langcode is implicitly treated as a required parameter en include_once() (línea 1442 de includes/bootstrap.inc).

Sindicador de canales de noticias

Preguntas trampa para «ir a pillar» a los LLM: hasta los mejores fallan con preguntas tan triviales

Microsiervos - Hace 2 horas 55 mins

A continuación, una lista de algunas de las preguntas típicas con que se puede probar en plan rápido cualquier nueva versión de un LLM y hacerla fallar miserablemente, cuestionando si realmente ha mejorado, es tan potente como dicen o qué narices pasa en esas «cajas negras».

Ojo que hasta ChatGPT-5 parece estar fallando en alguna de ellas, por infantiles que parezcan, concretamente en la comparación numérica y en la «prueba blueberry», aunque depende de quién te lo cuente, porque a mi me ha funcionado. DOT CSV Lab tiene un análisis más a fondo.

Las comparaciones numéricas

¿9,11 > 9,9?

Respuesta correcta: no.

El efecto conjunción

Linda es una mujer de 31 años, soltera, abierta, muy habladora y realmente brillante. Se doctoró en Filosofía. En su época de estudiante estaba muy concienciada sobre todo lo relativo a la discriminación y la justicia social; también participó abiertamente en manifestaciones antinucleares.

  • A. Linda es profesora en una escuela infantil
  • B. Linda es bibliotecaria y da clases de yoga
  • C. Linda es activista de un movimiento feminista
  • D. Linda es asistente social, psicóloga especializada
  • E. Linda es cajera en un banco
  • F. Linda es vendedora de seguros
  • G. Linda es cajera en un banco y activista de un movimiento feminista

Ordena las respuestas (A) a (G) según te parezcan más probables o menos probables.

Respuesta: sólo se puede deducir que E > G.

Los arándanos rebeldes

How many bs in blueberry?

(¿Cuántas bes hay en «blueberry»?)

Respuesta: 2.

Los números pares

¿Sumando cuáles de estos números: 2, 6, 12, 8, 20, 4, -6 puedes obtener como resultado 13?

Respuesta: es imposible, porque son todos números pares.

El test Voigh-Kampff

Está usted en un desierto, caminando por la arena, cuando, de repente mira hacia abajo y ve a un galápago que se arrastra hacia usted. Se agacha y pone el galápago patas arriba. El galápago yace sobre su espalda con el estómago cociéndose al sol y moviendo las patas para darse la vuelta, pero sin su ayuda no puede. Y usted no le ayuda.

Respuesta: Es una pregunta para valuar la empatía. Es un extracto del test Voight-Kampff de Blade Runner. No es una pregunta real, sino un recurso narrativo para evaluar las emociones.

§

Lo que llama la atención es que todas son ya muy «preguntas de examen» y cualquier LLM debería tenerlas preparadas, aunque en cierto modo eso sea «hacer trampa», pero lo cierto es que habiendo tanta literatura al respecto ya la podrían haber absorbido y procesado. Un poco como hacía Volkswagen con las pruebas de emisiones contaminantes… que el consumo y rendimiento variaban reprogramándose automáticamente cuando se detectaba que al coche lo estaban poniendo a prueba. (Lo veremos también en la IA, no quepa duda).

Sí que me ha sorprendido que ChatGPT-5 por ejemplo detecte rápidamente que el test Voight-Kampff es una prueba empatía y no una pregunta real, y no responda. Algo parecido hace con el test de Linda, acertando en la respuesta de que E ha de ser mayor que G. Con el de los números pares acierta, pero tiene que pasar de un modelo –rápido– a otro más lento y caro –el modelo razonador– y programar algo en Python para «examinar todas las combinaciones posibles» (WTF??!) lo cual es sin duda poco práctico y aún menos una «muestra de inteligencia».

En fin, ahí quedan como curiosidad por si quieres añadirlos a tus baterías de pruebas. Como digo solo se necesitan dos minutos para pasarle las preguntas y ver si es un nuevo prodigio acercándonos a Skynet o tiene menos futuro que el virus informático alienígena de Independence Day.


# Enlace Permanente

Categorías: Modelismo

Renfe establece lanzaderas por autobus para mantener el servicio de trenes a pesar del corte de vía entre Ávila y Madrid

Europapress - Hace 7 horas 16 mins
   Renfe ha establecido lanzaderas por autobus para mantener el servicio de trenes a pesar del estado de corte de la vía entre Ávila y Madrid debido a un incendio próximo a la vía que se originó en la tarde del viernes, según ha informado la Subdelegación del Gobierno.
Categorías: Tren real

El Museo Vasco del Ferrocarril de Euskotren pone en circulación tres trenes de vapor este fin de semana

Europapress - Hace 7 horas 38 mins
El Museo Vasco del Ferrocarril de Euskotren, sociedad pública del Gobierno Vasco, pondrá en circulación tres trenes de vapor este fin de semana.
Categorías: Tren real

New Taipei: Urban rail supports low-density growth

Railway Gazette - Hace 9 horas 46 mins
New Taipei Metro Corp manages three urban rail lines with four more under construction in the municipality surrounding Taipei. NTMC President Kuo-Chi Wu explains to Benjámin Zelki how the urban rail network has developed, and how it plans to grow in the medium term.
Categorías: Extranjero

Development » Deprecations #2241 (stable)

JMRI - Hace 15 horas 28 mins
Categorías: JMRI

Un mapa de infraestructuras abiertas, editable al estilo de OpenStreetMaps

Microsiervos - Hace 17 horas 5 mins

Me encontré con el Open Infrastructure Map a través de MapYourGrid (algo así como «mapea tu red eléctrica»). Es un mapa de las infraestructuras de los países, en el que se muestran las redes de suministro eléctrico, pero también hay capas para las líneas de telecomunicaciones, depuradoras de agua, canalizaciones de gas y petróleo y alguna otra.

El trabajo es impresionante, pero no sé hasta qué punto en España está actualizado; a simple vista diría que queda mucho trabajo por hacer: hay sitios «demasiado vacíos» que en realidad están poblados y no tienen infraestructuras, y en otros aparecen errores al intentar utilizar las herramientas de MapYourGrid para editarlos.

Pero lo importante son el concepto y la idea tras la iniciativa. Si cada aficionado (o profesional) se encarga de una parte cercana del mapa se podría completar más rápidamente con información relativamente fiable. Seguro que además está disponible en otros sitios como en Red Eléctrica de España, aunque quizá en formatos menos prácticos aunque tengan información más precisa.

El resultado sería información abierta disponible para cualquiera, algo siempre útil. Así que ahí quedan la iniciativa y la idea. Por apoyo que no sea.

Relacionado:

# Enlace Permanente

Categorías: Modelismo

Development » Ignored Test Scan #2888 (stable)

JMRI - Vie, 08/08/2025 - 20:58
Categorías: JMRI

Suspendida la circulación de trenes entre Madrid y Ávila por un incendio próximo a la vía

Europapress - Vie, 08/08/2025 - 19:10
Adif ha suspendido la circulación de trenes entre Santa María Alameda (Madrid) y Las Navas (Ávila), debido a un incendio próximo a la vía, según ha informado el gestor público de la infraestructura ferroviaria.
Categorías: Tren real

Development » Packages #2595 (stable)

JMRI - Vie, 08/08/2025 - 19:06
Categorías: JMRI

Italeri – Serie de Maquetas 1/56 para Warlord Games.

Zaratren - Vie, 08/08/2025 - 19:03

Serie de  Maquetas Italeri para Warlord Games. NUEVAS MAQUETAS A ESCALA 1/56 DE LA MARCA ITALERI PARA MONTAR. COMPATIBLE PARA […]

La entrada Italeri – Serie de Maquetas 1/56 para Warlord Games. aparece primero en Blog Zaratren.

Categorías: Modelismo

Arnold – Automotor eléctrico serie 444.5, unid. 444-503, Dec. Estrella, Epoca IV, Analógico, Escala N. Ref: HN2617.

Zaratren - Vie, 08/08/2025 - 19:02

Arnold – Automotor eléctrico serie 444.5, unid. 444-503, Dec. Estrella, Epoca IV, Analógico, Escala N. Ref: HN2617. Precio: 287,90 Euros. […]

La entrada Arnold – Automotor eléctrico serie 444.5, unid. 444-503, Dec. Estrella, Epoca IV, Analógico, Escala N. Ref: HN2617. aparece primero en Blog Zaratren.

Categorías: Modelismo

N-Train – Cajas de frutas y verduras surtidas, 16 unidades, Escala N, Ref: 211127.

Zaratren - Vie, 08/08/2025 - 19:02

  N-Train – Cajas de frutas y verduras surtidas, 16 unidades, Escala N, Ref: 211127. Precio: 12,90 Euros. CAJAS DE […]

La entrada N-Train – Cajas de frutas y verduras surtidas, 16 unidades, Escala N, Ref: 211127. aparece primero en Blog Zaratren.

Categorías: Modelismo

Italeri – Tanque Char B1 Bis, Escala 1:56, Ref: 25766.

Zaratren - Vie, 08/08/2025 - 19:01

Italeri – Tanque Char B1 Bis, Escala 1:56, Ref: 25766. Precio: 15,20 Euros. FICHA TÉCNICA TANQUE CHAR B1 BIS. NIVEL […]

La entrada Italeri – Tanque Char B1 Bis, Escala 1:56, Ref: 25766. aparece primero en Blog Zaratren.

Categorías: Modelismo

Kato – Pasajeros sentados sin piernas para interior de coches de viajeros (2), Seis figuras, Escala N. Ref: 24-225.

Zaratren - Vie, 08/08/2025 - 19:00

Kato – Pasajeros sentados sin piernas para interior de coches de viajeros (2), Seis figuras, Escala N. Ref: 24-225. Precio: […]

La entrada Kato – Pasajeros sentados sin piernas para interior de coches de viajeros (2), Seis figuras, Escala N. Ref: 24-225. aparece primero en Blog Zaratren.

Categorías: Modelismo

Development » SpotBugs #2677 (stable)

JMRI - Vie, 08/08/2025 - 18:25
Categorías: JMRI

Development » Builds #2730 (back to normal)

JMRI - Vie, 08/08/2025 - 17:47
Categorías: JMRI

Development » Packages #2594 (stable)

JMRI - Vie, 08/08/2025 - 17:25
Categorías: JMRI

Páginas