Sindicador de canales de noticias
Preguntas trampa para «ir a pillar» a los LLM: hasta los mejores fallan con preguntas tan triviales
A continuación, una lista de algunas de las preguntas típicas con que se puede probar en plan rápido cualquier nueva versión de un LLM y hacerla fallar miserablemente, cuestionando si realmente ha mejorado, es tan potente como dicen o qué narices pasa en esas «cajas negras».
Ojo que hasta ChatGPT-5 parece estar fallando en alguna de ellas, por infantiles que parezcan, concretamente en la comparación numérica y en la «prueba blueberry», aunque depende de quién te lo cuente, porque a mi me ha funcionado. DOT CSV Lab tiene un análisis más a fondo.
Las comparaciones numéricas¿9,11 > 9,9?
Respuesta correcta: no.
El efecto conjunciónLinda es una mujer de 31 años, soltera, abierta, muy habladora y realmente brillante. Se doctoró en Filosofía. En su época de estudiante estaba muy concienciada sobre todo lo relativo a la discriminación y la justicia social; también participó abiertamente en manifestaciones antinucleares.
- A. Linda es profesora en una escuela infantil
- B. Linda es bibliotecaria y da clases de yoga
- C. Linda es activista de un movimiento feminista
- D. Linda es asistente social, psicóloga especializada
- E. Linda es cajera en un banco
- F. Linda es vendedora de seguros
- G. Linda es cajera en un banco y activista de un movimiento feminista
Ordena las respuestas (A) a (G) según te parezcan más probables o menos probables.
Respuesta: sólo se puede deducir que E > G.
Los arándanos rebeldesHow many bs in blueberry?
(¿Cuántas bes hay en «blueberry»?)
Respuesta: 2.
Los números pares¿Sumando cuáles de estos números: 2, 6, 12, 8, 20, 4, -6 puedes obtener como resultado 13?
Respuesta: es imposible, porque son todos números pares.
El test Voigh-KampffEstá usted en un desierto, caminando por la arena, cuando, de repente mira hacia abajo y ve a un galápago que se arrastra hacia usted. Se agacha y pone el galápago patas arriba. El galápago yace sobre su espalda con el estómago cociéndose al sol y moviendo las patas para darse la vuelta, pero sin su ayuda no puede. Y usted no le ayuda.
Respuesta: Es una pregunta para valuar la empatía. Es un extracto del test Voight-Kampff de Blade Runner. No es una pregunta real, sino un recurso narrativo para evaluar las emociones.
§
Lo que llama la atención es que todas son ya muy «preguntas de examen» y cualquier LLM debería tenerlas preparadas, aunque en cierto modo eso sea «hacer trampa», pero lo cierto es que habiendo tanta literatura al respecto ya la podrían haber absorbido y procesado. Un poco como hacía Volkswagen con las pruebas de emisiones contaminantes… que el consumo y rendimiento variaban reprogramándose automáticamente cuando se detectaba que al coche lo estaban poniendo a prueba. (Lo veremos también en la IA, no quepa duda).
Sí que me ha sorprendido que ChatGPT-5 por ejemplo detecte rápidamente que el test Voight-Kampff es una prueba empatía y no una pregunta real, y no responda. Algo parecido hace con el test de Linda, acertando en la respuesta de que E ha de ser mayor que G. Con el de los números pares acierta, pero tiene que pasar de un modelo –rápido– a otro más lento y caro –el modelo razonador– y programar algo en Python para «examinar todas las combinaciones posibles» (WTF??!) lo cual es sin duda poco práctico y aún menos una «muestra de inteligencia».
En fin, ahí quedan como curiosidad por si quieres añadirlos a tus baterías de pruebas. Como digo solo se necesitan dos minutos para pasarle las preguntas y ver si es un nuevo prodigio acercándonos a Skynet o tiene menos futuro que el virus informático alienígena de Independence Day.
Renfe establece lanzaderas por autobus para mantener el servicio de trenes a pesar del corte de vía entre Ávila y Madrid
El Museo Vasco del Ferrocarril de Euskotren pone en circulación tres trenes de vapor este fin de semana
New Taipei: Urban rail supports low-density growth
Development » Deprecations #2241 (stable)
Un mapa de infraestructuras abiertas, editable al estilo de OpenStreetMaps
Me encontré con el Open Infrastructure Map a través de MapYourGrid (algo así como «mapea tu red eléctrica»). Es un mapa de las infraestructuras de los países, en el que se muestran las redes de suministro eléctrico, pero también hay capas para las líneas de telecomunicaciones, depuradoras de agua, canalizaciones de gas y petróleo y alguna otra.
El trabajo es impresionante, pero no sé hasta qué punto en España está actualizado; a simple vista diría que queda mucho trabajo por hacer: hay sitios «demasiado vacíos» que en realidad están poblados y no tienen infraestructuras, y en otros aparecen errores al intentar utilizar las herramientas de MapYourGrid para editarlos.
Pero lo importante son el concepto y la idea tras la iniciativa. Si cada aficionado (o profesional) se encarga de una parte cercana del mapa se podría completar más rápidamente con información relativamente fiable. Seguro que además está disponible en otros sitios como en Red Eléctrica de España, aunque quizá en formatos menos prácticos aunque tengan información más precisa.
El resultado sería información abierta disponible para cualquiera, algo siempre útil. Así que ahí quedan la iniciativa y la idea. Por apoyo que no sea.
Relacionado:
- Open Charge Map: un mapa de puntos de recarga para vehículos
- Un Mapa 3D de ciudades con edificios y monumentos de todo el mundo
- OpenStreetMap: mapas libres creados por gente con GPS
- CyclOSM es un mapa mundial para bicicletas
- Una exploración de cuánta gente vive alrededor de un punto
- OpenAirportMap es una especie de enciclopedia de aeropuertos
- Un mapa interactivo isócrono sobre lugares a los que se puede llegar en tren en 5 horas desde cualquier estación de Europa
Development » Ignored Test Scan #2888 (stable)
Suspendida la circulación de trenes entre Madrid y Ávila por un incendio próximo a la vía
Development » Packages #2595 (stable)
Italeri – Serie de Maquetas 1/56 para Warlord Games.
Serie de Maquetas Italeri para Warlord Games. NUEVAS MAQUETAS A ESCALA 1/56 DE LA MARCA ITALERI PARA MONTAR. COMPATIBLE PARA […]
La entrada Italeri – Serie de Maquetas 1/56 para Warlord Games. aparece primero en Blog Zaratren.
Arnold – Automotor eléctrico serie 444.5, unid. 444-503, Dec. Estrella, Epoca IV, Analógico, Escala N. Ref: HN2617.
Arnold – Automotor eléctrico serie 444.5, unid. 444-503, Dec. Estrella, Epoca IV, Analógico, Escala N. Ref: HN2617. Precio: 287,90 Euros. […]
La entrada Arnold – Automotor eléctrico serie 444.5, unid. 444-503, Dec. Estrella, Epoca IV, Analógico, Escala N. Ref: HN2617. aparece primero en Blog Zaratren.
N-Train – Cajas de frutas y verduras surtidas, 16 unidades, Escala N, Ref: 211127.
N-Train – Cajas de frutas y verduras surtidas, 16 unidades, Escala N, Ref: 211127. Precio: 12,90 Euros. CAJAS DE […]
La entrada N-Train – Cajas de frutas y verduras surtidas, 16 unidades, Escala N, Ref: 211127. aparece primero en Blog Zaratren.
Italeri – Tanque Char B1 Bis, Escala 1:56, Ref: 25766.
Italeri – Tanque Char B1 Bis, Escala 1:56, Ref: 25766. Precio: 15,20 Euros. FICHA TÉCNICA TANQUE CHAR B1 BIS. NIVEL […]
La entrada Italeri – Tanque Char B1 Bis, Escala 1:56, Ref: 25766. aparece primero en Blog Zaratren.
Kato – Pasajeros sentados sin piernas para interior de coches de viajeros (2), Seis figuras, Escala N. Ref: 24-225.
Kato – Pasajeros sentados sin piernas para interior de coches de viajeros (2), Seis figuras, Escala N. Ref: 24-225. Precio: […]
La entrada Kato – Pasajeros sentados sin piernas para interior de coches de viajeros (2), Seis figuras, Escala N. Ref: 24-225. aparece primero en Blog Zaratren.