Sindicador de canales de noticias
MagRail technology company targets Indian rail market
Development » Deprecations #2077 (stable)
Development » Ignored Test Scan #2676 (stable)
Development » SpotBugs #2484 (stable)
Sigue abierto el plazo para participar en el 18º Concurso de Relatos Cortos de TMB
El Trambahía redobla su oferta para el Carnaval de Cádiz
Avanza el proceso de puesta en marcha del tranvía de Jaén
Licitadas las obras de supresión de dos pasos a nivel en Humanes, Guadalajara
A licitación dos contratos para transformar la estación de Valladolid-Campo Grande
España insta a Francia a confirmar su compromiso con las conexiones ferroviarias transfronterizas
Licitada la instalación de tecnología más avanzada para gestionar el tráfico de la red convencional en el sur
Nuevo récord anual de los metros y tranvías andaluces, con casi 60 millones de viajeros en 2024
Talgo pierde 108 millones en 2024 tras provisionar la sanción de Renfe, pero alcanza ingresos récord
El PSOE de Jaén afea que el portavoz del PP municipal "recurra a noticias fake" acerca de las inversiones ferroviarias
La reconstrucción del puente de Paiporta de Metrovalencia sobre el barranco del Poyo estará acabada en marzo
Polish high speed train business plan under development
El «valle inquietante» conversacional de la voz artificial también existe, y lo estamos cruzando a pasos agigantados
En su día hablamos del concepto de «valle inquietante» como ese punto en el que un sistema artificial como un robot o una IA nos resultan demasiado humanos cuando somos conscientes de que no lo son. Hoy en día resulta que con los algoritmos conversacionales de voz también se está ya cruzando ese valle. Pero no es ya que puedan simular la voz humana y te engañen en una llamada de telemárketing; es que están yendo varios pasos más allá.
Un grupo llamado Sesame trabaja muy activamente en este tipo de técnicas, las cuales pueden verse en una nota y una demostración que recomiendo probar. Basta conectar unos auriculares y activar el micrófono y ponerse a hablar con Maya o con Miles.
Sesame trabaja buscando una forma de conversar auténtica, haciendo que la IA conteste, interrumpa (poco) y permita interrupciones. Intenta que la latencia (retardo) sea lo más baja posible y es capaz de adaptar el tono: alegre, seria, dicharachera…
En esta búsqueda de la expresividad y la velocidad emplean nuevos modelos y los combinan de diversas maneras, por ejemplo para que el arranque de las respuestas sean más rápidos. También tiene que analizar lo que la persona está diciendo, y no solo el texto, sino el contexto. Las claves que analiza son, según sus creadores:
- Inteligencia emocional: comprende y responde a emociones.
- Dinámicas conversacionales: gestiona pausas, interrupciones y énfasis.
- Conciencia contextual: adapta tono y estilo a cada situación.
- Personalidad coherente: mantiene un comportamiento estable y confiable.
Según las evaluaciones que han realizado actualmente están en «niveles casi humanos de calidad». Si se le puede hacer alguna crítica es que todavía le falta un poco prosodia (pausas, división de palabras en sílabas, acentuación…), algo de continuidad y que no es tan ágil y fluida como una persona en respuestas rápidas (por ejemplo en lo que sería una discusión rápida y acalorada). Para compensarlo, es capaz de distinguir varias voces de un grupo y filtra bastante bien el ruido.
Por cierto que todo este trabajo de Sesame se liberará como software libre en Github: A Conversational Speech Generation Model.
A mi la demo me ha impresionado gratamente. Felicidades al equipo creador de esta interesante IA.
§
A todo esto, alguien debería ir pensando seriamente en hacer alguna normativa que exija que las IAs que se comuniquen verbalmente de esta forma se identifiquen como tales al principio de la conversación.
Relacionado:
- El valle inquietante de la mente
- El valle inquietante, versión cinematográfica «Fin del mundo»
- Este robot no es que te mire mal, es que resulta inquietantemente realista por su mirada