AI puede reservar un restaurante o una cita para el cabello, pero no espere una conversación completa Seguro que su asistente de IA puede reservar una cita para usted, pero ¿qué pasa con cualquier conversación significativa? Shutterstock / Bas Nastassia

Google recientemente dio a conocer su última IA parlante, llamada Duplex. Duplex suena como una persona real, completa con pausas, "umms" y "ahhs".

El gigante de la tecnología dice que puede hablar con personas por teléfono para hacer citas y verificar los horarios comerciales.

Duplex programar una cita de peluquería. Google445 KB (Descargar)

En las conversaciones grabadas que se jugaron en la presentación de Google, conversó sin problemas con los humanos en el extremo receptor, que parecían totalmente inconscientes de que no estaban hablando con otra persona.

Duplex llamando a un restaurante. Google399 KB (Descargar)

Estas llamadas salieron del audiencia orientada a la tecnología en el programa de Google jadeando y animando. En un ejemplo, la IA incluso entendió cuándo la persona con la que estaba hablando se confundió, y pudo continuar siguiendo la conversación y responder adecuadamente cuando se le dijo que no necesitaba hacer una reserva.


gráfico de suscripción interior


El ascenso de los asistentes de IA

Si ha utilizado alguno de los asistentes de voz disponibles actualmente, como Google Home, Siri de Apple o Amazon Echo, esta flexibilidad puede sorprenderte. Estos asistentes son notoriamente difícil para usar para cualquier otra cosa que no sean las solicitudes estándar, como llamar a un contacto, reproducir una canción, hacer una simple búsqueda en la web o configurar un recordatorio.

Cuando hablamos con estos asistentes de la generación actual, siempre somos conscientes de que estamos hablando con una IA y, a menudo, adaptamos lo que decimos en consecuencia, de una manera que esperamos maximice nuestras posibilidades de que funcione.

Pero la gente que hablaba con Duplex no tenía idea. Dudaban, retrocedían, saltaban palabras e incluso cambiaban los hechos a la mitad de una oración. Duplex no perdió el ritmo. Realmente parecía entender lo que estaba pasando.


Más información: Los altavoces inteligentes podrían ser el punto de inflexión para la automatización del hogar


Entonces, ¿ha llegado el futuro antes de lo esperado? ¿El mundo está a punto de estar lleno de asistentes de inteligencia artificial en línea (y por teléfono) que conversan alegremente y hacen todo por nosotros? O, lo que es peor, ¿nos rodearán de repente AI inteligentes con sus propios pensamientos e ideas que pueden incluirnos o no a los humanos?

La respuesta es un "no" definitivo. Para entender por qué, es útil echar un vistazo rápido bajo el capó a lo que impulsa una IA como esta.

Duplex: como funciona

Esto es lo que Sistema dúplex AI parece.

El sonido entrante se procesa a través de un sistema ASR. Esto produce texto que se analiza con datos de contexto y otras entradas para producir un texto de respuesta que se lee en voz alta a través del sistema de texto a voz (TTS). Google

El sistema toma "entrada" (que se muestra a la izquierda), que es la voz de la persona con la que está hablando por teléfono. La voz pasa por el reconocimiento automático de voz (ASR) y se convierte en texto (palabras escritas). El ASR es en sí mismo un sistema avanzado de inteligencia artificial, pero de un tipo que ya es de uso común en los asistentes de voz existentes.

Luego se escanea el texto para determinar el tipo de oración que es (como un saludo, una declaración, una pregunta o una instrucción) y extraer cualquier información importante. La información clave se convierte en parte del contexto, que es una entrada adicional que mantiene al sistema actualizado con lo que se ha dicho hasta ahora en la conversación.

El texto de la ASR y el contexto se envía al corazón de Duplex, que se llama una red neuronal artificial (ANN).

En el diagrama anterior, el ANN se muestra mediante los círculos y las líneas que los conectan. Las ANN están modeladas libremente en nuestros cerebros, que tienen miles de millones de neuronas conectadas entre sí en enormes redes.

Todavía no es un cerebro

Sin embargo, los ANN son mucho más simples que nuestros cerebros. Lo único que intenta hacer es hacer coincidir las palabras de entrada con una respuesta adecuada. El ANN aprende al mostrar transcripciones de miles de conversaciones de personas que hacen reservas para restaurantes.

Con suficientes ejemplos, aprende qué tipo de oraciones de entrada esperar de la persona con la que está hablando y qué tipo de respuestas dar a cada una.

La respuesta de texto que genera el ANN luego se envía a un sintetizador de texto a voz (TTS), que lo convierte en palabras habladas que luego se reproducen a la persona en el teléfono.

Una vez más, este sintetizador TTS es una IA avanzada, en este caso es más avanzado que el de su teléfono, porque suena casi indistinguible de cualquier voz normal.

Eso es todo al respecto. A pesar de ser lo último en tecnología, el corazón del sistema es realmente solo un proceso de coincidencia de texto. Pero puede preguntar: si es tan simple, ¿por qué no podríamos hacerlo antes?

Una respuesta aprendida

El hecho es que el lenguaje humano, y la mayoría de las otras cosas en el mundo real, son demasiado variables y desordenadas para que las computadoras normales las manejen bien, pero este tipo de problema es perfecto para la IA.

Tenga en cuenta que la salida producida por la IA depende completamente de las conversaciones que se mostraron mientras estaba aprendiendo.

Esto significa que se deben entrenar diferentes AI para hacer reservas de diferentes tipos, por lo que, por ejemplo, una IA puede reservar restaurantes y otra puede reservar citas para el cabello.

Esto es necesario porque los tipos de preguntas y respuestas pueden variar mucho para los diferentes tipos de reservas. Así es también como Duplex puede ser mucho mejor que los asistentes de voz generales, que necesitan manejar muchos tipos de solicitudes.

Así que ahora debería ser evidente que no vamos a tener conversaciones casuales con nuestros asistentes de IA en el corto plazo. De hecho, todas nuestras IA actuales no son más que patrones de coincidencia (en este caso, patrones de texto coincidentes). No entienden lo que escuchan, o lo que miran, o lo que dicen.

La coincidencia de patrones es una cosa que hacen nuestros cerebros, pero también hacen mucho más. La clave para crear una IA más poderosa puede ser desbloquear más secretos del cerebro. ¿Queremos? Bueno eso es otra pregunta.La conversación

Sobre el Autor

Peter Stratton, investigador postdoctoral investigador, La Universidad de Queensland

Este artículo se republica de La conversación bajo una licencia Creative Commons. Leer el articulo original.