Talk To Me Computer: el control de voz está despegando

Si los paquetes inesperados comienzan a aparecer en su puerta, es posible que desee tener una palabra con uno de sus dispositivos inteligentes.

A principios de este mes, una niña de seis años de Dallas le preguntó a su familia Amazon Echo altavoz inteligente para una casa de muñecas. Y Alexa, la asistente artificial tipo Siri de Amazon, puntualmente ordenó uno a su casa.

Un noticiario de televisión de San Diego retomó la historia y la repitió inadvertidamente cuando uno de los presentadores de noticias comentó: "Amo a la niña, diciendo 'Alexa pídame una casa de muñecas'." Al escuchar esto, varios otros dispositivos de Amazon en hogares de todo San Diego intentado comprar más casas de muñecas.

CW6 Informe de noticias de San Diego sobre la compra accidental de casa de muñecas de Alexa.

{youtube}oI2KLIULjXc{/youtube}

La historia puede sonar tristemente familiar para cualquiera que haya intentado tener una conversación con Siri de Apple o Cortana de Microsoft. Nuestros dispositivos se han vuelto bastante buenos para escucharnos, pero eso no siempre significa que ellos entiendan.

Investigadores de Microsoft identificaron recientemente esto como un problema potencial con las interfaces parlantes de hoy en día: se comercializan como asistentes "inteligentes", con chistes ingeniosos y conocimiento mundano, pero a menudo nos frustran por su falta de sentido común.


gráfico de suscripción interior


En un pequeño estudio, los investigadores encontraron que las personas que continuaron hablando con sus asistentes digitales a lo largo del tiempo fueron aquellos que habían comenzado con las expectativas más bajas.

¿Qué hace una interfaz de voz realmente?

Cuando hablas con una interfaz de voz, tiene que:

  • "Escucha" el sonido de tu voz y la distingue del ruido de fondo
  • averiguar dónde comienza y termina cada palabra, ignorando tus "umms" y "ahhs"
  • relacione el sonido de cada palabra con una palabra en el diccionario, seleccionando la correcta del contexto si hay homófonos
  • interpretar correctamente el significado de la oración completa
  • generar una respuesta significativa y útil que coincida con su solicitud.

Cada uno de estos es un desafío técnico complejo, y las diferentes compañías de tecnología han progresado en diferentes áreas.

Google Now es bueno para dar respuestas relevantes a una amplia gama de solicitudes porque se beneficia de la gran cantidad de datos de Google sobre la web y sus actividades personales, si utiliza los servicios de Google.

Amazon Echo es particularmente bueno para escuchar sus solicitudes desde una habitación ruidosa, gracias a una matriz de micrófonos de campo lejano con cancelación de ruido. Por supuesto, también es bueno para hacer compras a través de Amazon.

En los últimos años, las interfaces de voz se han vuelto mucho mejores para entender el habla cotidiana o "natural" en lugar de solo comandos forzados y minuciosamente redactados. Todavía son mejores en el manejo de consultas simples, como "¿quién juega en el Abierto de Australia?", Y tienden a tener dificultades con las solicitudes más complicadas, como "¿quién juega en el Abierto de Australia por primera vez este año?", Y el seguimiento preguntas, como "¿lloverá durante las finales?".

La situación es aún más variada para otros idiomas además del inglés: mientras que Siri admite más de 40 y dialectos, hasta el momento Alexa solo está disponible en inglés y alemán. Pero todas estas características están mejorando constantemente.

Donde las interfaces de voz tartamudean

Entonces, las interfaces de voz pronto se harán cargo de toda nuestra tecnología, como se predijo en la película Sus libros introductorios a las enseñanzas? Gartner, una firma de investigación tecnológica, ha pronosticado para el próximo año, 30% de nuestras interacciones con la tecnología serán conversaciones con interfaces habilitadas para voz.

Pero las interfaces de voz tienen limitaciones, y no todas pueden resolverse con una mejor tecnología.

La voz es un medio central de interacción con la tecnología en la película de Spike Jonze.

{youtube}ne6p6MfLBxc{/youtube}

La contaminación acústica es uno de los principales obstáculos. ¿Puede su dispositivo distinguir lo que está diciendo del ruido de fondo que lo rodea? La tecnología puede ayudar con eso, incluida la reducción de ruido, el reconocimiento de voz personalizado y la lectura de labios.

Pero, ¿qué pasa con el ruido de fondo que está creando para los demás al hablar con su dispositivo inteligente? Imagine a una persona sentada a su lado en la oficina, o en un avión, conversando con Siri mientras intenta leer, y puede ver por qué las interfaces de voz no siempre son socialmente aceptables.

Otro conjunto de problemas proviene de las demandas mentales de las interfaces de voz. Aprender a usar un sistema basado en voz puede ser difícil, especialmente si no hay pantalla, como con Amazon Echo.

Si alguna vez llamó a un banco o una compañía telefónica, conoce la miserable combinación de concentración y aburrimiento que surge de escuchar una lista de voces sintetizadas, todas sus opciones mientras espera la que necesita y trata de no mezclarlas arriba. Las interfaces gráficas tradicionales evitan este problema mostrándole las opciones disponibles y permitiéndole seleccionar rápidamente su elección.

Después de haber aprendido los comandos de voz, usarlos puede ser una distracción. Los investigadores encontraron que los comandos de voz descarrilar su tren de pensamiento más que un mouse y un teclado.

Esto es particularmente peligroso para las interfaces de voz en el automóvil: un par de estudios de la Universidad de Utah encontraron que los conductores eran distraído por hasta 27 segundos después de usar comandos de voz.

Investigación de la Universidad de Utah / Fundación AAA para la Seguridad del Tráfico sobre la distracción del conductor.

{vimeo} 108281698 {/ vimeo}

Encontrar su voz?

Por lo tanto, es poco probable que las interfaces de voz se hagan cargo por completo, pero encontrarán nichos útiles en nuestras vidas. Ya son comunes en los automóviles, donde con suerte se volverán menos molestos a medida que mejore la tecnología.

En la cocina, puedes pedirle a Alexa que te cuente una receta o actualizar tu lista de compras mientras tus manos están ocupadas cocinando. En la realidad virtual y aumentada, las interfaces de voz pueden permitirle controlar el sistema cuando no puede ver sus manos.

En el aprendizaje de idiomas, se pueden usar para practicar la pronunciación. Lo que es más importante, las interfaces de voz ayudan a los usuarios con discapacidades motrices, RSI o dislexia a superar sus discapacidades.

Las interfaces de voz son una tecnología largamente esperada, y hay buenas razones para pensar que finalmente ha llegado su momento. Solo recuerda que pueden no ser tan inteligentes como suenan. Y es posible que desee colocar un código PIN en las compras de voz si hay niños cerca.

La conversación

Sobre el Autor

Fraser Allison, PhD Candidato en Interacción Humano-Computadora, Universidad de Melbourne

Este artículo se publicó originalmente el La conversación. Leer el articulo original.

Artículos relacionados

{amazonWS: searchindex = KindleStore; palabras clave = AmazonEcho "target =" _ blank "rel =" nofollow noopener "> InnerSelf Market y Amazon