¿Qué son los videos de Deepfake y detectarlos parpadear de un ojo?

Una nueva forma de desinformación está a punto de extenderse a través de las comunidades en línea a medida que se calienten las campañas electorales de medio término de 2018. Llamado "deepfakes" después de la cuenta en línea seudónima que popularizó la técnica - que puede haber elegido su nombre porque el proceso utiliza un método técnico llamado "aprendizaje profundo" - estos videos falsos parecen muy realistas.

Hasta ahora, las personas han usado videos deepfake en pornografía y sátira para hacer parecer que las personas famosas están haciendo cosas que normalmente no harían.

Pero es casi seguro deepfakes aparecerá durante la temporada de campaña, que pretende representar a los candidatos diciendo cosas o ir a lugares que el verdadero candidato no haría.

Es Barack Obama, ¿o no?

{youtube}cQ54GDm1eL0{/youtube}

Debido a que estas técnicas son tan nuevas, las personas tienen problemas para distinguir entre los videos reales y los videos deepfake. Mi trabajo, con mi colega Ming-Ching Chang y nuestro Ph.D. estudiante Yuezun Li, ha encontrado una manera de confiablemente decir videos reales de videos deepfake. No es una solución permanente, porque la tecnología mejorará. Pero es un comienzo, y ofrece la esperanza de que las computadoras puedan ayudar a las personas a distinguir la verdad de la ficción.


gráfico de suscripción interior


¿Qué es un "deepfake", de todos modos?

Hacer un video deepfake es muy parecido a traducir entre idiomas. Servicios como traductor google usar aprendizaje automático - análisis por computadora de decenas de miles de textos en varios idiomas - para detectar patrones de uso de palabras que usan para crear la traducción.

Los algoritmos de Deepfake funcionan de la misma manera: usan un tipo de sistema de aprendizaje automático llamado red neuronal profunda para examinar los movimientos faciales de una persona. Luego sintetizan imágenes de la cara de otra persona haciendo movimientos análogos. Hacerlo de manera efectiva crea un video de la persona objetivo que parece hacer o decir las cosas que hizo la persona fuente.

Cómo se hacen los videos deepfake.

{youtube}8LhI-e2B8Lg{/youtube}

Antes de que funcionen correctamente, las redes neuronales profundas necesitan mucha información de origen, como fotos de las personas que son la fuente o el objetivo de la suplantación. Cuantas más imágenes se usen para entrenar un algoritmo deepfake, más realista será la suplantación digital.

Detectando parpadear

Todavía hay fallas en este nuevo tipo de algoritmo. Una de ellas tiene que ver con el parpadeo de las caras simuladas, o no. Los humanos adultos saludables parpadean en algún lugar entre cada 2 y 10 segundos, y un solo parpadeo lleva entre una décima y cuatro décimas de segundo. Eso es lo que sería normal ver en un video de una persona hablando. Pero no es lo que sucede en muchos videos deepfake.

Una persona real parpadea mientras habla.

{youtube}https://www.youtube.com/watch?v=-MMXXEA3UaM{/youtube}

Una cara simulada no parpadea como lo hace una persona real.

{youtube}EttSA9-YIuI{/youtube}

Cuando se entrena un algoritmo deepfake en las imágenes faciales de una persona, depende de las fotos que están disponibles en Internet que se pueden utilizar como datos de entrenamiento. Incluso para las personas que son fotografiadas a menudo, pocas imágenes están disponibles en línea mostrando sus ojos cerrados. No solo son raras las fotos, porque los ojos de la gente están abiertos la mayor parte del tiempo, sino que los fotógrafos generalmente no publican imágenes donde los ojos de los sujetos principales están cerrados.

Sin entrenar imágenes de personas parpadeando, los algoritmos deepfake son menos propensos a crear rostros que parpadean normalmente. Cuando calculamos la tasa global de parpadeo y la comparamos con el rango natural, encontramos que los personajes en los videos deepfake parpadean mucho menos frecuentemente en comparación con personas reales. Nuestra investigación utiliza el aprendizaje automático para examinar la apertura y el cierre de los ojos en videos.

Esto nos da una inspiración para detectar videos deepfake. Posteriormente, desarrollamos un método para detectar cuándo parpadea la persona en el video. Para ser más específicos, escanea cada fotograma de un video en cuestión, detecta las caras en él y luego ubica los ojos automáticamente. Luego utiliza otra red neuronal profunda para determinar si el ojo detectado está abierto o cerrado, usando la apariencia del ojo, las características geométricas y el movimiento.

Sabemos que nuestro trabajo aprovecha una falla en el tipo de datos disponibles para entrenar algoritmos deepfake. Para evitar caer en una falla similar, hemos entrenado a nuestro sistema en una gran biblioteca de imágenes de ojos abiertos y cerrados. Este método parece funcionar bien, y como resultado, hemos logrado una tasa de detección porcentual superior al 95.

Esta no es la última palabra para detectar deepfakes, por supuesto. La tecnología es mejorando rápidamente, y la competencia entre generar y detectar videos falsos es análoga a un juego de ajedrez. En particular, se puede agregar un parpadeo a los videos deepfake al incluir imágenes faciales con los ojos cerrados o al usar secuencias de video para el entrenamiento. Las personas que quieren confundir al público mejorarán al hacer videos falsos, y nosotros y otros miembros de la comunidad tecnológica tendremos que seguir buscando formas de detectarlos.La conversación

Sobre el Autor

Siwei Lyu, profesor asociado de informática; Director, Laboratorio de Visión por Computadora y Aprendizaje de Máquina, Universidad en Albany, Universidad Estatal de Nueva York

Este artículo se publicó originalmente el La conversación. Leer el articulo original.

Libros relacionados

at InnerSelf Market y Amazon