Cómo el modelo de orientación de Facebook de Cambridge Analytica realmente funcionó¿Con qué precisión puede ser perfilado en línea? Andrew Krasovitckii / Shutterstock.com

El investigador cuyo trabajo está en el centro de la Análisis de datos de Facebook-Cambridge Analytica y alboroto publicitario político ha revelado que su método funcionaba muy parecido al uno Netflix usa para recomendar películas.

En un correo electrónico para mí, el erudito de la Universidad de Cambridge Aleksandr Kogan explicó cómo su modelo estadístico procesó datos de Facebook para Cambridge Analytica. La precisión que afirma sugiere que funciona tan bien como métodos establecidos de selección de votantes basado en datos demográficos como raza, edad y sexo.

Si se confirma, la cuenta de Kogan significaría que el modelo digital Cambridge Analytica utilizado fue difícilmente la bola de cristal virtual algunos han afirmado. Sin embargo, los números que proporciona Kogan también muestran lo que es - y no es - realmente posible by combinando datos personales con aprendizaje automático para fines políticos.

Sin embargo, con respecto a una preocupación pública clave, las cifras de Kogan sugieren que la información sobre las personalidades de los usuarios o "psicográficos"Fue solo una parte modesta de cómo el modelo se dirigió a los ciudadanos. No era un modelo de personalidad estrictamente hablando, sino más bien uno que reducía la demografía, las influencias sociales, la personalidad y todo lo demás a un gran bulto correlacionado. Este enfoque de absorber toda la correlación y llamar a la personalidad parece haber creado una valiosa herramienta de campaña, incluso si el producto que se vendió no fue exactamente como se lo facturaron.


gráfico de suscripción interior


La promesa de orientar la personalidad

A raíz de las revelaciones que los consultores de la campaña Trump Cambridge Analytica utilizaron datos de 50 millones de usuarios de Facebook para apuntar a la publicidad política digital durante las elecciones presidenciales de 2016 EE. UU., Facebook tiene perdió miles de millones en valor bursátilgobiernos en ambos lados del Atlántico tienen investigaciones abiertasy un naciente movimiento social está llamando a los usuarios a #DeleteFacebook.

Pero una pregunta clave ha quedado sin respuesta: ¿fue Cambridge Analytica realmente capaz de dirigir de manera efectiva los mensajes de campaña a los ciudadanos en función de sus características de personalidad, o incluso su "demonios internos, "Como un denunciante de la empresa alegó?

Si alguien supiera qué hizo Cambridge Analytica con su gran cantidad de datos de Facebook, serían Aleksandr Kogan y Joseph Chancellor. Era su startup Global Science Research que recopiló información de perfil de 270,000 usuarios de Facebook y decenas de millones de sus amigos usando una aplicación de prueba de personalidad llamada "thisisyourdigitallife".

Parte de mi propia investigación se enfoca en la comprensión máquina de aprendizaje métodos, y mi próximo libro discute cómo las empresas digitales usan modelos de recomendación para crear audiencias. Tenía una corazonada sobre cómo funcionaba el modelo de Kogan y Chancellor.

Así que envié un correo electrónico a Kogan para preguntar. Kogan sigue siendo un investigador en la Universidad de Cambridge; su colaborador Chancellor ahora trabaja en Facebook. En una demostración notable de cortesía académica, Kogan respondió.

Su respuesta requiere un poco de desembalaje y algunos antecedentes.

Del Premio Netflix a "psicometría"

De vuelta en 2006, cuando aún era una compañía de DVD por correo, Netflix ofreció un recompensa de $ 1 millón a cualquiera que haya desarrollado una mejor forma de hacer predicciones sobre la clasificación de las películas de los usuarios que la que ya tenía la compañía. Un competidor sorpresa fue un desarrollador de software independiente que usa el seudónimo Simon Funk, cuyo enfoque básico finalmente se incorporó a todas las entradas de los mejores equipos. Funk adaptó una técnica llamada "valor singular de descomposición, "Condensar las calificaciones de las películas de los usuarios en un serie de factores o componentes - esencialmente un conjunto de categorías inferidas, clasificadas por importancia. Como Funk explicado en una publicación de blog,

"Entonces, por ejemplo, una categoría puede representar películas de acción, con películas con mucha acción en la parte superior y películas lentas en la parte inferior, y los usuarios que les gustan las películas de acción en la parte superior y los que prefieren las películas lentas en el fondo."

Los factores son categorías artificiales, que no siempre son como el tipo de categorías que los humanos obtendrían. los factor más importante en el modelo inicial de Netflix de Funk fue definido por los usuarios que amaban películas como "Pearl Harbor" y "The Wedding Planner" mientras odiaban películas como "Lost in Translation" o "Eternal Sunshine of the Spotless Mind". Su modelo mostró cómo el aprendizaje automático puede encontrar correlaciones entre grupos de personas y grupos de películas que los humanos nunca verían.

El enfoque general de Funk usó los factores más importantes de 50 o 100 tanto para los usuarios como para las películas para adivinar cómo cada usuario calificaría cada película. Este método, a menudo llamado reducción de dimensionalidad o la factorización de la matriz, no era nueva. Los investigadores en ciencias políticas habían demostrado que técnicas similares utilizando datos de votación nominal podría predecir los votos de los miembros del Congreso con una precisión porcentual 90. En psicología, el "Gran Cinco"El modelo también se usó para predecir el comportamiento agrupando las preguntas de personalidad que solían responderse de manera similar.

Aún así, el modelo de Funk fue un gran avance: permitió que la técnica funcionara bien con grandes conjuntos de datos, incluso aquellos con muchos datos faltantes, como el conjunto de datos de Netflix, donde un usuario típico calificaba solo unas pocas docenas de películas de las miles en la compañía. biblioteca. Más de una década después de que finalizara el concurso del Premio Netflix, Métodos basados ​​en SVDo modelos relacionados para datos implícitos, siguen siendo la herramienta preferida por muchos sitios web para predecir lo que los usuarios leerán, verán o comprarán.

Estos modelos también pueden predecir otras cosas.

Facebook sabe si eres republicano

En 2013, los investigadores de la Universidad de Cambridge Michal Kosinski, David Stillwell y Thore Graepel publicaron un artículo sobre la poder predictivo de los datos de Facebook, utilizando la información recopilada a través de una prueba de personalidad en línea. Su análisis inicial fue casi idéntico al utilizado en el Premio Netflix, utilizando SVD para categorizar tanto a los usuarios como a las cosas que "les gustaban" en los principales factores de 100.

El documento mostró que un modelo de factores hecho solo con los "me gusta" de Facebook de los usuarios 95 porcentaje de precisión para distinguir entre los encuestados en blanco y negro, 93% de precisión para distinguir a los hombres de las mujeres y 88% de precisión para distinguir a las personas que se identificaron como hombres homosexuales de los hombres que se identificaron como heterosexuales. Incluso podría distinguir correctamente a los republicanos de los demócratas 85 por ciento del tiempo. También fue útil, aunque no tan preciso, para predecir los puntajes de los usuarios en la prueba de personalidad "Big Five".

Había protesta pública en respuesta; en unas semanas Facebook tenía hizo privados los gustos de los usuarios por defecto

Kogan y Chancellor, también investigadores de la Universidad de Cambridge en ese momento, comenzaron a utilizar los datos de Facebook para la selección de objetivos como parte de una colaboración con la empresa matriz de Cambridge Analytica, SCL. Kogan invitó a Kosinski y Stillwell a unirse a su proyecto, pero no funcionó. Según informes, Kosinski sospecha que Kogan y Chancellor podrían tener ingeniería inversa del modelo de "Me gusta" de Facebook para Cambridge Analytica. Kogan lo negó, diciendo que su proyecto "construido todos nuestros modelos usando nuestros propios datos, recopilados usando nuestro propio software ".

¿Qué hicieron realmente Kogan y Chancellor?

Mientras seguía los desarrollos en la historia, se hizo evidente que Kogan y Chancellor habían recopilado muchos de sus propios datos a través de la aplicación thisisyourdigitallife. Ciertamente podrían haber construido un modelo SVD predictivo como el que aparece en la investigación publicada de Kosinski y Stillwell.

Entonces envié un correo electrónico a Kogan para preguntarle si eso era lo que había hecho. Para mi sorpresa, él contestó.

"No usamos exactamente SVD", escribió, y señaló que SVD puede tener dificultades cuando algunos usuarios tienen muchos "me gusta" más que otros. En cambio, Kogan explicó: "La técnica fue algo que realmente desarrollamos nosotros mismos ... No es algo que esté en el dominio público". Sin entrar en detalles, Kogan describió su método como "un paso múltiple". co-ocurrencia enfoque."

Sin embargo, su mensaje llegó a confirmar que su enfoque era de hecho similar a SVD u otros métodos de factorización matricial, como en la competencia del Premio Netflix, y el modelo de Facebook Kosinki-Stillwell-Graepel. La reducción de la dimensionalidad de los datos de Facebook fue el núcleo de su modelo.

¿Qué tan exacto fue?

Kogan sugirió que el modelo exacto utilizado no importa demasiado, sin embargo, lo que importa es la precisión de sus predicciones. Según Kogan, la "correlación entre los puntajes pronosticados y reales ... fue de alrededor del [30 por ciento] para todas las dimensiones de la personalidad". En comparación, los puntajes Big Five anteriores de una persona se tratan de 70 a 80 porcentaje de precisión en la predicción de sus puntajes cuando vuelven a tomar la prueba.

Las afirmaciones de exactitud de Kogan no se pueden verificar independientemente, por supuesto. Y cualquiera en medio de un escándalo de tan alto perfil podría tener incentivos para subestimar su contribución. En su aparición en CNN, Kogan explicó a Anderson Cooper cada vez más incrédulo que, de hecho, las modelos en realidad no habían funcionado muy bien.

{youtube}APqU_EJ5d3U{/youtube}

Aleksandr Kogan responde preguntas en CNN.

De hecho, la precisión que Kogan afirma parece un poco baja, pero plausible. Kosinski, Stillwell y Graepel informaron resultados comparables o ligeramente mejores, al igual que varios otros estudios académicos usar huellas digitales para predecir la personalidad (aunque algunos de esos estudios tenían más datos que solo los "me gusta" de Facebook). Es sorprendente que Kogan y Chancellor se tomaran la molestia de diseñar su propio modelo de propiedad si las soluciones listas para usar parecieran ser tan precisas.

Es importante destacar que, sin embargo, la precisión del modelo en los puntajes de personalidad permite la comparación de los resultados de Kogan con otras investigaciones. Los modelos publicados con una precisión equivalente en la predicción de la personalidad son mucho más precisos para adivinar los datos demográficos y las variables políticas.

Por ejemplo, el modelo similar de SVD Kosinski-Stillwell-Graepel era 85, porcentaje de precisión en adivinar afiliación partidaria, incluso sin utilizar ninguna información de perfil que no sea me gusta. El modelo de Kogan tenía una precisión similar o mejor. Agregar incluso una pequeña cantidad de información sobre los datos demográficos de amigos o usuarios probablemente aumentaría esta precisión por encima del porcentaje 90. Las conjeturas sobre el género, la raza, la orientación sexual y otras características probablemente también serían más del 90% de precisión.

Críticamente, estas conjeturas serían especialmente buenas para los usuarios de Facebook más activos: las personas a las que se destinaba principalmente el modelo. Los usuarios con menos actividad para analizar probablemente no estén en Facebook de todos modos.

Cuando la psicografía es principalmente demográfica

Saber cómo se construye el modelo ayuda a explicar las declaraciones aparentemente contradictorias de Cambridge Analytica sobre el papel - o falta de eso - que el perfil de la personalidad y la psicografía jugaban en su modelado. Todos son técnicamente consistentes con lo que Kogan describe.

Un modelo como el de Kogan daría estimaciones para cada variable disponible en cualquier grupo de usuarios. Eso significa que automáticamente estimar los puntajes de personalidad de los Cinco Grandes por cada votante. Pero estos puntajes de personalidad son el resultado del modelo, no la entrada. Todo lo que el modelo sabe es que ciertos "Me gusta" de Facebook y ciertos usuarios tienden a agruparse.

Con este modelo, Cambridge Analytica podría decir que estaba identificando personas con poca apertura a la experiencia y alto neuroticismo. Pero el mismo modelo, con las mismas predicciones exactas para cada usuario, podría afirmar con la misma precisión que identifica a los hombres republicanos más viejos y menos educados.

La información de Kogan también ayuda a aclarar la confusión sobre si Cambridge Analytica en realidad borró su tesoro de datos de Facebook, cuando los modelos construidos a partir de los datos parece que todavía está circulando, e incluso desarrollándose más.

La conversaciónEl objetivo de un modelo de reducción de dimensión es representar matemáticamente los datos en una forma más simple. Es como si Cambridge Analytica tomara una fotografía de muy alta resolución, la cambiara de tamaño para que fuera más pequeña, y luego borró el original. La foto aún existe, y mientras existan los modelos de Cambridge Analytica, los datos efectivamente también lo hacen.

Sobre el Autor

Matthew Hindman, Profesor Asociado de Medios y Asuntos Públicos, Universidad de George Washington

Este artículo se publicó originalmente el La conversación. Leer el articulo original.

Libros relacionados

at InnerSelf Market y Amazon