Cómo sus amigos en Twitter pueden delatar su anonimato

Mientras navega por Internet, los anunciantes en línea realizan un seguimiento casi cada sitio que visitas, acumulando una gran cantidad de información sobre sus hábitos y preferencias. Cuando visites un sitio de noticias, es posible que vean que eres fanático del baloncesto, la ópera y las novelas de misterio y, por lo tanto, selecciona anuncios adaptados a tus gustos.

Los anunciantes usan esta información para crear experiencias altamente personalizadas, pero generalmente no saben exactamente quién es usted. Solo observan su rastro digital, no su identidad en sí misma, por lo que puede sentir que ha conservado un cierto grado de anonimato.

Pero, en un documento que fui coautor con Ansh Shukla, Sharad Goel y Arvind Narayanan, demostramos que estos registros de navegación web anónimos a menudo pueden relacionarse con identidades del mundo real.

Para probar nuestro enfoque, construimos un sitio web donde las personas podrían donar su historial de navegación para los fines de este estudio. Luego tratamos de ver si podíamos vincular sus historias a sus perfiles de Twitter utilizando solo datos disponibles públicamente. Setenta y dos por ciento de las personas que intentamos desanonymizar se identificaron correctamente como el principal candidato en los resultados de búsqueda, y el porcentaje de 81 se encontraba entre los principales candidatos de 15.

privacidad2 2 8Capturas de pantalla del sitio web de anonimización.

Según nuestro conocimiento, esta es la demostración de desanonimización a mayor escala hasta la fecha, ya que selecciona al usuario correcto entre cientos de millones de posibles usuarios de Twitter. Además, nuestro método requiere solo que una persona haga clic en los enlaces que aparecen en sus redes sociales, no que publiquen contenido, por lo que incluso las personas que tienen cuidado con lo que comparten en Internet siguen siendo vulnerables a este ataque.


gráfico de suscripción interior


Cómo funciona

En un nivel alto, nuestro enfoque se basa en una simple observación. Cada persona tiene una red social altamente distintiva, que comprende a familiares y amigos de la escuela, el trabajo y varias etapas de su vida. Como consecuencia, el conjunto de enlaces en sus feeds de Facebook y Twitter es muy distintivo. Al hacer clic en estos enlaces, deja una marca reveladora en su historial de navegación.

Al observar el conjunto de páginas web que una persona ha visitado, pudimos seleccionar fuentes de medios sociales similares, obteniendo una lista de candidatos que probablemente generaron ese historial de navegación web. De esta manera, podemos vincular la identidad del mundo real de una persona con el conjunto casi completo de enlaces que han visitado, incluidos enlaces que nunca se publicaron en ningún sitio de redes sociales.

Llevar a cabo esta estrategia implica dos desafíos clave. El primero es teórico: ¿cómo se cuantifica qué tan similar es un feed de redes sociales específico para un determinado historial de navegación web? Una forma simple es medir la fracción de enlaces en el historial de navegación que también aparece en el feed. Esto funciona razonablemente bien en la práctica, pero exagera la similitud para grandes fuentes, ya que simplemente contienen más enlaces. En su lugar, tomamos un enfoque alternativo. Postulamos un modelo estilizado y probabilístico de comportamiento de navegación web, y luego calculamos la probabilidad de que un usuario con ese feed de medios sociales haya generado el historial de navegación observado. Luego elegimos la fuente de medios sociales que es más probable.

El segundo desafío implica identificar los alimentos más similares en tiempo real. Aquí nos dirigimos a Twitter, ya que los feeds de Twitter (a diferencia de Facebook) son en gran medida públicos. Sin embargo, aunque los feeds son públicos, no podemos simplemente crear una copia local de Twitter contra la cual podamos ejecutar nuestras consultas. En su lugar, aplicamos una serie de técnicas para reducir drásticamente el espacio de búsqueda. A continuación, combinamos técnicas de almacenamiento en caché con rastreos de red a petición para construir los feeds de los candidatos más prometedores. En este conjunto de candidatos reducidos, aplicamos nuestra medida de similitud para producir los resultados finales. Dado un historial de navegación, normalmente podemos llevar a cabo todo este proceso en un tiempo de 60.

Nuestro método es más preciso para las personas que navegan por Twitter de forma más activa. El noventa por ciento de los participantes que hicieron clic en 100 o más enlaces en Twitter podrían coincidir con su identidad.

Muchas empresas tienen los recursos de seguimiento para llevar a cabo un ataque como este, incluso sin el consentimiento del participante. Intentamos desanonizar a cada uno de los participantes de nuestro experimento utilizando solo las partes de sus historiales de navegación que eran visibles para compañías de seguimiento específicas (porque las compañías tienen seguidores en esas páginas). Descubrimos que varias compañías tenían los recursos para identificar con precisión a los participantes.

privacidad 2 8Otros estudios de desanonimización

Varios otros estudios han utilizado huellas disponibles públicamente para desanonizar datos confidenciales.

Tal vez el estudio más famoso a lo largo de estas líneas fue realizado por Latanya Sweeney en la Universidad de Harvard en 2002. Ella descubrió que 87% de estadounidenses fueron identificables de manera única basado en una combinación de su código postal, sexo y fecha de nacimiento. Esos tres atributos estaban disponibles tanto en los datos públicos de registro de votantes (que compró por US $ 20) como en datos médicos anónimos (que se distribuyeron ampliamente, porque la gente pensaba que los datos eran anónimos). Al conectar estas fuentes de datos, encontró los registros médicos del gobernador de Massachusetts.

En 2006, Netflix lanzó un concurso para mejorar la calidad de sus recomendaciones de películas. Lanzaron un conjunto de datos anónimos de las calificaciones de las películas de las personas, y ofrecieron $ 1 millones para el equipo que podría mejorar su algoritmo de recomendación en porcentaje de 10. Científicos de la computación Arvind Narayanan y Vitaly Shmatikov notaron que las películas que la gente miraba eran muy distintivas, y la mayoría de las personas en el conjunto de datos eran identificables de manera única en base a un pequeño subconjunto de sus películas. En otras palabras, según las elecciones de películas de Netflix y las reseñas de IMDB, los investigadores pudieron determinar quiénes eran en realidad esos usuarios de Netflix.

Con el auge de las redes sociales, cada vez más personas comparten información que parece inocua, pero en realidad revela mucha información personal. Un estudio dirigido por Michal Kosinski en la Universidad de Cambridge utiliza Facebook me gusta para predecir la gente orientación sexual, puntos de vista políticos y rasgos de personalidad.

Otro equipo, liderado por Gilbert Wondracek en la Universidad Tecnológica de Viena, construyó una "máquina de desanonimización" que descubrió en qué grupo de personas formaba parte la red social Xing, y lo usó para descubrir quiénes eran, ya que los grupos a los que pertenece son a menudo suficientes para identificar de forma única tú.

Lo que puede hacer

La mayoría de estos ataques son difíciles de defender, a menos que deje de usar Internet o participe en la vida pública.

Incluso si deja de usar Internet, las empresas aún pueden recopilar datos sobre usted. Si varios de tus amigos cargan sus contactos de teléfono en Facebook, y tu número está en todas sus listas de contactos, entonces Facebook puede hacer predicciones sobre ti, incluso si no usas su servicio.

La mejor forma de defenderse contra los algoritmos de anonimización como la nuestra es limitar el conjunto de personas que tienen acceso a sus datos de navegación anónimos. Extensiones del navegador como Ghostery bloquear rastreadores de terceros. Eso significa que, aunque la empresa cuyo sitio web está visitando sabrá que los está visitando, las compañías de publicidad que muestran anuncios en su página no podrán recopilar sus datos de navegación y agregarlos en varios sitios.

Si eres un webmaster, puedes ayudar a proteger a tus usuarios permitiéndoles navegar por tu sitio usando HTTPS. La navegación mediante HTTP permite a los atacantes obtener su historial de navegación olfateando el tráfico de la red, lo que les permite llevar a cabo este ataque. Muchos sitios web ya han cambiado a HTTPS; cuando repetimos nuestro experimento de desanonimización desde la perspectiva de un rastreador de tráfico de red, solo el porcentaje 31 de participantes pudo ser desanónimo.

Sin embargo, hay muy poco que puede hacer para protegerse contra los ataques de desanonización en general, y tal vez el mejor curso de acción es ajustar las expectativas. Nada es privado en esta era digital.

Sobre el Autor

Jessica Su, Ph.D. Estudiante en Stanford, Universidad de Stanford

Este artículo se publicó originalmente el La conversación. Leer el articulo original.

Libros relacionados

at InnerSelf Market y Amazon