Shutterstock/Valentyn640

En 1956, durante un viaje de un año a Londres y cuando tenía poco más de 20 años, el matemático y biólogo teórico Jack D. Cowan visitó a Wilfred Taylor y su extraño nuevo “máquina de aprendizaje”. A su llegada quedó desconcertado por el “enorme banco de aparatos” al que se enfrentaba. Cowan sólo podía quedarse quieto y observar cómo “la máquina hacía su trabajo”. Lo que parecía estar haciendo era realizar un “esquema de memoria asociativa”: parecía ser capaz de aprender a encontrar conexiones y recuperar datos.

Puede que parecieran toscos bloques de circuitos, soldados entre sí a mano en una masa de cables y cajas, pero lo que Cowan estaba presenciando era una forma temprana analógica de una red neuronal, precursora de la inteligencia artificial más avanzada de la actualidad, incluida la muy discutido ChatGPT con su capacidad de generar contenido escrito en respuesta a casi cualquier comando. La tecnología subyacente de ChatGPT es una red neuronal.

Mientras Cowan y Taylor observaban cómo funcionaba la máquina, realmente no tenían idea exactamente de cómo se las arreglaba para realizar esta tarea. La respuesta al misterioso cerebro máquina de Taylor se puede encontrar en algún lugar de sus “neuronas analógicas”, en las asociaciones realizadas por la memoria de su máquina y, lo más importante, en el hecho de que su funcionamiento automatizado no se puede explicar completamente. Se necesitarían décadas para que estos sistemas encuentren su propósito y se libere ese poder.

El término red neuronal incorpora una amplia gama de sistemas, pero centralmente, de acuerdo con IBM, estas “redes neuronales, también conocidas como redes neuronales artificiales (ANN) o redes neuronales simuladas (SNN), son un subconjunto del aprendizaje automático y están en el corazón de los algoritmos de aprendizaje profundo”. Fundamentalmente, el término en sí y su forma y “estructura están inspirados en el cerebro humano, imitando la forma en que las neuronas biológicas se envían señales entre sí”.

Puede que haya habido algunas dudas residuales sobre su valor en sus etapas iniciales, pero a medida que han pasado los años, las modas de la IA han girado firmemente hacia las redes neuronales. Ahora se suele entender que son el futuro de la IA. Tienen grandes implicaciones para nosotros y para lo que significa ser humano. Hemos oído ecos de estas preocupaciones recientemente con llamados a pausar los nuevos desarrollos de IA durante un período de seis meses para garantizar la confianza en sus implicaciones.


gráfico de suscripción interior


Sin duda, sería un error descartar la red neuronal como si se tratara únicamente de nuevos dispositivos brillantes y llamativos. Ya están bien establecidos en nuestras vidas. Algunos son poderosos en su practicidad. Ya en 1989, un equipo dirigido por Yann LeCun en AT&T Bell Laboratories utilizó técnicas de retropropagación para entrenar un sistema para reconocer códigos postales escritos a mano. La reciente anuncio de microsoft El hecho de que las búsquedas en Bing estén impulsadas por IA, convirtiéndolo en su “copiloto de la web”, ilustra cómo las cosas que descubrimos y cómo las entendemos serán cada vez más producto de este tipo de automatización.

Aprovechando una gran cantidad de datos para encontrar patrones, la IA también puede entrenarse para hacer cosas como el reconocimiento de imágenes a gran velocidad, lo que resulta en su incorporación a reconocimiento facial, por ejemplo. Esta capacidad de identificar patrones ha dado lugar a muchas otras aplicaciones, como predecir los mercados de valores.

Las redes neuronales también están cambiando la forma en que interpretamos y nos comunicamos. Desarrollado por el interesantemente titulado Equipo cerebral de Google, traductor google es otra aplicación destacada de una red neuronal.

Tampoco querrás jugar ajedrez o shogi con uno. Su comprensión de las reglas y su recuerdo de estrategias y todos los movimientos registrados significa que son excepcionalmente buenos en los juegos (aunque ChatGPT parece lucha con Wordle). Los sistemas que preocupan a los jugadores humanos de Go (Go es un juego de mesa de estrategia notoriamente complicado) y a los grandes maestros del ajedrez, son hecho a partir de redes neuronales.

Pero su alcance va mucho más allá de estos casos y continúa ampliándose. Una búsqueda de patentes restringida únicamente a menciones de la frase exacta "redes neuronales" produce 135,828 resultados. Con esta expansión rápida y continua, las posibilidades de que podamos explicar completamente la influencia de la IA pueden ser cada vez más escasas. Estas son las preguntas que he estado examinando en mi investigación. y mi nuevo libro sobre pensamiento algorítmico.

Misteriosas capas de 'incognoscibilidad'

Una mirada retrospectiva a la historia de las redes neuronales nos dice algo importante sobre las decisiones automatizadas que definen nuestro presente o aquellas que posiblemente tendrán un impacto más profundo en el futuro. Su presencia también nos dice que es probable que comprendamos aún menos las decisiones y los impactos de la IA con el tiempo. Estos sistemas no son simplemente cajas negras, no son simplemente partes ocultas de un sistema que no pueden verse ni entenderse.

Es algo diferente, algo arraigado en los objetivos y el diseño de estos propios sistemas. Existe una larga búsqueda de lo inexplicable. Cuanto más opaco, más auténtico y avanzado se cree que es el sistema. No se trata sólo de que los sistemas se vuelvan más complejos o que el control de la propiedad intelectual limite el acceso (aunque estos son parte de ello). Más bien quiere decir que el ethos que los impulsa tiene un interés particular e integrado en la “incognoscibilidad”. El misterio está incluso codificado en la propia forma y discurso de la red neuronal. Vienen con capas profundamente apiladas (de ahí la frase aprendizaje profundo) y dentro de esas profundidades se encuentran las “capas ocultas” que suenan aún más misteriosas. Los misterios de estos sistemas están muy por debajo de la superficie.

Hay muchas posibilidades de que cuanto mayor sea el impacto que la inteligencia artificial llegue a tener en nuestras vidas, menos entenderemos cómo o por qué. Hoy en día existe un fuerte impulso a la IA que es explicable. Queremos saber cómo funciona y cómo llega a las decisiones y a los resultados. La UE está tan preocupada por los “riesgos potencialmente inaceptables” e incluso las aplicaciones “peligrosas” que actualmente está avanzando una nueva ley de IA destinado a establecer un “estándar global” para “el desarrollo de una inteligencia artificial segura, confiable y ética”.

Esas nuevas leyes se basarán en la necesidad de explicabilidad, exigiendo eso “Para los sistemas de IA de alto riesgo, los requisitos de datos de alta calidad, documentación y trazabilidad, transparencia, supervisión humana, precisión y solidez son estrictamente necesarios para mitigar los riesgos para los derechos fundamentales y la seguridad que plantea la IA”. No se trata solo de cosas como los vehículos autónomos (aunque los sistemas que garantizan la seguridad entran en la categoría de IA de alto riesgo de la UE), sino que también existe la preocupación de que en el futuro surjan sistemas que tendrán implicaciones para los derechos humanos.

Esto es parte de llamados más amplios a la transparencia en la IA para que sus actividades puedan ser verificadas, auditadas y evaluadas. Otro ejemplo sería el de la Royal Society. informe de políticas sobre la IA explicable en el que señalan que “los debates políticos en todo el mundo ven cada vez más llamados a alguna forma de explicabilidad de la IA, como parte de los esfuerzos para incorporar principios éticos en el diseño y despliegue de sistemas habilitados para IA”.

Pero la historia de las redes neuronales nos dice que es probable que en el futuro nos alejemos más de ese objetivo, en lugar de acercarnos a él.

Inspirado en el cerebro humano

Estas redes neuronales pueden ser sistemas complejos, pero tienen algunos principios básicos. Inspirándose en el cerebro humano, buscan copiar o simular formas de pensamiento biológico y humano. En términos de estructura y diseño son, como IBM también explica, compuesto por "capas de nodos, que contienen una capa de entrada, una o más capas ocultas y una capa de salida". Dentro de este, “cada nodo, o neurona artificial, se conecta con otro”. Debido a que requieren entradas e información para crear resultados, “confían en datos de entrenamiento para aprender y mejorar su precisión con el tiempo”. Estos detalles técnicos son importantes, pero también lo es el deseo de modelar estos sistemas basándose en las complejidades del cerebro humano.

Comprender la ambición detrás de estos sistemas es vital para comprender lo que estos detalles técnicos han llegado a significar en la práctica. en un 1993 entrevista, el científico de redes neuronales Teuvo Kohonen concluyó que un sistema "autoorganizado" "es mi sueño", que funcione "algo parecido a lo que nuestro sistema nervioso hace instintivamente". Como ejemplo, Kohonen describió cómo un sistema “autoorganizado”, un sistema que se monitorea y administra a sí mismo, “podría usarse como panel de monitoreo para cualquier máquina... en cada avión, avión a reacción, o cada central nuclear, o cada auto". Esto, pensó, significaría que en el futuro “se podría ver inmediatamente en qué estado se encuentra el sistema”.

El objetivo general era tener un sistema capaz de adaptarse a su entorno. Sería instantáneo y autónomo, funcionando al estilo del sistema nervioso. Ese era el sueño, tener sistemas que pudieran manejarse solos sin necesidad de mucha intervención humana. Las complejidades y las incógnitas del cerebro, el sistema nervioso y el mundo real pronto llegarían a informar el desarrollo y diseño de redes neuronales.

"Hay algo sospechoso en esto"

Pero volviendo a 1956 y a esa extraña máquina de aprendizaje, fue el enfoque práctico que Taylor había adoptado al construirla lo que inmediatamente llamó la atención de Cowan. Claramente había sudado por el ensamblaje de las piezas. taylor, Cowan observó durante una entrevista sobre su propia parte de la historia de estos sistemas, “no lo hizo por teoría, y no lo hizo en una computadora”. En cambio, con las herramientas en la mano, “realmente construyó el hardware”. Era algo material, una combinación de partes, tal vez incluso un artilugio. Y "todo se hizo con circuitos analógicos", lo que le llevó a Taylor, señala Cowan, "varios años construirlo y jugar con él". Un caso de prueba y error.

Es comprensible que Cowan quisiera comprender lo que estaba viendo. Intentó que Taylor le explicara esta máquina de aprendizaje. Las aclaraciones no llegaron. Cowan no logró que Taylor le describiera cómo funcionaba la cosa. Las neuronas analógicas seguían siendo un misterio. El problema más sorprendente, pensó Cowan, fue que Taylor "realmente no entendía por sí mismo lo que estaba pasando". Esto no fue sólo una ruptura momentánea en la comunicación entre dos científicos con diferentes especialidades, fue más que eso.

En una entrevista de mediados de la década de 1990Al recordar la máquina de Taylor, Cowan reveló que “hasta el día de hoy, en los artículos publicados no se puede entender bien cómo funciona”. Esta conclusión sugiere cómo lo desconocido está profundamente arraigado en las redes neuronales. La inexplicabilidad de estos sistemas neuronales ha estado presente incluso desde las etapas fundamentales y de desarrollo que se remontan a casi siete décadas.

Este misterio persiste hoy y se encuentra en las formas avanzadas de IA. La insondabilidad del funcionamiento de las asociaciones realizadas por la máquina de Taylor llevó a Cowan a preguntarse si había “algo sospechoso en ello”.

Raíces largas y enredadas

Cowan se refirió a su breve visita a Taylor cuando se le preguntó sobre la recepción de su propio trabajo algunos años después. En la década de 1960, la gente era, reflexionó Cowan, “un poco lenta para ver el sentido de una red neuronal analógica”. Esto fue a pesar, recuerda Cowan, de que el trabajo de Taylor de la década de 1950 sobre la “memoria asociativa” se basaba en “neuronas analógicas”. El experto en sistemas neuronales ganador del Premio Nobel, León N. Cooper, concluyó que los avances en torno a la aplicación del modelo cerebral en la década de 1960 se consideraban "entre los misterios profundos". Debido a esta incertidumbre, persistió el escepticismo sobre lo que podría lograr una red neuronal. Pero las cosas poco a poco empezaron a cambiar.

Hace unos 30 años el neurocientífico Walter J. Freeman, que quedó sorprendido por el “relevantes” gama de aplicaciones que se han encontrado para las redes neuronales, ya comentaba que no las veía como “un tipo de máquina fundamentalmente nuevo”. Fueron un proceso lento, con la tecnología apareciendo primero y luego se encontraron aplicaciones posteriores para ella. Esto tomó tiempo. De hecho, para encontrar las raíces de la tecnología de redes neuronales podríamos retroceder incluso más allá de la visita de Cowan a la misteriosa máquina de Taylor.

El científico de redes neuronales James Anderson y el periodista científico Edward Rosenfeld han señalado que los antecedentes de las redes neuronales se remontan a la década de 1940 y a algunos de los primeros intentos de, como describen, “comprender los sistemas nerviosos humanos y construir sistemas artificiales que actúen como nosotros, al menos un poco”. Y así, en la década de 1940, los misterios del sistema nervioso humano también se convirtieron en los misterios del pensamiento computacional y la inteligencia artificial.

Resumiendo esta larga historia, el escritor de informática Larry Hardesty ha señalado que el aprendizaje profundo en forma de redes neuronales “ha estado de moda y pasado de moda durante más de 70 años”. Más específicamente, añade, estas "redes neuronales fueron propuestas por primera vez en 1944 por Warren McCulloch y Walter Pitts, dos investigadores de la Universidad de Chicago que se trasladaron al MIT en 1952 como miembros fundadores de lo que a veces se llama el primer departamento de ciencia cognitiva".

En otros lugares, 1943 A veces es la fecha indicada como el primer año de la tecnología. De cualquier manera, durante aproximadamente 70 años los relatos sugieren que las redes neuronales han entrado y dejado de estar de moda, a menudo descuidadas pero a veces arraigadas y pasando a aplicaciones y debates más convencionales. La incertidumbre persistió. Esos primeros desarrolladores frecuentemente describen la importancia de su investigación como algo que se pasó por alto, hasta que encontraron su propósito, muchos años y a veces décadas después.

Desde la década de 1960 hasta finales de la de 1970 podemos encontrar más historias sobre las propiedades desconocidas de estos sistemas. Incluso entonces, después de tres décadas, la red neuronal todavía tenía que encontrar un sentido de propósito. David Rumelhart, que tenía experiencia en psicología y fue coautor de una serie de libros publicados en 1986 que más tarde volverían a centrar la atención en las redes neuronales, se encontró colaborando en el desarrollo de redes neuronales. con su colega Jay McClelland.

Además de ser colegas, también se habían encontrado recientemente en una conferencia en Minnesota donde la charla de Rumelhart sobre "comprensión de la historia" había provocado cierta discusión entre los delegados.

Después de esa conferencia, McClelland regresó con una idea sobre cómo desarrollar una red neuronal que podría combinar modelos para ser más interactiva. Lo que importa aquí es El recuerdo de Rumelhart. de las “horas y horas y horas de trastear en el ordenador”.

Nos sentamos e hicimos todo esto en la computadora y construimos estos modelos de computadora, y simplemente no los entendíamos. No entendíamos por qué funcionaban o por qué no funcionaban ni qué tenían de crítico.

Al igual que Taylor, Rumelhart se encontró jugando con el sistema. Ellos también crearon una red neuronal funcional y, lo que es más importante, tampoco estaban seguros de cómo o por qué funcionaba de la forma en que lo hacía, aparentemente aprendiendo de los datos y encontrando asociaciones.

Imitando el cerebro, capa tras capa

Quizás ya hayas notado que cuando se habla de los orígenes de las redes neuronales, la imagen del cerebro y la complejidad que esto evoca nunca están lejos. El cerebro humano actuó como una especie de modelo para estos sistemas. En las primeras etapas, en particular, el cerebro –todavía una de las grandes incógnitas– se convirtió en un modelo de cómo podría funcionar la red neuronal.

Así pues, estos nuevos sistemas experimentales se basaron en algo cuyo funcionamiento era en gran medida desconocido. El ingeniero en neuroinformática Carver Mead ha hablado reveladormente de la concepción de un “iceberg cognitivo” que le había resultado particularmente atractiva. Es sólo la punta del iceberg de la conciencia de la que somos conscientes y que es visible. La escala y la forma del resto siguen siendo desconocidas debajo de la superficie.

En 1998, James Anderson, que trabaja desde hace algún tiempo en redes neuronales, señaló que cuando se trata de investigaciones sobre el cerebro, "nuestro mayor descubrimiento parece ser la conciencia de que realmente no sabemos lo que está pasando".

En un relato detallado en el Tiempos financieros en 2018, el periodista de tecnología Richard Waters señaló cómo las redes neuronales “se modelan según una teoría sobre cómo funciona el cerebro humano, pasando datos a través de capas de neuronas artificiales hasta que emerge un patrón identificable”. Esto crea un problema en cadena, propuso Waters, ya que “a diferencia de los circuitos lógicos empleados en un programa de software tradicional, no hay forma de rastrear este proceso para identificar exactamente por qué una computadora da una respuesta particular”. La conclusión de Waters es que estos resultados no pueden descartarse. La aplicación de este tipo de modelo del cerebro, que lleva los datos a través de muchas capas, significa que no es fácil rastrear la respuesta. Las múltiples capas son en gran parte la razón de esto.

Duro También observó que estos sistemas están “modelados libremente según el cerebro humano”. Esto genera un afán por incorporar una complejidad de procesamiento cada vez mayor para intentar coincidir con el cerebro. El resultado de este objetivo es una red neuronal que "consta de miles o incluso millones de nodos de procesamiento simples que están densamente interconectados". Los datos se mueven a través de estos nodos en una sola dirección. Hardesty observó que un "nodo individual podría estar conectado a varios nodos en la capa inferior, de la que recibe datos, y a varios nodos en la capa superior, a la que envía datos".

Los modelos del cerebro humano formaron parte de cómo se concibieron y diseñaron estas redes neuronales desde el principio. Esto es particularmente interesante si consideramos que el cerebro era en sí mismo un misterio de la época (y en muchos sentidos todavía lo es).

'La adaptación lo es todo'

Científicos como Mead y Kohonen querían crear un sistema que realmente pudiera adaptarse al mundo en el que se encontraba. Respondería a sus condiciones. Mead tenía claro que el valor de las redes neuronales era que podían facilitar este tipo de adaptación. En aquel momento, y reflexionando sobre esta ambición, hidromiel añadido que producir adaptación “es todo el juego”. Esta adaptación es necesaria, pensó, “debido a la naturaleza del mundo real”, que concluyó es “demasiado variable para hacer algo absoluto”.

Había que tener en cuenta este problema, sobre todo porque, en su opinión, era algo que “el sistema nervioso había descubierto hace mucho tiempo”. Estos innovadores no solo trabajaban con una imagen del cerebro y sus incógnitas, sino que la combinaban con una visión del "mundo real" y las incertidumbres, incógnitas y variabilidad que esto conlleva. Los sistemas, pensaba Mead, debían poder responder y adaptarse a las circunstancias. sin instrucción.

Casi al mismo tiempo, en la década de 1990, Stephen Grossberg –un experto en sistemas cognitivos que trabaja en matemáticas, psicología e ingeniería biomédica– también argumentó que la adaptación iba a ser el paso importante a largo plazo. Grossberg, mientras trabajaba en el modelado de redes neuronales, pensó para sí mismo que se trata "de cómo se diseñan los sistemas de control y medición biológica para adaptarse rápida y establemente en tiempo real a un mundo que fluctúa rápidamente". Como vimos anteriormente con el “sueño” de Kohonen de un sistema “autoorganizado”, una noción del “mundo real” se convierte en el contexto en el que la respuesta y la adaptación se codifican en estos sistemas. La forma en que se entiende e imagina ese mundo real sin duda determina cómo se diseñan estos sistemas para adaptarse.

Capas ocultas

A medida que las capas se multiplicaron, el aprendizaje profundo alcanzó nuevas profundidades. La red neuronal se entrena utilizando datos de entrenamiento que, Dureza, “se alimenta a la capa inferior – la capa de entrada – y pasa a través de las capas sucesivas, multiplicándose y sumándose de maneras complejas, hasta que finalmente llega, radicalmente transformada, a la capa de salida”. Cuantas más capas, mayor será la transformación y mayor la distancia entre la entrada y la salida. El desarrollo de unidades de procesamiento de gráficos (GPU), en juegos por ejemplo, añadió Hardesty, “permitió que las redes de una capa de la década de 1960 y las redes de dos o tres capas de la década de 1980 florecieran hasta convertirse en diez, quince o incluso cincuenta -Redes de capas de hoy”.

Las redes neuronales son cada vez más profundas. De hecho, según Hardesty, es a esta adición de capas a lo que se refiere "profundo" en "aprendizaje profundo". Esto es importante, propone, porque “actualmente, el aprendizaje profundo es responsable de los sistemas de mejor rendimiento en casi todas las áreas de la investigación en inteligencia artificial”.

Pero el misterio se hace aún más profundo. A medida que las capas de redes neuronales se han ido acumulando, su complejidad ha aumentado. También ha llevado al crecimiento de lo que se conoce como “capas ocultas” dentro de estas profundidades. La discusión sobre el número óptimo de capas ocultas en una red neuronal está en curso. El teórico de los medios Beatriz Fazi ha escrito que “debido a cómo opera una red neuronal profunda, que depende de capas neuronales ocultas intercaladas entre la primera capa de neuronas (la capa de entrada) y la última capa (la capa de salida), las técnicas de aprendizaje profundo a menudo son opacas o ilegibles incluso para el usuario”. programadores que originalmente los configuraron”.

A medida que las capas aumentan (incluidas las capas ocultas), se vuelven aún menos explicables (incluso, como resulta, nuevamente, para quienes las crean). Haciendo un comentario similar, la destacada e interdisciplinaria pensadora de los nuevos medios Katherine Hayles también señaló que existen límites a “cuánto podemos saber sobre el sistema, un resultado relevante para la 'capa oculta' en la red neuronal y los algoritmos de aprendizaje profundo”.

Persiguiendo lo inexplicable

En conjunto, estos largos desarrollos son parte de lo que el sociólogo de la tecnología Taina Bucher ha llamado la “problemática de lo desconocido”. Ampliando su influyente investigación sobre el conocimiento científico al campo de la IA, Harry Collins ha señalado que El objetivo de las redes neuronales es que puedan ser producidas por un ser humano, al menos inicialmente, pero “una vez escrito, el programa vive su propia vida, por así decirlo; Sin un gran esfuerzo, cómo funciona exactamente el programa puede seguir siendo un misterio”. Esto tiene ecos de esos viejos sueños de un sistema autoorganizado.

Yo añadiría a esto que lo desconocido y tal vez incluso lo incognoscible han sido perseguidos como parte fundamental de estos sistemas desde sus primeras etapas. Hay muchas posibilidades de que cuanto mayor sea el impacto que la inteligencia artificial llegue a tener en nuestras vidas, menos entenderemos cómo o por qué.

Pero eso no les sienta bien a muchos hoy en día. Queremos saber cómo funciona la IA y cómo llega a las decisiones y resultados que nos impactan. A medida que los avances en la IA sigan moldeando nuestro conocimiento y comprensión del mundo, lo que descubrimos, cómo nos tratan, cómo aprendemos, consumimos e interactuamos, este impulso de comprensión crecerá. Cuando se trata de una IA transparente y explicable, la historia de las redes neuronales nos dice que es probable que en el futuro nos alejemos más de ese objetivo, en lugar de acercarnos a él.

David cerveza, Profesor de Sociología, Universidad de York

Este artículo se republica de La conversación bajo una licencia Creative Commons. Leer el articulo original.