Implementación de memoria asociativa
Escrito por Shashata Sawmya y Harveer Singh
Con el advenimiento de las grandes redes neuronales y los avances tecnológicos cada vez mayores que llevan los métodos actuales a su límite absoluto, el enfoque ha sido crear una herramienta general que apunta a hacer todo. Sin embargo, la mayoría de las tareas no necesitarían redes profundas increíblemente intensivas, sino algo más versátil que los modelos matemáticos básicos. Una tarea potencial que no necesitaría la intensidad de las redes neuronales profundas sería el almacenamiento y recuperación de información llamados recuerdos asociativos. La idea aquí es que dada alguna entrada, nos gustaría poder recuperar una salida relacionada de un sistema que asocie esos dos juntos y los mantenga en "memoria". El nombre memoria asociativa proviene del concepto psicológico de que nuestro cerebro es un sistema de almacenamiento de memoria que puede vincular conceptos. Un tipo de memoria asociativa es la memoria autoasociativa en la que damos una representación parcial de nuestra salida deseada como entrada, esta podría ser la salida con ruido agregado o partes de la salida enmascaradas. Un ejemplo de este tipo de memoria en acción sería ver una imagen parcial de un familiar y que su cerebro pueda llenar automáticamente el resto de la imagen mentalmente. Otro tipo es la memoria heteroasociativa donde las salidas pueden ser de diferentes categorías de la entrada dada pero el modelo recuerda vincularlas. Imagina escuchar la palabra “perro”, tu cerebro es capaz de asociarla automáticamente con otros conceptos como “gato” o “correa” [1]. Un ejemplo de este tipo de memoria en acción sería ver una imagen parcial de un familiar y que su cerebro pueda llenar automáticamente el resto de la imagen mentalmente. Otro tipo es la memoria heteroasociativa donde las salidas pueden ser de diferentes categorías de la entrada dada pero el modelo recuerda vincularlas. Imagina escuchar la palabra “perro”, tu cerebro es capaz de asociarla automáticamente con otros conceptos como “gato” o “correa” [1]. Un ejemplo de este tipo de memoria en acción sería ver una imagen parcial de un familiar y que su cerebro pueda llenar automáticamente el resto de la imagen mentalmente. Otro tipo es la memoria heteroasociativa donde las salidas pueden ser de diferentes categorías de la entrada dada pero el modelo recuerda vincularlas. Imagina escuchar la palabra “perro”, tu cerebro es capaz de asociarla automáticamente con otros conceptos como “gato” o “correa” [1].
Los sistemas de AM (memoria asociativa) tienen una rica historia, pero hay hitos de investigación clave que pueden dar una visión general de los avances técnicos:
- Red Willshaw (Willshaw et al, 1969)
- Red Hopfield (Hopfield, 1982)
Inspirado por las propiedades "similares a la memoria" de los hologramas, en 1969 DJ Willshaw propuso el correlelograph, o correlograma, y un enfoque cuantitativo de la memoria asociativa.
La figura anterior demuestra la convolución de los patrones A y B para crear un nuevo patrón en C, más específicamente, A y B contienen orificios por los que pasa una fuente de luz (detrás de A) para crear un patrón en C que contiene información sobre ambos patrones de agujeros de alfiler A partir de esto, vea la figura 2 a continuación, la creación de agujeros de alfiler a partir del patrón proyectado en C y el paso de la luz emitida detrás de C y a través de B produce exactamente el mismo patrón donde se encuentran los agujeros de A.
Durante la construcción del correlógrafo, Willshaw notó que si tanto A como B contienen N agujeros, entonces el patrón en C sería de tamaño N². Esto llevó a la propuesta de la red asociativa, una intersección de N líneas paralelas (que representan a A) y N líneas paralelas (que representan a B).
La construcción de la red sigue que cada semicírculo en el espacio N² se activa si tanto la entrada izquierda como la entrada derecha también están activadas, lo que representa su asociación entre sí. A continuación, puede recuperar el patrón A de B siguiendo los círculos del lado izquierdo y ver con qué círculos de la parte superior están asociados al ver en cuál de los puntos N² están. Está claro que esto funcionaría fácilmente con una sola asociación de pares, pero también es posible aprender múltiples patrones en la misma red. Willshaw muestra que el máximo teórico de eficiencia de la red es cuando el 50 % de los puntos N² están activados, lo que reduce la probabilidad de un "golpe falso", lo que sugiere un punto en A que no estaba originalmente asociado con el patrón B [2 ].
Red Hopfield
Naturalmente, siguiendo la red asociativa, la principal innovación que impulsó el diseño AM moderno se produjo en 1982, cuando John Hopfield, a menudo conocido como el padrino de las redes neuronales, propuso su red hopfield. La red es recurrente completamente conectada con cada neurona en un estado binario (0 o 1) y el peso dado entre el valor de entrada y el valor de salida deseado se representa en una matriz de peso.
Si Tij es la matriz de peso correspondiente, la asociación se logra mediante:
Donde U en una cantidad límite inteligentemente elegida para mejorar la precisión.
Para almacenar múltiples estados de asociación, se proporciona el siguiente algoritmo:
Imponemos la restricción de que para i=j, el peso es 0 en T. Esto conduce a la pseudo ortogonalidad de:
Esto sugiere que si Vi es 1, el valor pronosticado para J es positivo y negativo si es 0. Esto sigue la regla de asociación anterior donde U es 0.
Este algoritmo de aprendizaje esencialmente promedia los estados estables para cada patrón, pero esto determina cuántos patrones podría recordar una red determinada. Inspirándose en los modelos de Ising y la minimización de energía, Hopfield propone que este mecanismo de actualización se interprete como minimización de energía. Para una red recurrente de N nodos, todos los nodos están conectados entre sí, tomamos un nodo aleatorio a la vez y usamos la matriz de peso para actualizar ese nodo.
Donde s es el número de nodo y el valor entre paréntesis es el paso de tiempo.
Al estudiar los puntos estables, el algoritmo de actualización se define por esta regla de energía:
Esto sugiere que cualquier cambio en Vi disminuye la energía de la red siempre que el cambio en Vi (+ o -) coincida con el signo de salida de la multiplicación de matrices.
Los nodos se actualizan de forma asíncrona y aleatoria siguiendo la regla de energía y el umbral dado. Se garantiza que se alcanzará un estado de energía estable ya que la regla de actualización solo cambia una neurona si disminuye la energía en cada paso de tiempo. Al determinar cuántos estados estables pueden existir, se demostró que existen aproximadamente 0,15 N estados para N neuronas en el modelo, una escala estrictamente de o(N) [3]. También es valioso tener en cuenta que la estructura de este tipo de red conduce al éxito en las tareas autoasociativas, pero existen variaciones como las codificaciones de "vector-matriz-vector" que también pueden implementar la memoria heteroasociativa [4].
teorías biológicas
Una idea clave que impulsa todos los modelos mencionados anteriormente es promover una conexión si una neurona coincide con la del patrón que se está emparejando. Este estilo de aprendizaje se conoce como "aprendizaje hebbiano", que promueve una conexión en las sinapsis si las dos neuronas se disparan juntas. Aunque la formación de la memoria en el cerebro es todavía un fenómeno desconocido, se ha demostrado en el laboratorio que esta idea de "disparar juntos, conectar juntos" ha sido biológicamente precisa [5].
Implementación de memoria asociativa in-silico
La memoria asociativa es un tipo de memoria que permite almacenar y recuperar información en función de las relaciones o asociaciones entre diferentes datos. El desarrollo de modelos computacionales para un sistema de este tipo es un problema bien establecido en la intersección de la neurociencia y la inteligencia artificial. Los métodos bien estudiados como las redes de Hopfield solo pueden almacenar patrones binarios; sin embargo, los datos complejos (como imágenes y textos) requieren sistemas complejos para resolver el problema.
¿Son los métodos basados en energía buenos modelos computacionales para la memoria asociativa?
Casi todos los modelos de memoria asociativa basados en energía almacenan patrones en los mínimos locales de una función de energía. La idea principal detrás de estos modelos es definir un paisaje energético, donde los patrones almacenados corresponden a estados estables con baja energía. La función de energía está diseñada para tener múltiples mínimos locales, cada uno de los cuales representa un patrón almacenado. Cuando el sistema recibe una entrada, actualiza iterativamente su estado para minimizar la función de energía, convergiendo eventualmente en el patrón almacenado más cercano, que es el mínimo local más cercano a la entrada. Algunos modelos basados en energía son:
Redes de Hopfield [2]: La función de energía en las redes de Hopfield se define como una función cuadrática del estado de la red. Cada patrón almacenado corresponde a un mínimo local de esta función de energía. La dinámica de la red asegura que el sistema convergerá a uno de estos mínimos locales, recuperando efectivamente el patrón asociado.
Máquinas de Boltzmann [6]: En las máquinas de Boltzmann, la función de energía se define en términos de los estados de los nodos y los pesos de las conexiones entre ellos. El proceso de aprendizaje ajusta los pesos para crear un paisaje energético con mínimos locales que corresponden a los patrones almacenados. Luego, el sistema utiliza dinámicas estocásticas para explorar el panorama energético y establecerse en un mínimo local, recuperando el patrón correspondiente.
Enfoques basados en la teoría del campo medio [7]: estos enfoques también almacenan patrones en los mínimos locales de una función de energía. Al aproximar la dinámica de un sistema complejo con la teoría del campo medio, los procesos de aprendizaje y recuperación se pueden analizar y optimizar de manera más eficiente.
Estos modelos tradicionales pueden manejar datos de imágenes a pequeña escala, pero pueden tener problemas con imágenes más grandes y complejas debido a sus limitaciones en capacidad, escalabilidad y complejidad computacional.
¿Puede la interpolación por sí sola implementar la memoria asociativa?
La memorización requiere que el modelo recupere los datos de entrenamiento, mientras que la interpolación es la capacidad de ajustar perfectamente los datos de entrenamiento. Entonces, la interpolación por sí sola no puede implementar la memoria asociativa. La interpolación puede ser una técnica útil para aproximar valores entre puntos de datos conocidos, pero no es suficiente para implementar un sistema de memoria asociativo completo. Los modelos de memoria asociativa están diseñados para almacenar y recuperar patrones en función de sus asociaciones, a menudo mediante la identificación del patrón almacenado más cercano a una entrada determinada, incluso si la entrada es ruidosa o está incompleta.
Si bien la interpolación se puede usar para estimar valores entre puntos de datos conocidos, no está inherentemente diseñada para lidiar con el ruido, la información incompleta o el reconocimiento de patrones. Los métodos de interpolación, como la interpolación lineal o polinomial, se basan en la suposición de que la función subyacente es suave o tiene una forma específica, lo que puede no ser cierto para muchos problemas de memoria asociativa del mundo real.
Un método alternativo para la memoria asociativa: ¿sobreparametrización?
La sobreparametrización se refiere a una situación en la que un modelo de aprendizaje automático tiene una gran cantidad de parámetros (pesos y sesgos) en comparación con el tamaño del conjunto de datos de entrenamiento. En otras palabras, el modelo es más complejo de lo necesario para explicar o capturar los patrones subyacentes en los datos. Se observó antes que los modelos sobreparametrizados pueden interpolar los datos; un estudio reciente de Radhakrishnan et al. 2020 [8] mostró que los codificadores automáticos sobreparametrizados también podrían usarse para memorizar y recuperar ejemplos de entrenamiento. El mecanismo es notablemente simple; — los ejemplos pueden ser
recupera simplemente iterando el mapa aprendido.
¡Codificadores automáticos! ¡También sobreparametrizado! ¿Qué son éstos?
Un codificador automático es un tipo de red neuronal artificial que se utiliza para el aprendizaje no supervisado de representaciones de datos eficientes, a menudo con el objetivo de reducir la dimensionalidad, el aprendizaje de características o la compresión de datos. Consta de dos partes principales: el codificador y el decodificador.
El objetivo de entrenamiento de un codificador automático es minimizar el error de reconstrucción entre los datos de entrada y los datos reconstruidos, que se genera al pasar la entrada a través del codificador y luego del decodificador.
En pocas palabras, un codificador automático sobreparametrizado es un codificador automático con una gran cantidad de parámetros. Adit et. Alabama. mostró que los codificadores automáticos sobreparametrizados almacenan ejemplos de entrenamiento como puntos fijos o actuadores. Sin embargo, también aprende el mapa identidad f(x) = x
Esta es una estafa para la asociatividad porque una condición previa es que la derivada en los ejemplos debe ser menor que 1. Adit et. Alabama. 2020trabajó bajo la premisa de que los codificadores automáticos sobreparametrizados son lo suficientemente potentes como para implementar la memoria asociativa. Demostraron en su trabajo que los codificadores automáticos sobreparametrizados se pueden usar como una "memoria asociativa basada en atractores". La idea central detrás de los sistemas basados en atractores es que la red debería poder recuperar un patrón almacenado cuando se le proporciona una versión incompleta o ruidosa de ese patrón. El patrón de entrada sirve como una señal, y la dinámica de la red guía al sistema hacia el atractor más cercano, "limpiando" de manera efectiva el ruido o completando la información que falta; en pocas palabras, OPA puede implementar la memoria asociativa. Las condiciones matemáticas para ser una memoria asociativa basada en atractores son:
- Los ejemplos deben ser puntos fijos.
- Las derivadas en los ejemplos deben ser menores que 1.
¿Esto realmente sucede?
El documento proporciona una amplia evidencia empírica de que los atractores se pueden encontrar en codificadores automáticos a través de varias arquitecturas y técnicas de optimización. Los autores demostraron con éxito un codificador automático sobreparametrizado capaz de almacenar 500 imágenes del conjunto de datos ImageNet-64 como atractores. Confirmaron que las 500 imágenes de entrenamiento se almacenaron como atractores al examinar los valores propios de la matriz jacobiana para cada ejemplo. El estudio también analizó la tasa a la que los ejemplos de capacitación podrían recuperarse bajo diferentes formas de corrupción, revelando una tasa de recuperación impresionantemente alta.
Otros experimentos demostraron que los codificadores automáticos también podían almacenar ejemplos de entrenamiento como atractores cuando se entrenaban con 2000 imágenes del conjunto de datos MNIST y 1000 imágenes en blanco y negro del conjunto de datos CIFAR10. Aunque los atractores espurios (atractores que no sean ejemplos de entrenamiento) pueden existir potencialmente en codificadores automáticos sobreparametrizados, los investigadores no pudieron identificar tales atractores espurios en su ejemplo de ImageNet-64.
Los autores realizaron un análisis exhaustivo del fenómeno del atractor, examinando varias arquitecturas comunes, métodos de optimización y esquemas de inicialización. Estos incluyeron una variedad de no linealidades, métodos de optimización y esquemas de inicialización. Sus hallazgos revelaron que los atractores surgieron en todos los escenarios donde el entrenamiento convergió en una pérdida suficientemente baja dentro de 1,000,000 de épocas. Significativamente, este fenómeno no se limitó a redes totalmente conectadas, sino que también se observó en arquitecturas de red ampliamente utilizadas, como redes convolucionales y recurrentes.
Significativamente, este fenómeno no se limitó a las redes totalmente conectadas, ya que también se observó en arquitecturas de red ampliamente utilizadas, como las redes convolucionales y recurrentes. Para visualizar los atractores 2D, entrenaron un codificador automático para almacenar seis ejemplos de entrenamiento como atractores y visualizaron sus cuencas de atracción iterando el mapa del codificador automático entrenado, comenzando desde 10 000 puntos de cuadrícula hasta la convergencia. El campo vectorial en el experimento indica la dirección de movimiento dada por la iteración. Cada ejemplo de entrenamiento y su cuenca de atracción correspondiente están representados por diferentes colores. Curiosamente, el estudio reveló que la métrica aprendida por el autocodificador para separar las cuencas de atracción no es la distancia euclidiana, que estaría indicada por un diagrama de Voronoi.
La codificación de secuencias muestra mejores resultados que la codificación automática.
Cambiar ligeramente la función objetivo de los codificadores automáticos da como resultado la implementación de memorias asociativas. Los investigadores demostraron que minimizar la función de pérdida para un umbral lo suficientemente pequeño y estable codifica las secuencias de entrenamiento como los ciclos límite de la red (un tipo de atractor que exhibe un comportamiento estable y periódico).
Nota final
En conclusión, la memoria asociativa es un aspecto fascinante de la cognición humana que se ha estudiado en varios contextos, incluidos los sistemas biológicos, las redes de Hopfield y las redes neuronales sobreparametrizadas. Nuestra comprensión de la memoria asociativa en los organismos vivos ha inspirado el desarrollo de modelos computacionales, como las redes de Hopfield, que a su vez han hecho avanzar los campos de la inteligencia artificial y el aprendizaje automático.
Investigaciones recientes sobre redes neuronales sobreparametrizadas han descubierto la aparición de atractores, un fenómeno relacionado con la memoria asociativa, en una variedad de arquitecturas y técnicas de optimización. Este emocionante desarrollo no solo solidifica la conexión entre los sistemas neuronales biológicos y artificiales, sino que también abre nuevas oportunidades para explorar modelos más eficientes y sólidos para el almacenamiento y la recuperación de la memoria.
A medida que continuamos descubriendo los intrincados mecanismos que subyacen a la memoria asociativa, nuestros hallazgos impulsarán más innovaciones en inteligencia artificial, allanando el camino para modelos avanzados inspirados en la biología que pueden simular las capacidades cognitivas humanas. Esta exploración en curso promete mejorar nuestra comprensión de la compleja relación entre la biología y la computación, lo que en última instancia conducirá a avances que pueden beneficiar a ambos campos.
Agradecimiento especial a Nir N. Shavit por su guía y útil discusión. Creado como parte de la clase 6.S978 del MIT: tejido frente a silicio en el aprendizaje automático, primavera de 2023.
Referencias
- Smith, J. (2022). ¿Qué es la memoria asociativa? Muy bien Mente.https://www.verywellmind.com/what-is-associative-memory-5198601
- Willshaw, DJ, Buneman, OP y Longuet-Higgins, HC (1969). Memoria asociativa no holográfica. Nature , 222 (5197), 960–962.Yáñez-Márquez, C., López-Yáñez, I., Aldape-Pérez, M., Camacho-Nieto, O., Argüelles-Cruz, AJ, & Villuendas-Rey, Y. (2018). Fundamentos teóricos de las memorias asociativas alfa-beta: 10 años de extensiones, modelos y aplicaciones derivadas. Cartas de procesamiento neuronal , 48 (2), 811–847.
- Hopfield, JJ (1982). Redes neuronales y sistemas físicos con habilidades computacionales colectivas emergentes. Actas de la academia nacional de ciencias , 79 (8), 2554–2558.
- Kosko, B. (1988). Memorias asociativas bidireccionales. IEEE Transactions on Systems, man, and Cybernetics, 18(1), 49–60.
- McClelland, JL (2006). ¿Hasta dónde puede llegar con el aprendizaje de Hebbian, y cuándo lo lleva por mal camino? Procesos de cambio en el desarrollo cerebral y cognitivo: Atención y rendimiento xxi, 21, 33–69.
- Ackley, David H., Geoffrey E. Hinton y Terrence J. Sejnowski. "Un algoritmo de aprendizaje para máquinas de Boltzmann". Ciencia cognitiva 9.1 (1985): 147–169.
- Barabási, Albert-László, Réka Albert y Hawoong Jeong. "Teoría del campo medio para redes aleatorias sin escala". Physica A: Mecánica estadística y sus aplicaciones 272.1–2 (1999): 173–187.
- Radhakrishnan, Adityanarayanan, Mikhail Belkin y Caroline Uhler. "Las redes neuronales sobreparametrizadas implementan la memoria asociativa". Actas de la Academia Nacional de Ciencias 117.44 (2020): 27162–27170