Los galardonados de
este año utilizaron herramientas de la física para
desarrollar métodos que ayudaron a sentar las bases
del aprendizaje automático.
John Hopfield
creó una estructura
que puede almacenar y reconstruir información.
Geoffrey Hinton
inventó un método que puede descubrir de forma independiente
las propiedades de los datos y que es
importante para las grandes redes neuronales
artificiales que se utilizan actualmente.
|
|
El software tradicional
funciona siguiendo una receta. Recibe dato que se
procesan de acuerdo con una descripción como
cuando alguien, a partir de los ingredientes y siguiendo
unas instrucciones, hace un pastel.
En el aprendizaje
automático la computadora aprende, lo que le permite
abordar problemas que son imprecisos o muy complicados
para ser resueltos mediante un conjunto de
instrucciones. Un ejemplo podría ser interpretar una
imagen para identificar los objetos que contiene.
Las redes neuronales artificiales
se han inspirado en los estudios sobre el funcionamiento
de la red de neuronas y sinapsis del cerebro, también de
la psicología, de la
hipótesis del neurocientífico Donald Hebb
según la cual se produce aprendizaje porque las conexiones
entre las neuronas se refuerzan cuando trabajan juntas.
Esta hipótesis
todavía se utiliza como una de las reglas básicas para
actualizar las redes artificiales a través de un proceso
llamado entrenamiento.
Imagina que estás tratando
de recordar una palabra inusual, que rara vez usas...
¿cómo se llama ese piso inclinado que a menudo se
encuentra en cines y salas de conferencias? Buscas en tu
memoria. Es algo así como
cuesta... tal
vez rambla...
No, tampoco. ¡Rampa,
eso es!
Este proceso de búsqueda a
través de palabras similares para encontrar la correcta
recuerda la memoria asociativa que el físico
John Hopfield descubrió en 1982.
The Hopfieldnetwork
almacena patrones y desarrolla un método para
recrearlos. Cuando a la red se le da un patrón
incompleto o ligeramente distorsionado, puede encontrar
el más similar.
En 1980, Hopfield dejó su
puesto en la Universidad de Princeton, y aceptó la
oferta de una cátedra de química y biología en el
Caltech en Pasadena, al sur de California. Allí tenía
acceso a recursos informáticos que podía utilizar para
experimentar y desarrollar sus ideas sobre las redes
neuronales.
En la física encontró la
inspiración. En particular, se benefició de sus
conocimientos sobre materiales magnéticos que tienen
características especiales gracias a su espín
atómico. Los espines de los átomos se ven afectados por
los de sus vecinos; esto da lugar a la formación de
dominios con espín en la misma dirección. Hopfield, fue
capaz de crear un modelo de red con nodos y conexiones
estudiando cómo se comportan los materiales cuando los
espines se influyen entre sí.
La red constaba de nodos
unidos entre sí a través de conexiones más o menos
fuertes. Cada nodo tiene un valor (0 o 1), como
los píxeles en una imagen en blanco y negro. El estado
de la red se describe mediante una propiedad que es
equivalente a la energía de espín; la energía se calcula
utilizando una fórmula que utiliza los valores de
los nodos y la fortaleza de las conexiones.
La red Hopfield se
programa mediante una imagen que alimenta a los nodos,
a los que se les da el valor de negro (0) o blanco
(1). A continuación, las conexiones de la red se
ajustan utilizando la fórmula de energía, de modo que la
imagen guardada tiene un mínimo de energía.
Cuando se introduce otro
patrón en la red, se comprueba si la nueva red adquiere
menor energía cambiando el valor de cada nodo. Este
procedimiento continúa hasta que se obtiene el valor
mínimo. Cuando se llega a este punto, la red a menudo ha
reproducido la imagen original con la que se entrenó.
El modelo se ha
perfeccionado con nodos que pueden almacenar cualquier
valor, no solo cero o uno, por ejemplo diferentes
colores. Los métodos mejorados han permitido guardar más
imágenes y diferenciarlas incluso cuando son bastante
similares. Es igualmente posible identificar o
reconstruir cualquier información, siempre que se
construya a partir de muchos puntos de datos.
Cuando Hopfield publicó su artículo sobre la memoria
asociativa, Geoffrey Hinton trabajaba en
la Universidad Carnegie Mellon en Pittsburgh. Anteriormente
había estudiado psicología experimental e inteligencia
artificial en Inglaterra y Escocia y se preguntaba si
las máquinas podrían aprender a procesar patrones de
manera similar a los humanos. Junto con su colega,
Terrence Sejnowski, Hinton partió de la red de Hopfield
y la amplió para construir algo nuevo, utilizando ideas
de la física estadística.
Los estados en los que los componentes individuales
pueden estar pueden analizarse utilizando la física
estadística y calcular la probabilidad de que
ocurran. Algunos estados son más probables que otros,
esto depende de la cantidad de energía disponible,
calculable mediante la ecuación que Boltzmann
propuso ya en el s. XIX. La red de Hinton utilizó esa
ecuación y el método se publicó en 1985 con el nombre de
máquina de Boltzmann.
La máquina Boltzmann se usa comúnmente con dos tipos
diferentes de nodos. Los llamado nodos visibles,
se alimentan con información y otros nodos forman la
capa oculta. Los valores y conexiones de los nodos
ocultos también contribuyen a la energía de la red en su
conjunto.
La máquina funciona aplicando una regla para actualizar
los valores de los nodos de uno en uno. Cada patrón
posible tendrá entonces una probabilidad específica que
está determinada por la energía de la red de acuerdo con
la ecuación de Boltzmann. Cuando la máquina se detiene,
ha creado un nuevo patrón, lo que convierte a la máquina
de Boltzmann en un ejemplo temprano de un modelo
generativo.
La máquina aprende, no mediante instrucciones, sino con
ejemplos. Se entrena actualizando los valores de las
conexiones de la red para que los patrones con los que
se alimentaron a los nodos visibles durante el
entrenamiento, tengan la mayor probabilidad de ocurrir
cuando se ejecuta la máquina. Si el mismo patrón se
repite varias veces durante este entrenamiento, la
probabilidad de que se produzca este patrón es mayor. El
entrenamiento también afecta a la probabilidad de
generar nuevos patrones que se asemejen a los ejemplos
con los que se entrenó la máquina.
En su forma original, la máquina de Boltzmann era
ineficiente y tardaba mucho tiempo en encontrar
soluciones. En las últimas versiones se han eliminado
las conexiones entre algunas de las unidades para
aumentar la eficiencia.
En 2006, Hinton y sus colegas Simon Osindero, Yee
Whye Teh y Ruslan Salakhutdinov desarrollaron un
método para el preentrenamiento de una red con una serie
de máquinas en capas. Este preentrenamiento suministró a
las conexiones de la red un mejor punto de partida, lo
que optimizó su entrenamiento para reconocer elementos
en imágenes.
Gracias a su trabajo,
John Hopfield y Geoffrey Hinton
han ayudado a sentar las bases de la revolución del
aprendizaje automático que comenzó alrededor de 2010.
El desarrollo que estamos
presenciando ahora ha sido posible gracias al acceso a
las grandes cantidades de datos que se pueden utilizar
para entrenar redes y a través del enorme aumento de la
potencia informática. Las redes neuronales artificiales
de hoy en día suelen ser enormes y construidas con
muchas capas. Se denominan redes neuronales profundas
y la forma en que se entrenan se denomina aprendizaje
profundo.
En los últimos años, esta
tecnología también ha comenzado a utilizarse para
calcular y predecir las propiedades de moléculas y
materiales, como el cálculo de la estructura de las
moléculas de las proteínas o averiguar qué nuevas
versiones de un material pueden tener las mejores
propiedades para su uso en células solares más
eficientes.
|