Categorías
innovación

La Inteligencia Artificial que hace lo que quiere

Todos sabemos que el 29 de junio de 1997 Skynet tomó consciencia de sí misma, lo que no sabemos es cómo pasó ni cómo sus programadores lo supieron.

Algo parecido les está pasando a los programadores de sistemas de Inteligencia Artificial de verdad, no los de ciencia ficción, y en las últimas semanas hemos visto un par de noticias alucinantes en este sentido, pero por qué no negarlo, que también dan un poco de cosica.

De todo esto hablamos en este #technobits de Capital Radio con Luis Vicente Muñoz:

https://resbla.com/wp-content/uploads/2021/03/IA-autosuficiente.mp3?_=1

 

Hace un par de semanas, OpenAI anunciaba que habían identificado neuronas multimodales en redes neuronales artificiales, concretamente en su sistema de reconocimiento de imágenes CLIP.

Ya hemos hablado bastantes veces en este blog de OpenAI, la empresa que empezó como fundación de Elon Musk enfocada en buscar una Inteligencia Artificial más humana, así que no entraremos en más detalles.

Es muy interesante que el documento en que presentan el estudio, citen a estas neuronas multimodales cómo la posible razón por las que CLIP es tan preciso. Es decir, se sabe de la precisión del sistema, pero no se sabe cómo se consigue. Esto es una constante en la IA actual.

Parece probado que los seres humanos tenemos neuronas multimodales. Son un tipo de neuronas superespecializadas que responden a conceptos abstractos más allá de una imagen o un sonido. Los autores de la investigación original en estas neuronas hicieron famoso el concepto de “neurona Halle Berry”. Esta sería una neurona que respondería a todo lo que nos recuerda a Halle Berry, ya sea su nombre, su imagen o películas en las que ha actuado por ejemplo.

Los investigadores de OpenAI han encontrado algo equivalente en la red neuronal de CLIP, y ponen entre otros ejemplos la que llaman “neurona Spiderman”. Esta neurona artificial reacciona no sólo a imágenes de spiderman, sino a dibujos de spiderman pero también de cosas relacionadas, y también a texto, algo que las neuronas multimodales biológicas también hacen.

Conviene recordar que las redes neuronales artificiales en las que se basan muchos de los sistemas de IA actuales, están diseñados de una manera que intentan imitar cómo funciona la mente humana. Así que sorprende poco que estemos hablando de neuronas, lo que sorprende es que estas neuronas hayan aprendido por sí solas a trabajar así, porque CLIP no se programó para que tuviera neuronas multimodales.

La realidad es que todas las redes neuronales se entrenan exponiéndolas a un montón de información y siguiendo procesos de aprendizaje, pero lo que parece casi ciencia ficción es que a través de ese proceso de aprendizaje, CLIP se haya optimizado de forma autónoma para generar estas neuronas artificiales multimodales.

El cienciaficcionista en mí diría que esto es una confirmación más del funcionamiento de las neuronas multimodales en los humanos y su eficacia, una especie de evolución “natural” acelerada. Pero al revés, que una red neuronal moderna como CLIP, efectivamente funciona de forma parecida a las de los seres humanos, aunque todo esto se lo dejaremos a los científicos. También por cierto, uno se pregunta qué pasará cuando se aplique todo esto a la computación cuántica que funciona de una forma probabilística similar a las de las redes neuronales.

Algo muy interesante también en esta publicación, es que OpenAI avisa de que todo esto abre la posibilidad a algo que llaman “ataques tipográficos“, en los que simplemente poniendo un texto a la vista de una inteligencia artificial, se puede conseguir engañarla para no distinguir lo que hay detrás. Fijaros que ante una manzana (apple), CLIP ya daba una probabilidad (muy pequeña) de que en la imagen en realidad hubiera un iPod. Pero al superponer un texto que lee “iPod”, la inteligencia artificial ya da de forma clara el resultado de iPod.

Otro ejemplo de un sistema de Inteligencia Artificial reaccionando de una forma para la que no había sido programado lo hemos visto también en Learning from videos de facebook.

Este sistema de tan original nombre, ha sido desarrollado por facebook para que sea la base de aprendizaje de sus diferentes sistemas en lo relativo al vídeo. Analizar y entender vídeo es una tarea de una magnitud muy superior a la del reconocimiento de imágenes, ya que no se trata sólo de entender lo que hay en un fotograma, sino también en la relación que hay entre los que forman el vídeo.

Learning from videos es una herramienta de investigación, pero facebook ya ha hecho algunas pruebas poniéndola a funcionar junto a GTD, su sistema más actual que entre otras cosas puede generar recomendaciones de vídeos basadas en su similitud.

Pues bien, resulta que el sistema recomienda vídeos en base a que tengan también sonidos parecidos, algo para lo que nunca fue diseñado.

Está claro que no estamos cerca de un sistema que de repente cobre consciencia de su existencia, pero no cabe duda de que haya sistemas que hagan bien cosas para las que nunca fueron diseñados es más que una sorpresa. De hecho, es una llamada de atención para algo de lo que se lleva hablando mucho tiempo (nosotros también lo hicimos aquí) y es de que la IA actual es una caja negra que ni siquiera sus creadores con capaces de explicar.

Por eso, una de las tendencias en la IA (identificada en el hype cycle desde hace un par de años) es el de la Inteligencia Artificial Explicable (explainable AI). No sólo es necesario que sus creadores entiendan por qué las IA toman las decisiones que toman, sino va a ser cada vez más importante obviamente para sus propietarios, pero también para sus usuarios. De hecho, es probable que sea obligatorio por ley dentro de poco.

@resbla