Blog Competencias Digitales Competencias Transversales Innovación Javier Ideami Tribuna-Javier Ideami

Volviendo a casa

Por Javier Ideami, CEO Ideami.

En el espectacular progreso del deep learning, la rama de la inteligencia artificial que se enfoca
en el uso de redes neuronales artificiales, una nueva etapa evoluciona a gran velocidad desde
su inicio en el 2014. Es la etapa de la I.A. generativa y creativa, una parte esencial para que la
I.A. se acerque más al potencial humano, y nos lleve más cerca de nuestra propia esencia, lo
que llamo: “volver a casa”.

Pintura del autor Javier Ideami

Desde sus inicios, las redes neuronales artificiales y el campo del deep learning nos han ido
permitiendo mejorar el nivel de tareas como predecir, clasificar y recomendar, gracias al
incremento del volumen de datos disponible para entrenarlas así como al incremento de la
velocidad de computación y el progreso algorítmico y arquitectónico relacionado con estos
sistemas.

Esto nos ha permitido avanzar mucho en esa rama “interpretativa” de la I.A., la capacidad de
procesar datos e interpretarlos, detectando patrones que nos permiten hacer esas predicciones
y recomendaciones.

Procesos similares se desarrollan en el cerebro humano. Por ejemplo, en el córtex visual, los
estímulos que llegan a la retina se procesan de forma jerárquica a través de diferentes capas,
de manera similar a como se utilizan las redes convolucionales en el deep learning, para así
detectar patrones en esos datos, patrones a diferentes niveles de abstracción, desde líneas y
curvas, a patrones complejos como ruedas, caras o edificios.

Pero en el cerebro humano encontramos también el proceso contrario, algo que es esencial
para una inteligencia avanzada. La capacidad de generar vs interpretar. La capacidad de
transformar la esencia de un concepto, su representación comprimida, en elementos nuevos.

Cuando vemos coches por la calle, coches de diferentes formas y colores, nuestro cerebro, a
través del tiempo, aprende la esencia del espacio probabilístico de esas entidades, los coches.
Y entonces somos capaces de navegar ese espacio probabilístico aprendido para generar, a
partir de nuevos puntos de ese espacio, imágenes de coches inventados. Coches con formas
inesperadas, coches que “vemos” en nuestra mente, que somos capaces de inventar y generar
gracias a haber comprendido y aprendido la esencia del espacio probabilístico donde existen
esas entidades.

La I.A. generativa es revolucionaria porque nos permite hacer algo similar. A través de
arquitecturas como las GANs (generative adversarial networks), los autoencoders (VAEs y sus
variaciones), o los Transformers, estas redes nos permiten, de manera más o menos
supervisada, aprender esos espacios latentes, los espacios probabilísticos relacionados con
diferentes conjuntos de datos. Y una vez aprendidos estos espacios, que integran la esencia de
las entidades representadas en los datos, nos permiten generar e inventar nuevos elementos.

Aún más excitante es la I.A. multimodal, que lleva este aspecto generativo aún más cerca de lo
que hacemos los humanos. Cuando generamos, los humanos somos capaces de combinar
múltiples modalidades. Nos dicen una frase verbalmente, y a partir de ella visualizamos una
imagen. O vemos una imagen y a partir de ella se nos ocurre una frase. O escuchamos un
sonido, y el sonido nos hace visualizar algo, etc.

La I.A. multimodal, que ha comenzado a surgir recientemente, nos permite hacer ya cosas
parecidas. Por ejemplo, combinando la arquitectura CLIP de OpenAI, con otra arquitectura
generativa de tipo Transformers, podemos dar frases escritas al sistema de I.A., el cual
generará imágenes nuevas que expresarán el contenido de las frases escritas. Si usas la frase
“Un grupo grande de personas con sombreros verdes bailando alrededor de un elefante”, la I.A.
será capaz de inventarse una imagen nueva, una imagen que nadie ha visto antes, que
contendrá esos elementos y expresará el contenido de esa frase.

El potencial de la I.A. generativa y multimodal es infinito, tan infinito como nuestra propia
capacidad humana de crear
. Es fácil presentir la aplicación que tendrá en campos como el
marketing, la publicidad, los medios creativos, la expresión artística y otros similares.

Pero su aplicación va mucho más allá, y tocará todos los campos y áreas de nuestra existencia.
Porque en la mayoría de los campos de la vida existe la necesidad de algun tipo de expresión
creativa o generativa.

Por ejemplo, la empresa Insilico Medicine, ha utilizado un sistema de I.A. generativa +
aprendizaje por refuerzo para inventar nuevas moléculas químicas que se pueden aplicar a la
mision de tratar diversas enfermedades. Su sistema fue probado con éxito en ratones y
consiguió resultados positivos en un plazo de tiempo muchísimo menor del que llevaría hacerlo
de la manera tradicional.

Utilizando una arquitectura generativa de tipo VAE (autoencoder variacional), el sistema es
capaz de aprender la esencia, el espacio latente y probabilístico de una enorme base de datos
de moléculas químicas. Una vez aprendido ese espacio, el sistema puede generar e inventarse
moléculas químicas totalmente nuevas. La parte de aprendizaje por refuerzo permite entonces
acotar el proceso generativo al tipo de moléculas que cumplen una serie de requerimientos
para ajustarse a la enfermedad que se quiere tratar.

En resumen, la I.A. generativa y creativa nos trae más cerca de casa, de nuestra propia
esencia humana, de nuestra capacidad de imaginar y de crear
. La I.A. generativa complementa
lo hecho hasta ahora y nos lanza en una nueva aventura hacia el potencial humano más
avanzado, con posibilidades infinitas de impactar todo tipo de campos profesionales y
personales.

Es hora de volver a casa. Es la hora de la I.A. generativa y multimodal.


Descubre sus programas