Facebooktwitterlinkedin

Durante los últimos años el ecosistema digital se ha mantenido en una constante evolución, y uno de los campos que más ha sido partícipe de este avance ha sido el de la IA o inteligencia artificial. Esta disruptiva tecnología se ha hecho lugar en muchos espacios del ecosistema digital, optimizando funciones de automatización, interpretación o recuperación de datos, entre muchas más.

Recientemente, el desarrollo de esta tecnología ha tomado un enfoque más visual con la presentación de Dalle-2, proyecto del que hablamos hace poco. Este se trata de un sistema diseñado para generar imágenes a partir de descripciones escritas por los usuarios, con resultados de gran realismo. El lanzamiento de esta IA ha causado un gran revuelo en el ámbito digital, lo cual suscitó una respuesta de Google, que ha lanzado su propio proyecto de IA en torno a esta línea de desarrollo.

Imagen, el nuevo proyecto de IA de Google que crea imágenes a partir de texto     

El gigante tecnológico ha presentado su proyecto de IA como un modelo de difusión de texto a imagen, el cual plantea una alternativa a la IA de OpenAI, Dalle-2. Imagen, que es el nombre de este proyecto, ofrece la oportunidad de crear imágenes fotorrealistas a partir de textos descriptivos.

«Una pared en un castillo real. Hay dos cuadros en la pared. El de la izquierda es un óleo detallado del rey mapache real. El de la derecha es un óleo detallado de la reina mapache.» / Fuente: Imagen

Imagen está construido a partir de grandes modelos lingüísticos para lograr el profundo entendimiento del lenguaje que alcanza su tecnología. Así mismo, trabaja en conjunto con modelos de difusión para la creación de imágenes con un mayor nivel de fidelidad. Es decir, imágenes que se adecúen con mayor eficiencia a las descripciones realizadas en el texto.

«Un pomerania está sentado en el trono del rey con una corona. Dos soldados tigres están de pie junto al trono.» / Fuente: Imagen

De acuerdo con las declaraciones de Google, uno de los principales descubrimientos que han realizado en el desarrollo de Imagen, es que la integración de amplios modelos de lenguaje aumenta la fidelidad y la alineación imagen-texto, mucho más que el aumentar el tamaño del modelo de difusión de imágenes. Así, los modelos de lenguaje genéricos de gran tamaño, los cuales están pre entrenados en la interpretación de corpus de textos (serie de fragmentos de lenguaje estructurados), son ideales para las funciones de este proyecto de IA. Además, permiten conseguir imágenes de alta calidad y relación con el texto como las que hemos visto.

«Un simpático corgi vive en una casa hecha de sushi.» / Fuente: Imagen

Por otro lado, junto con la presentación de estos resultados de investigación que hemos mencionado, Google también publicó un DrawBench. Su finalidad es servir de guía y comparativa, siendo un punto de referencia de la aceptación de Imagen, frente a los otros motores de IA para la creación de imágenes a partir de texto en el mercado, como Dalle-2 y VQ-GAN+CLIP. Según informa Google, los resultados de esta comparación revelan que los evaluadores humanos prefieren Imagen sobre estos otros modelos, tanto en lo relativo a la calidad de la imagen como a la alineación texto-imagen. 

Fuente: Google

Un proyecto cerrado, por el momento

Tanto Google como OpenAI, son conscientes de las amplias posibilidades de uso, y mal uso, que estos nuevos modelos de difusión pueden ofrecer. Por ello se ha dedicado a trabajar de manera cerrada en sus respectivas tecnologías. En el caso de Dalle-2 es posible solicitar probar la IA desde un formulario, mientras que con Imagen han decidido mantenerla completamente aislada. Por lo tanto, se ha decidido no publicar ninguna clase de código o demostración pública sobre la generación de las imágenes.

Dicho esto, la única interacción directa con la generación de imágenes de Imagen es a través de un breve demo presente en su página de presentación. Además de las publicaciones compartidas por Jeff Dean, Vicepresidente de Google, y otros integrantes del equipo de investigación.

Imagen: Imagen («The Toronto skyline with Google brain logo written in fireworks»)

Escribir comentario