Tutorial y comparación de la creación de imágenes con IA: Dall-e VS Stable Diffusion VS Canva (Text to Image)

Con la actual popularidad mediática de ChatGPT esta es una oportunidad para hablar también de DALL-E, otra inteligencia artificial también diseñada por AI abierto ! Y, de manera más general, IA generadoras de imágenes. Donde ChatGPT es capaz de generar texto escrito con una facilidad desconcertante, DALL-E y otros similares han sido entrenados para crear imágenes a partir de una simple solicitud escrita del usuario.

Echemos un vistazo a cómo funcionan, sus capacidades, pero también sus límites con este artículo comparativo de IA creadoras de imágenes.

Pero por cierto, ¿cómo funciona una IA?

Una muy buena pregunta a la que puede ser interesante volver rápidamente, especialmente porque no la abordamos en nuestro artículo anterior sobre ChatGPT. Cuando escuchas "Inteligencia artificial" es difícil no tener en mente este tipo de robots humanoides como los hemos visto en las películas. Esto es lo que generan las propias IA cuando se les pide una imagen correspondiente a la búsqueda de estas palabras clave, como la imagen introductoria de este artículo.

Este paisaje no existe, es 100% artificial generado por una IA

Sin embargo, en realidad, muchas de las IA existentes no tienen una envoltura física. De hecho, la mayoría de las veces, se trata de programas informáticos basados ​​en algoritmos específicos que han sido entrenados por humanos para realizar determinadas tareas más o menos complejas.

¡La generación de imágenes es una tarea que se puede asignar a una (o más) IA! Para conocer más sobre los métodos de creación de imágenes por IA, no dudes en ver el siguiente video:

Generemos nuestras primeras imágenes con inteligencia artificial

Para ello, nada podría ser más sencillo a primera vista, ya que lo único que tienes que hacer es describir textualmente a la IA la imagen que quieres obtener. Para este artículo decidimos comparar las imágenes proporcionadas por tres generadores de IA:

  • DALL-E
  • Difusión estable
  • Canva (Texto a imagen)

Por supuesto, hay otros que no deberías dudar en probar también. Acá hay uno lista no exhaustiva.

Si eres un poco creativo, estamos seguros de que encontrarás muchas ideas para generar imágenes. Pero para aquellos para quienes sería un poco más complejo, es posible pedirle a… ChatGPT un poco de ayuda. Sí, usamos una IA para usar otra IA…

Respuesta de ChatGPT a la pregunta: Tengo que escribir un artículo en dall.e, ¿tiene alguna idea de imágenes que se puedan generar con este modelo de IA?

Por supuesto, como modelo de generación de imágenes, DALL-E puede crear una amplia variedad de imágenes. Estas son algunas ideas de imágenes que podría generar con DALL-E:

  1. Animales de fantasía: Pida a DALL-E que genere imágenes de animales imaginarios, como un dragón con alas de mariposa o una serpiente con patas.
  2. Alimentos extraños: pídale a DALL-E que genere imágenes de alimentos inusuales, como una pizza de chocolate o una hamburguesa con rebanadas de sandía.
  3. Ropa inusual: Pida a DALL-E que genere imágenes de ropa extraña, como un sombrero con forma de Torre Eiffel o zapatos con alas.
  4. Paisajes imaginarios: pide a DALL-E que genere imágenes de paisajes de fantasía, como una ciudad flotando en las nubes o un bosque de hongos gigantes.
  5. Objetos híbridos: pídale a DALL-E que genere imágenes de objetos que son una mezcla de dos cosas diferentes, como una cama que parece una hamaca o un automóvil con alas de pájaro.
  6. Retratos de celebridades: solicite a DALL-E que genere imágenes de retratos de celebridades que no existen, como una versión alternativa de Marilyn Monroe con tatuajes.
  7. Automóviles futuristas: solicite a DALL-E que genere imágenes de automóviles futuristas, como un automóvil que pueda transformarse en un avión o un automóvil que pueda volar.
  8. Arquitectura de fantasía: solicite a DALL-E que genere imágenes de arquitectura de fantasía, como un rascacielos con forma de dragón o una casa que parece un árbol.

Estas ideas son solo sugerencias para darle una idea de lo que DALL-E puede hacer. Hay miles de otras ideas de imágenes que podrías generar con esta plantilla de IA.

Cada IA ​​tiene su propio estilo.

Con esta lista, veamos juntos cómo generar nuestras imágenes y cuál de los diferentes programas elegidos lo hace mejor.

Lea también:  Migración a un nuevo forum phpBB 2.0.x a phpBB 3.1!

Para nuestra primera imagen elegimos representar al dragón con alas de mariposa. Para agregar algo de contexto, también pedimos que esto se represente en "un bosque de fantasía de cuento de hadas". Dependiendo de las IA, el idioma de la solicitud puede afectar el resultado. Rápidamente descubrimos que para DALL-E y Stable Diffusion El inglés fue el idioma que mejores resultados dio. Por el contrario, la aplicación de texto a imagen de Canva generalmente funciona mejor en francés.

1. DALL-E generó imágenes de un dragón con alas de mariposa

2. Dragones generados por Stable Diffusion

3. Y finalmente el que elegimos mantener para la herramienta Canva

Lo primero que podemos ver muy rápidamente: para una misma solicitud, ¡cada IA ​​tiene su propio estilo!

  • DALL-E tiene un lado "imaginativo", aunque el bosque de "cuento de hadas" es un poco oscuro para las hadas, las alas de mariposa están bien representadas y ordenadas. esta de moda Arte digital.
  • En Stable Diffusion el estilo es más "alegre", un poco infantil. Nos imaginamos muy bien estas imágenes ilustrando un cuento para niños. Aquí los dragones son claramente visibles y recuerdan a China, de la que es el emblema. Por otro lado, la IA oscureció por completo las alas de mariposa y optó por la solución fácil haciendo que aparecieran mariposas reales junto a nuestros dragones.
  • Finalmente para la herramienta Canva, seleccionamos la única imagen correspondiente a nuestra solicitud de la selección. Sin embargo, los dos elementos (dragón y alas están presentes aquí). Si bien todas las imágenes están en el tema y son procesables, Canva hace lo mejor en ejecutar fielmente la solicitud y, por lo tanto, gana un primer punto aquí.

¿Cuáles son las posibilidades de estilo artístico de la imagen solicitada?

Si no se solicitan detalles sobre el estilo artístico, la IA los elegirá por ti, como en el ejemplo de los dragones.

Sin embargo, en Dall-e por ejemplo, es posible definir los siguientes estilos:

  • Pintura de aceite : Dall-e puede generar pinturas al óleo a partir de una descripción de los colores y texturas que desea ver en la pintura.
  • fotografía : Dall-e puede generar fotos basadas en los colores, texturas y detalles que desea ver en la foto.
  • Arte digital : Dall-e puede producir obras de arte digitales a partir de una plantilla prediseñada o de una descripción de los colores y detalles que desea ver en la obra de arte.
  • Arte abstracto : Dall-e puede producir obras abstractas basadas en los movimientos, colores y formas que desea ver en la obra.
  • Imagen : Dall-e puede generar diseños basados ​​en los colores y formas que desea ver en el diseño.
  • arte vectorial : Dall-e puede generar imágenes vectoriales a partir de una plantilla predefinida oa partir de una descripción de los colores y detalles que desea ver en la imagen.

Los ejemplos de Dragon fueron hechos a priori en estilo Digital Art. El estilo influirá fuertemente en la imagen final generada.

Más fuerte aún, es posible solicitar estilos de algunos artistas famosos. Entonces generamos un chat al estilo Picasso, Van Gogh y Dalí ! Y los resultados son... ¡bastante impresionantes!

Nuestro gato dibujado por IA en los estilos de 3 grandes maestros de la pintura

  1. gato estilo picasso
  2. Gato estilo Van Gogh
  3. Gato estilo Dalí

Mejor, luego pedimos un “ Gato al estilo de Picasso y Dali y Van Gogh y tenemos esto:

también hemos pedido "Cerdo al estilo Picasso" y el resultado fue igualmente, si no más, impresionante...

Es probable que la IA revolucione el campo del arte e Internet en los próximos años, como ya ocurre con las NFT especulativas.

Lea también:  Res legal: los datos legales y de la electricidad renovable en Europa

entendemos el desconfianza de los profesionales del arte frente a estas IA artísticas, sus miedos son los mismos que los de la edición y la creación literaria frente a chatbots como ChatGPT! ¡Tienen razón, todos estos temores están, en nuestra opinión, justificados!

¿Cuáles son los diferentes métodos para solicitar la creación de una imagen con Dall-e?

Se pueden utilizar varios métodos para indicar la creación de una imagen con Dalle-e, incluidos métodos gráficos para un resultado más rápido que corresponda a sus necesidades:

  • Generación de imágenes a partir de palabras clave : puede ingresar una palabra clave y Dall-e producirá una imagen basada en las palabras clave que ingresó.
  • Generación de imágenes a partir de oraciones. : puede ingresar una oración completa y Dall-e producirá una imagen basada en la oración que ha ingresado.
  • Generación de imágenes a partir de descripciones de imágenes : Dall-e puede generar imágenes a partir de una descripción detallada de los colores, formas y objetos que desea ver en la imagen.
  • Generación de imágenes a partir de escenas. : Dall-e puede generar imágenes en 3D a partir de una descripción completa de una escena.
  • Generación de imágenes a partir de patrones : Dall-e puede generar imágenes a partir de patrones que usted ingrese.
  • Generación de imágenes a partir de plantillas : puede proporcionar a Dall-e una plantilla predefinida y producirá imágenes basadas en la plantilla que proporcionó.
  • Generación de imágenes a partir de secuencias animadas : Dall-e puede generar secuencias animadas a partir de la descripción de movimientos, colores y sonidos que quieras ver en la secuencia.

Imágenes realistas pero improbables

Luego le pedimos a nuestros generadores de imágenes de IA que nos dibujen una ensalada con ojos : dos elementos que a primera vista no casan. Sin embargo, en esta etapa, nuestros 3 generadores pasaron sin ninguna dificultad aparente.

1. Las cuatro imágenes, de una ensalada con ojos, propuestas por DALL-E

2. Las dos imágenes correspondientes a nuestra solicitud generadas por Stable Diffusion

3. Y las dos imágenes coincidentes para la herramienta Canva

Aquí nuevamente, cada imagen tiene su propio estilo, pero lo que llama especialmente la atención es el realismo de las diferentes imágenes: las IA han utilizado el estilo fotográfico.

Reconocemos muy bien los alimentos, hasta el punto de que podríamos querer reproducir las diferentes ideas propuestas en la cocina. Si Canva se destaca por su originalidad al ofrecer, sin embargo, una imagen con inspiraciones de "emoticon", es aquí DALL-E que gana el punto con cuatro imágenes diferentes y todas en el tema solicitado.

Entre los fracasos de Stable Diffusion, todavía vale la pena volver a una de las imágenes.

Efectivamente, en esta imagen eliminada porque no incluye ojos, vemos por otro lado el esfuerzo de realismo de la IA en la representación del plan de trabajo.

De hecho, nuestras IA pueden vincular la palabra "ensalada" con el entorno correspondiente. Este ya era el caso en las imágenes de arriba con la representación de platos, tenedores y otros elementos relacionados con el ámbito culinario.

Fracasos que siguen siendo regulares

A pesar de su eficiencia general, nuestras IA todavía generan una buena cantidad imágenes mediocres y erróneas ve totalmente fuera de sintonía con la demanda. Este fue el caso de nuestro Sombrero con forma de Torre Eiffel.

DALL-E gana el punto con su única imagen que se acerca a nuestra petición: un sombrero blanco, coronado por una Torre en miniatura que imaginaríamos perfectamente en el cabeza de Geneviève de Fontenay !

Aparte de esta pequeña risita que ofrece la IA de Open AI, las otras imágenes eran demasiado realistas, simplemente representando uno de los elementos mientras oscurecía el otro:

En la primera imagen Stable Diffusion representa la Torre, mientras que en la segunda DALL-E optó por enviarnos una pila de sombreros, oscureciendo también la segunda parte de nuestra petición.

O bien entendieron erróneamente la petición como en estas dos imágenes en las que DALL-E más bien representa figuritas de recuerdo de la Torre Eiffel:

Lea también:  Ma-Bonne-Action.com, comercialización solidaria, humanitaria y caritativa

Finalmente, algunas imágenes a veces son completamente poco convencionales, como fue el caso de esta imagen que supuestamente representa a una "persona de la imaginación de IA Stable Diffusion" que luego eligió agregar espontáneamente una cita en un idioma desconocido... cerca del inglés...

Una sensibilidad que a veces varía palabra a palabra

Al realizar las pruebas, rápidamente nos damos cuenta de que a veces solo se necesita un detalle para que nuestra IA rectifique la situación en caso de resultados insatisfactorios. Entonces, cuando preguntamos a nuestras IA por primera vez "una ciudad flotante en un cielo nublado" seleccionando la mejor imagen para cada una de ellas, obtenemos el siguiente resultado:

Respectivamente de arriba a abajo, los resultados de Stable Diffusion, DALL-E y Canva

Imágenes muy bonitas, pero que en realidad no reflejan la connotación "irreal" de nuestra solicitud que los humanos entienden pero aparentemente no nuestros generadores. Todo lo que se necesita es un cambio sutil en la demanda para obtener resultados completamente diferentes.

Entonces, con la oración "una ciudad fantástica flotando en un cielo nublado" obtenemos esta vez:

1. Imágenes mucho más imaginativas de DALL-E

2. Ciudades muy bonitas y fantásticas de Stable Diffusion que, sin embargo, omite por completo la parte de "flotar en un cielo nublado".

3. Algunas escenas que podrían ser sacadas de un videojuego (Minecraft o Lego Worlds por ejemplo) por Canva

Aquí podemos otorgar un punto a DALL-E y Canva que lograron, a través de una u otra de nuestras solicitudes, hacer que nuestra ciudad flotara en las nubes.

Pero entonces, ¿qué futuro para la generación de imágenes?

Ante una solución que funciona bastante bien en general, uno se pregunta cuáles pueden ser los usos futuros de la generación de imágenes por inteligencia artificial. Claro que es tentador citar aquí la creación de fallas en internet, no dudes en venir publicar en nuestro forum los que quizás ya haya encontrado en línea.

Pero también podemos imaginar usos más serios. Por lo tanto, los resultados obtenidos al pedirle a la herramienta Canva que cree una imagen de un "árbol que en realidad es una casa" podrían fácilmente dar ideas a un arquitecto responsable de crear hábitats que puedan mezclarse con la naturaleza.

Pero entonces, ¿cuál de nuestros 3 generadores de imágenes está funcionando mejor?

¡Para el árbol que también sería una casa, fácilmente le damos un punto a cada herramienta!

Ejemplos de imágenes propuestas respectivamente por DALL-E, Stable Diffusion y luego la herramienta Canva

El automóvil con alas de pájaro había desafiado a todas nuestras IA, pero el automóvil que puede volar permitió que Canva y Stable Diffusion se destacaran con algunos renderizados futuristas bastante realistas:

Respectivamente Difusión estable en la parte superior y Canva en la parte inferior.

Finalmente DALL-E ha demostrado ser bastante eficiente con su edificio en forma de dragón (que, sin embargo, sigue en construcción), y Canva pudo satisfacer mejor la solicitud de un retrato que habíamos modificado un poco reemplazando a la celebridad con "una persona de la imaginación de la IA".

A pesar de algunos elementos que sugieren la generación de imágenes detrás de los dos retratos de Canva, el realismo sigue siendo sorprendente.

En el recuento final, estos son por lo tanto DALL-E y la herramienta de Canva que ganan respectivamente 5 puntos cada una.

Por lo general, pueden proporcionar resultados en línea con la mayoría de las solicitudes de los usuarios.

Canva destaca por su realismo mientras que DALL-E parece más relevante en cuanto el encargo requiere imaginación o el campo de la pintura.

Sin embargo, a pesar de solo 2 puntos, Stable Diffusion no falla en la calidad de imagen que puede proporcionar. La desventaja radica en su comprensión de las solicitudes de los usuarios, ya que a menudo tiende a permanecer con los pies en la tierra. Sin embargo, sigue siendo muy interesante de descubrir también.

De todos modos, podemos esperar que en los próximos años, la inteligencia artificial revolucione muchos sectores de actividad. Y ciertamente más rápido de lo que algunos piensan ya que los libros escritos, en parte o en su totalidad, por IA ya están a la venta en Amazon...Este breve informe en video de BFMTV habló sobre esto hace unos días:

Para cualquier comentario o pregunta, visite el tema de la forum dedicado a la IA.

Dejar un comentario

Su dirección de correo electrónico no será publicada. Los campos necesarios están marcados con *