modifié le 18 juillet 2023

DALL-E 2 – Fonctionnement, capacités et perspectives futures

Dans le domaine de l’IA, l’un des défis les plus ambitieux est la création de machines capables de comprendre et de générer des images de manière autonome. DALL-E est l’un des premiers modèles de génération d’images développé par OpenAI, qui a suscité beaucoup d’intérêt depuis sa sortie début 2021.

La version améliorée, DALL-E 2, est un système de génération d’images qui utilise une approche innovante de l’apprentissage profond pour créer des images réalistes à partir de descriptions textuelles ou d’images existantes. Ce modèle est capable de produire une grande variété d’images, allant de simples objets aux scènes complexes, en utilisant des concepts abstraits et des éléments du monde réel.

Dans cet article, nous allons explorer le fonctionnement de DALL-E 2, ses capacités uniques et ses perspectives futures dans le domaine de la génération d’images IA.

Qu’est ce que DALL-E?

DALL-E est un modèle de génération d’images à grande échelle créé par OpenAI, l’un des leaders de l’IA. Le nom DALL-E est une référence à l’artiste Salvador Dali et au film de Pixar WALL-E.

Entraîné par un réseau neuronal et capable de lire des descriptions textuelles fournies en entrée, DALL-E génère les images correspondantes. En d’autres termes, cet outil artistique d’IA transforme le texte en images.

Il s’agit d’une réalisation importante car, jusqu’à présent, les modèles d’intelligence artificielle ont eu du mal à comprendre et à générer des images à partir de descriptions textuelles.

Contrairement à d’autres modèles de générateurs d’image IA qui se concentrent sur des catégories spécifiques d’images, DALL-E est capable de créer une grande variété d’images, allant des objets familiers comme des chiens et des maisons aux concepts plus abstraits comme un « astronaute qui fait du cheval ».

Modèle de langage transformateur comme GPT-3, DALL-E est entraîné sur un vaste ensemble de données de textes et d’images. Cet entraînement permet à ses algorithmes et modèles d’apprendre les relations entre les mots et les concepts et la manière de représenter ces concepts sur des représentations visuelles.

Il est possible d’utiliser des noms d’artistes spécifiques tels que Pablo Picasso ou Vincent Van Gogh comme données d’entrée. Il est également possible de créer des œuvres d’art qui ressemblent à un style particulier, comme de l’art abstrait, une image de street-art ou un dessin d’animé.

DALL-E a suscité beaucoup d’intérêt dans le monde de l’IA et de la création d’art numérique depuis sa publication en janvier 2021, en raison de sa capacité à créer des images uniques et étonnantes à partir de textes et à ouvrir de nouvelles perspectives pour l’art et la conception assistés par ordinateur.

Et qu’est ce que DALL-E 2?

DALL-E 2 est la version améliorée de DALL-E, un modèle de génération d’images qui prend des phrases et crée des images originales correspondantes.

Avec 3,5 milliards de paramètres, DALL-E 2 est un modèle de grande taille, mais il est loin d’être aussi grand que GPT-3 et, fait intéressant, plus petit que son prédécesseur (12 milliards). Malgré sa taille, DALL-E 2 génère des images d’une résolution quatre fois supérieure à celle de DALL-E et il est préféré par les utilisateurs dans plus de 70% des cas pour la correspondance des légendes, et à plus de 88% pour le photoréalisme.

Tout d’abord, DALL-E 2 est capable de générer des images à une résolution plus élevée que la version précédente. Alors que DALL-E était limité à une résolution de 256×256 pixels, DALL-E 2 peut créer des images jusqu’à 1024×1024 pixels, ce qui représente une augmentation de la qualité visuelle de l’image générée.

La nouvelle version s’accompagne de plusieurs nouvelles fonctionnalités et améliorations, dont la plus notable concerne les ensembles de données d’entraînement utilisés pour former l’intelligence artificielle.

En effet, DALL-E 2 est capable de comprendre et de générer des images avec des concepts plus complexes et abstraits. Par exemple, il peut créer des images de scènes entières plutôt que de simples objets, et peut également créer des images de personnages humains avec des poses et des expressions faciales spécifiques.

Alors qu’auparavant il n’était disponible que sur invitation, avec une liste d’attente pour les personnes intéressées, le 28 septembre 2022, DALL-E 2 a été officiellement ouvert au public.

Tarifs de DALL-E 2

En termes de prix, en juillet 2022, OpenAI a commencé à facturer des crédits pour la génération d’art sur la plateforme DALL-E 2 après deux mois d’utilisation gratuite.

Pour commencer, tous les nouveaux utilisateurs reçoivent un bonus de 50 crédits gratuits. Ensuite, ils reçoivent 15 crédits par mois. Cependant, les crédits reçus gratuitement doivent être utilisés dans les 30 jours, sinon ils sont perdus.

Pour ceux qui ont besoin de plus, ils peuvent acheter 115 crédits supplémentaires pour 15$. Ce qui devrait techniquement permettre de générer jusqu’à plus de 450 images IA avec DALL-E 2.

Les capacités de DALL-E 2

DALL-E 2 peut modifier plusieurs attributs d’un objet. Cela permet d’obtenir des résultats uniques et passionnants, tous basés sur la description textuelle donnée à l’IA.

Cela signifie également que cette plateforme peut contrôler le nombre de fois qu’un objet apparaît dans une image, ainsi que la taille, la forme et la couleur de cet objet.

DALL-E 2 est également capable de créer des images composées de scènes entières à partir de zéro, et pas seulement d’objets individuels. Cela ouvre encore plus de possibilités quant au type d’image IA générée.

En outre, DALL-E 2 est aussi capable de dessiner plusieurs objets et d’établir des relations entre eux. La capacité de générer des scènes complexes constitue une avancée significative dans le domaine de l’intelligence artificielle.

Découvrez comment utiliser DALL-E 2.

1. La combinaison d'objets multiples

Par exemple, si une phrase contient plusieurs objets et différentes relations, comme un koala portant un chapeau rouge, une chemise bleue et un pantalon vert.

Le chapeau ayant un attribut de couleur spécifique, il ne suffit pas que l’outil reconnaisse et crée ledit chapeau, il doit aussi être capable de le placer correctement sur la tête du koala. Il en va de même pour la chemise et le pantalon mentionnés dans la description.

Il s’agit d’une réalisation importante qui ouvre la voie à la génération d’images encore plus complexes à l’avenir. Grâce à ce concept connu sous le nom de liaison variable, DALL-E 2 peut générer des images contenant plusieurs objets et scènes.

L’IA ne confond pas tous les objets les uns avec les autres, mais combine chaque information sans les mélanger. Toutefois, on constate que le bon fonctionnement de DALL-E 2 dépend de la façon dont les légendes ont été arrangées et de la nécessité d’éviter les représentations erronées.

2. Prise en compte de la tridimensionnalité

DALL-E 2 ne se limite pas aux images bidimensionnelles. La plateforme est également capable de générer des modèles d’objets en trois dimensions.

En effet, DALL-E 2 est également capable de générer des modèles tridimensionnels d’objets sous différents angles.

Au cours de différentes phases de test, les développeurs ont voulu dessiner la tête d’un modèle sous plusieurs angles, et ils ont constaté que DALL-E 2 pouvait créer un modèle 3D lisse qu’ils pouvaient visualiser sous n’importe quel angle.

3. Ajout de détails contextuels

Les mots utilisés pour décrire une scène contiennent rarement toutes les informations nécessaires pour générer une image précise. DALL-E 2 peut prendre en compte les mots qui ne sont pas écrits mais qui restent implicites. Cela permet une compréhension complète de la scène ou de l’objet décrit.

En outre, lors de la description d’une image, il peut arriver qu’une seule légende donne lieu à des milliers d’images plausibles et qu’il soit difficile de n’en déterminer qu’une seule. Il peut aussi arriver qu’un ajout particulier rende l’image plus attrayante et plus agréable à voir, mais que l’utilisateur ne précise pas ce détail dans la description.

Par exemple, si quelqu’un décrit un arbre, il peut ne pas mentionner les feuilles, l’ombre ou la couleur du ciel.

Cependant, DALL-E 2 peut prendre en compte ces mots non exprimés et générer une image contenant tous ces éléments. Par exemple, si votre texte indique qu’une image doit inclure un détail particulier qui n’est pas clairement indiqué, DALL-E remplit ce détail dans l’espace vide et rend votre image parfaite.

Alors que les outils de rendu 3D pourraient s’en approcher après plusieurs tentatives, le fait qu’il ne soit pas nécessaire de spécifier explicitement chaque détail est une puissante démonstration de ce dont l’intelligence artificielle peut être capable.

4. Combiner différents concepts

La nature créative de notre langage nous permet de combiner différents concepts qui n’ont rien à voir, comme le réel ou l’imaginaire, en une seule phrase. DALL-E 2 est également capable de combiner deux objets imaginaires et de générer une image qui peut donner un résultat intéressant.

La possibilité de synthétiser des objets et des scènes identiques au monde réel ouvre un nouvel éventail de possibilités de création. DALL-E 2 donne quelques exemples de cette possibilité:

Prendre des qualités associées à des objets aléatoires et les transférer à des animaux.
Établir des liens qui n’ont jamais été faits auparavant grâce à une inspiration sans rapport avec le sujet.

Par exemple, le texte « un astronaute qui fait du cheval » ou « une chaise en forme d’avocat » donne lieu à une image qui mélange le monde réel et l’imagination de DALL-E 2. Le résultat n’est pas quelque chose qui existe dans le monde réel, mais peut produire des résultats intéressants.

Cependant, DALL-E 2 ne réussit pas toujours à créer des images dont les détails sont irréalistes. L’IA peut s’embrouiller dans la forme des objets ou dans la manière dont il doit combiner les deux sujets. Il tente de trouver une solution étroitement liée au design et pratiquement fonctionnelle. Mais il peut arriver que l’image ne corresponde pas à ce que vous souhaitiez.

5. Retouches et modifications d’images

DALL-E 2 peut également apporter des modifications réalistes à des images existantes à partir d’une légende en langage naturel, ce qui constitue une forme de retouche automatisée.

Il parvient à adapter l’objet ajouté au style déjà présent dans la partie ciblée de l’image. DALL-E 2 modifie également les ombres, les textures et les reflets pour adapter l’image existante à la présence du nouvel objet.

DALL-E 2 peut avoir une représentation interne de la façon dont les objets interagissent dans le monde réel tant que ceux-ci sont présents dans l’ensemble de données d’entraînement. Cependant, il aurait des difficultés à extrapoler à de nouvelles interactions.

Comment fonctionne DALL-E 2?

Nous verrons juste après une explication simplifiée de DALL-E 2, mais commençons d’abord par la version scientifique détaillée. Je souhaite que vous vous fassiez dès à présent une idée générale de son fonctionnement sans avoir recours à trop de simplifications. Voici les quatre concepts clés que vous devez retenir:

CLIP – Modèle qui prend des données textes ou images et crée des représentations mentales sous forme de vecteurs, appelés intégrations texte/image.
Modèle antérieur – Prend une intégration de texte/image CLIP et génère des intégrations d’image CLIP.
Modèle de diffusion du décodeur (unCLIP) – Prend une intégration d’image CLIP et génère des images.
DALL-E 2 – Combinaison des modèles antérieurs et de diffusion du décodeur (unCLIP).

DALL-E 2 est une instance particulière d’un modèle en deux parties composé d’un modèle antérieur et d’un décodeur. En concaténant les deux modèles, nous pouvons passer d’une phrase à une image. C’est ainsi que nous interagissons avec DALL-E 2. Nous entrons une phrase ou un ensemble de mots et l’outil produit une image bien définie.

Il est intéressant de noter que le décodeur est appelé unCLIP parce qu’il effectue le processus inverse du modèle CLIP original – au lieu de créer une représentation mentale à partir de données textes ou images, il crée une image originale à partir d’une représentation mentale générique.

La représentation mentale encode les principales caractéristiques sémantiquement significatives: personnes, animaux, objets, style, couleurs, arrière-plan, etc. afin que DALL-E 2 puisse générer une nouvelle image qui conserve ces caractéristiques tout en variant les caractéristiques non essentielles.

Fonctionnement simplifié de DALL-E 2

Voici une explication plus intuitive pour ceux d’entre vous qui ne veulent pas s’embêter avec des termes techniques compliqués.

Pour mieux comprendre ces concepts insaisissables, faisons un exercice pratique. Prenez une feuille de papier et un crayon et analysez votre processus de réflexion en faisant ces trois exercices:

Premièrement, pensez à dessiner une maison entourée d’un arbre et du soleil dans le ciel en arrière-plan. Visualisez l’aspect du dessin. L’imagerie mentale qui vient d’apparaître dans votre esprit est l’analogie humaine d’un encastrement d’image. Vous ne savez pas exactement à quoi ressemblera le dessin, mais vous connaissez les principales caractéristiques qui devraient apparaître. Passer de la phrase à l’image mentale, c’est ce que fait le modèle antérieur.
Vous pouvez maintenant faire le dessin (il n’a pas besoin d’être joli!). Traduire l’imagerie que vous avez en tête en un dessin réel, c’est ce que fait le modèle unCLIP. Vous pouvez maintenant parfaitement redessiner un autre dessin à partir de la même légende, avec des caractéristiques similaires mais un aspect final totalement différent, n’est-ce pas? C’est également ainsi que DALL-E 2 peut créer des images originales distinctes à partir d’une incrustation d’image donnée.
Maintenant, regardez le dessin que vous venez de faire. C’est le résultat du dessin de cette légende: « une maison entourée d’un arbre et le soleil dans le ciel en arrière-plan ». Maintenant, réfléchissez aux caractéristiques qui représentent le mieux cette phrase (par exemple, il y a un soleil, une maison, un arbre) et à celles qui représentent le mieux l’image (par exemple, les objets, le style, les couleurs). Ce processus d’encodage des caractéristiques d’une phrase et d’une image est ce que fait le modèle CLIP.

Heureusement pour nous, notre cerveau effectue des processus analogues et il est donc très facile de comprendre à un niveau élevé ce que font CLIP et DALL-E 2. Néanmoins, cette explication est une simplification. L’exemple que j’ai utilisé est très simple et ces modèles ne font certainement pas ce que le cerveau fait, ni de la même manière.

Limites et risques de DALL-E 2

Après avoir vu les incroyables capacités de DALL-E 2, il est temps de parler de l’autre côté de la médaille. Les points faibles de DALL-E 2, les tâches qu’il ne peut pas accomplir, les problèmes, les dangers et les risques qu’il peut engendrer.

1. Aspects sociaux

Comme vous le savez peut-être déjà, tous les modèles de langage de cette taille et de plus grande envergure sont entachés de préjugés, de toxicité, de stéréotypes et d’autres comportements qui peuvent nuire aux minorités discriminées en particulier. Les entreprises deviennent plus transparentes à ce sujet, principalement en raison de la pression exercée par les groupes d’éthique – et par les institutions réglementaires qui commencent maintenant à rattraper le progrès technologique.

Mais cela ne suffit pas. Reconnaître les problèmes inhérents aux modèles et continuer à les déployer malgré tout est presque aussi grave que de faire preuve d’une négligence inconsciente à l’égard de ces problèmes.

Voyons ce qui ne va pas dans la représentation du monde de DALL-E 2.

Préjugés et stéréotypes

DALL-E 2 a tendance à dépeindre les gens et les environnements comme étant blancs et occidentaux lorsque la description n’est pas spécifique. Il utilise également des stéréotypes liés au genre et à l’activité professionnelle.

C’est ce qu’on appelle un biais de représentation, qui se produit lorsque des modèles comme DALL-E 2 ou GPT-3 renforcent les stéréotypes observés dans l’ensemble de données, qui catégorisent les personnes sous une forme ou une autre en fonction de leur identité (par exemple, la race, le sexe, la nationalité, etc.).

La spécificité des descriptions textuelles pourrait contribuer à réduire ce problème, mais il ne devrait pas être nécessaire de conditionner intentionnellement le modèle pour qu’il produise des résultats qui représentent mieux les réalités de l’ensemble de la planète.

Malheureusement, l’internet est essentiellement blanc et occidental. Les ensembles de données qui en sont extraits seront inévitablement soumis aux mêmes préjugés.

Contenu explicite

À partir d’une seule image, nous pouvons imaginer de très nombreuses légendes différentes qui peuvent donner lieu à quelque chose de similaire, contournant ainsi les filtres bien intentionnés.

La politique d’OpenAI en matière de contenu violent n’autoriserait pas un message tel que « un chien mort dans une mare de sang », mais les utilisateurs pourraient parfaitement créer un synonyme visuel avec le message « une photo d’un chien endormi dans une mare de liquide rouge ». Cela peut également se produire de manière involontaire, ce que l’on appelle le « contenu fallacieux ».

Fausses informations

Nous avons tendance à penser à des modèles de langage qui génèrent du texte lorsque nous pensons à la fausse information, mais la technologie de génération d’images IA peut facilement être utilisée pour des opérations d’information et des campagnes de désinformation, comme le reconnaît OpenAI.

DALL-E 2 pourrait créer des scénarios crédibles de nature diverse. Par exemple, n’importe qui peut demander à DALL-E 2 de créer des images de bâtiments en feu ou de personnes discutant ou se baladant avec un bâtiment célèbre en arrière-plan. Cela pourrait être utilisé pour tromper et désinformer les gens sur ce qui se passe réellement dans ces lieux.

2. Aspects techniques

Outre les questions sociales, qui sont les plus urgentes à traiter, DALL-E 2 présente des limites techniques. Comme des propositions qu’il n’arrive pas à élaborer, un manque de compréhension du sens commun, et un manque de compositionnalité.

Une incohérence inhumaine

La plupart du temps, les créations de DALL-E 2 ont l’air bien, mais la cohérence est parfois absente d’une manière qui ne manquerait jamais à une création humaine. Par exemple un cheval avec cinq membres, une maison avec une porte extérieure à l’étage, ou des mains qui sont collées entre elles.

Cela révèle que DALL-E 2 est extrêmement doué pour faire semblant de comprendre comment le monde fonctionne, mais qu’il ne le sait pas vraiment. La plupart des humains ne seraient jamais capables de peindre comme DALL-E 2, mais ils ne feraient certainement pas d’erreurs d’interprétation volontairement.

Des images générées par IA donnent l’impression d’avoir été créées par un artiste peintre qui n’a jamais vu le monde réel. DALL-E 2 a copié la haute qualité de l’original, en conservant toutes les caractéristiques essentielles, mais en laissant de côté les détails nécessaires pour que les images aient un sens dans la réalité physique dans laquelle nous vivons.

L’orthographe

DALL-E 2 est très doué pour le dessin, mais très mauvais pour l’orthographe. Cela peut s’expliquer par le fait que DALL-E 2 n’encode pas les informations relatives à l’orthographe du texte présent dans les images de l’ensemble de données. Si quelque chose n’est pas représenté dans les interprétations CLIP, DALL-E 2 ne peut pas le dessiner correctement.

Lorsqu’il s’agit de dessiner des objets, une approximation suffit la plupart du temps (mais pas toujours, comme nous l’avons vu juste au-dessus). Pour épeler des mots, ce n’est pas le cas. Cependant, il est possible que si DALL-E 2 était entraîné à encoder les mots dans les images, il serait bien meilleur dans cette tâche.

La limite de l’IA

DALL-E 2 n’est pas incité à conserver des informations sur la position relative des objets, ou des informations sur les attributs qui s’appliquent à tel ou tel objet. Cela signifie qu’il peut être très doué pour créer des images avec des objets figurant dans les descriptions, mais pas pour les positionner ou les compter correctement.

C’est précisément ce que l’on peut reproché à DALL-E 2: son manque de capacités de raisonnement compositionnel de base. En linguistique, la compositionnalité fait référence au principe selon lequel le sens d’une phrase est déterminé par ses constituants et la manière dont ils sont combinés. Par exemple, dans la phrase « un cube rouge sur un cube bleu », le sens peut être décomposé en éléments « un cube rouge », « un cube bleu » et la relation « sur ».

DALL-E 2 réussit parfois à placer correctement les descriptions d’image. Le problème ici n’est pas que l’IA n’y arrive jamais, mais que son comportement n’est pas fiable lorsqu’il s’agit de raisonnement compositionnel. Par exemple, de nombreuses fois le cube rouge va se trouver en dessous ou à côté du cube bleu, et non au-dessus.

Le futur de l’image IA

Bien que la technologie en soit encore à ses débuts, les applications potentielles de DALL-E 2 et des outils de génération d’images IA sont vastes.

À l’avenir, DALL-E 2 pourrait être utilisé pour générer des illustrations, des conceptions de produits et même des œuvres d’art. Ce générateur d’images IA pourrait également créer des images photoréalistes pour les films et les jeux vidéo. Les possibilités sont infinies.

Ce qui est certain, c’est que DALL-E 2 représente une avancée significative dans le domaine de l’intelligence artificielle. Au fur et à mesure que cette technologie se développe, nous ne pouvons qu’imaginer comment elle changera notre monde.

En outre, les défis éthiques qui accompagnent les nouvelles technologies seront davantage pris en compte, en veillant à ce que les applications alimentées par DALL-E 2 tiennent compte de la sécurité et de la responsabilité de leurs utilisateurs.

DALL-E 2 va-t-il remplacer les humains?

Après avoir compris brièvement le fonctionnement et les capacités de DALL-E 2, nous pouvons être confrontés à une question commune: cette technique d’apprentissage automatique sera-t-elle la fin pour les penseurs créatifs ou les concepteurs dans ce domaine?

Si les ordinateurs peuvent désormais générer des images originales à partir de textes, que reste-t-il aux humains, qu’il s’agisse d’artistes, de graphistes ou d’illustrateurs, pour effectuer le même travail?

Une chose doit être claire dans notre esprit: une technologie comme celle de DALL-E 2 ne mettra pas fin aux capacités humaines et ne les remplacera pas, mais constituera plutôt une amélioration de notre main-d’œuvre déjà en pleine évolution.

Aucune technologie, après son introduction dans le monde ordinaire, ne serait capable de s’emparer de la structure existante comme ça. En outre, DALL-E 2 a besoin d’une aide spécifique pour restituer certaines images complexes. Parfois, ces images peuvent ne pas être suffisantes pour vous ou ne pas répondre à vos normes, en fonction de leur utilisation.

Pour conclure

En ce qui concerne la génération d’images à partir de texte en langage naturel, DALL-E 2 d’OpenAI est l’un des premiers modèles d’IA qui a montré à quel point une machine peut comprendre les complexités de notre monde.

Qu’il s’agisse de créer une image originale ou de modifier une image existante, de créer une illustration professionnelle de haute qualité ou de tout ce dont vous pouvez rêver, cet outil d’IA génère des images comme un véritable artiste.

Sa capacité à prendre en compte des idées tacites et implicites dans un contexte donné et à créer des images uniques et cohérentes qui n’ont jamais été vues auparavant est tout à fait époustouflante.

Cela signifie que les images générées peuvent être utilisées dans tous les domaines, des réseaux sociaux à la conception de produits, en passant par la création de nouveaux éléments pour les jeux vidéo et les films.

Si vous vous demandez souvent si la technologie d’IA va remplacer la main-d’œuvre humaine et supprimer des emplois, sachez que ce n’est pas le cas.

Même si le monde évolue et que nous devons nous adapter à ces changements, l’IA est encore relativement nouvelle et doit encore se développer pour être plus performante et ne pas se contenter de générer des images à partir d’un texte. Cependant, nous devons convenir que ce développement de DALL-E 2 changera sans aucun doute notre façon de travailler dans le futur.

En effet, de grandes marques et entreprises utilisent déjà des technologies de génération d’images IA pour créer des images réalistes de leurs produits à des fins de marketing et de publicité, et cette tendance ne fera que s’accentuer à l’avenir.