Une publication dans Semiotic Review

Quand les IA dessinent nos mots



imgActu
Résultat de la commande : « image photographique d'une femme refusant une pomme offerte par un homme » - À gauche : DALL•E. | À droite : Midjourney - Mai 2024 | ©️ DALL•E. & Midjourney

Peut-on vraiment faire confiance aux intelligences artificielles pour illustrer nos idées ? Une équipe scientifique a passé au crible les capacités de Midjourney et DALL·E - deux logiciels d'Intelligence Artificielle Générative (IAG) - à produire des images à partir de simples phrases. Le verdict est nuancé ...  entre prouesses esthétiques et erreurs de débutant, les machines ont encore du chemin à faire.

D

epuis l’émergence des IAG comme Midjourney et DALL·E, la création d’images à partir de simples phrases est devenue une réalité fascinante, voire parfois inquiétante. Pourtant derrière cette prouesse technique se cache une question essentielle : comment ces machines traduisent-elles des mots en visuels ? C’est ce qu’ont voulu comprendre quatre chercheurs issus de l’Université de Liège, de l’Université de Lorraine et de l’EHESS, en menant une étude interdisciplinaire mêlant sémiotique, informatique et histoire de l’art.

« Notre approche repose sur une série de tests rigoureux, » explique Maria Giulia Dondero, sémioticienne et Directrice de recherche du FNRS à l'Université de Liège. « Nous avons soumis à ces deux IAG des requêtes très précises et nous avons analysé les images produites selon des critères issus des sciences humaines comme la disposition des formes, des couleurs, des regards, le dynamisme spécifique à l’image fixe, le rythme de son déploiement, etc. » Résultat ? Les IA sont capables de générer des images prétendues esthétiques, mais peinent souvent à respecter les consignes les plus simples.

L’étude révèle des difficultés surprenantes, comme le fait que les IAG ne comprennent pas bien la négation (« un chien sans queue » montre un chien avec une queue ou un cadrage tel à la cacher), ni les relations spatiales complexes, ni le positionnement correct des éléments ou le rendu des relations de regard et de distance cohérentes (« deux femmes derrière une porte »). Elles traduisent parfois des actions simples comme « se battre » en scènes de danse, et peinent à représenter des séquences temporelles comme les débuts et fins de gestes (« commencer à manger » ou « avoir fini de manger »). « Ces IAG nous permettent de réfléchir à notre propre manière de voir et de représenter le monde », reprend Enzo D'Armenio, chercheur à l'ULiège et premier auteur de l'article. « Elles reproduisent des stéréotypes visuels issus de ses bases de données, souvent construites à partir d’images occidentales, et révèlent les limites de la traduction entre langage verbal et langage visuel. »

DONDERO IAG 3 lignes blanches

Midjourney 6. Résultats de la requête : « trois lignes blanches verticales sur fond noir », février 2025, répétée 50 fois, pour valider nos observations à plus petite échelle. | © Midjourney

Répéter, valider et analyser

Les résultats obtenus par l'équipe de recherche ont été validés par répétition - jusqu’à cinquante générations par prompt -  afin d’établir leur robustesse statistique. Les modèles présentent aussi des signatures esthétiques distinctes, Midjourney privilégie des rendus « esthétisés », avec des artefacts ou textures qui enjolivent l’image, parfois au détriment de l’instruction stricte tandis que DALL·E, plus « neutre » sur la texture, offre un contrôle compositionnel accru mais peut varier davantage sur l’orientation ou le nombre d’objets. Les séries de 50 tests sur le prompt « trois lignes blanches verticales sur fond noir » illustrent ces tendances : consistance relative mais artefacts fréquents pour Midjourney ; variabilité du nombre et de l’orientation des lignes pour DALL·E.

L’étude rappelle que ces IA sont statistiques. « Les IAG produisent le résultat le plus plausible selon leurs bases d’entraînement et les réglages (parfois éditoriaux) de leurs concepteurs, explique Adrien Deliège, mathématicien à l'ULiège, « des choix qui peuvent standardiser le regard et véhiculer ou réorienter des stéréotypes. » Un exemple parlant : sur le prompt « PDG donnant un discours », DALL·E peut générer majoritairement des femmes, tandis que d’autres modèles produisent quasi exclusivement des hommes blancs d’âge mûr, signe que l’empreinte des concepteurs et des jeux de données influe sur la « vision » du monde que délivre la machine.

DONDERO IAG Repas

Midjourney 6. Résultat des requêtes « une personne qui vient de finir son repas » (à gauche), « une personne sur le point de commencer son repas » (à droite) Juillet 2024. | © Midjourney

Les chercheurs soulignent que pour évaluer ces technologies, il ne suffit pas de mesurer leur efficacité statistique, il faut aussi mobiliser les outils des sciences humaines pour comprendre leur fonctionnement culturel et symbolique. « Les IAG ne sont pas de simples outils automatiques » conclu Enz D'Armenio. « Elles traduisent nos mots selon des logiques propres, influencées par leurs bases de données et leurs algorithmes. Pour les comprendre et les évaluer, les sciences humaines ont un rôle essentiel à jouer. » Et si ces IA peuvent déjà nous aider à illustrer nos idées, elles ont encore du chemin à faire avant d'arriver à les traduire parfaitement.

Référence scientifique

D'Armenio, E., Dondero, M. G., Deliège, A., & Sarti, A. (2025). For a Semiotic Approach to Generative Image AI: On Compositional CriteriaSemiotic Review9. doi.org/10.71743/ee5nrx33

Contacts

Enzo D’Armenio

Maria Giulia Dondero

Adrien Deliège

Publié le

Partagez cette news

cookieImage