Ce générateur d’images AI vous permet de taper des mots et de récupérer des images étranges
Il n’a fallu qu’un mois à Matt Laming, un jeune de 19 ans originaire du Royaume-Uni, pour atteindre un million de followers sur Twitter. Et tout ce qu’il fallait, c’était partager un flux constant d’images générées par ordinateur les plus extravagantes que lui et un groupe d’étrangers sur Internet pouvaient imaginer.
Ces dernières semaines, l’apprentie en marketing digital, plus connue en ligne sous le nom de @weirddallea partagé des images représentant des choses comme des personnes passe l’aspirateur dans la forêt, le Démogorgon de « Stranger Things » de Netflix holding un ballon de basket et un Beanie Baby qui ressemble beaucoup Danny DeVito.
Ces images et d’autres, qui vont du ridicule au dérangeant, ont été créées avec un système d’intelligence artificielle librement disponible appelé Craiyon. Pour l’utiliser, il vous suffit de taper ce que vous aimeriez qu’il imagine – « Un lion arc-en-ciel mangeant une part de pizza » – et il crachera des images en réponse.
« Je pense que c’est le principal attrait: vous pouvez faire de n’importe quoi une réalité », a déclaré Laming dans une interview avec CNN Business.
Idée originale de Boris Dayma, un ingénieur en apprentissage automatique basé à Austin, Craiyon popularise une tendance croissante en IA. Les ordinateurs deviennent de mieux en mieux capables d’ingérer des mots et de produire en réponse des images de plus en plus réalistes. Dernièrement, les gens tapent environ 5 millions d’invites par jour, a déclaré Dayma.
Il existe des systèmes d’IA similaires et beaucoup plus puissants que Craiyon, tels que DALL-E d’OpenAI (Craiyon s’appelait initialement DALL-E Mini en hommage) et DALL-E 2, ainsi que Imagen de Google. Mais contrairement à Craiyon, que tout le monde peut essayer, la plupart d’entre eux ne sont pas accessibles au public : DALL-E 2 est ouvert aux utilisateurs uniquement sur invitation, tandis qu’Imagen n’a pas été ouvert aux utilisateurs extérieurs à Google.
« Je pense qu’il est important de pouvoir avoir une alternative où tout le monde a le même accès à ce type de technologie », a déclaré Dayma.
Dans le processus, cependant, Craiyon agit effectivement comme un essai pour ce qui pourrait arriver – bon ou mauvais – à l’avenir si n’importe qui peut accéder à de tels systèmes d’IA et solliciter n’importe quel type d’image de leur part en quelques mots seulement. Et comme pour de nombreuses technologies naissantes, c’est un travail en cours ; à court terme, si rien n’est fait, cela peut produire des résultats qui renforcent les stéréotypes et les préjugés.
LE NOTOIRE BFG
Dayma et quelques autres codeurs ont construit le système d’IA en juillet dernier lors d’un hackathon organisé par Google et Hugging Face, une société qui construit et héberge des modèles d’IA. Au départ, Dayma a déclaré qu’il l’avait construit comme un défi technique; il pensait que DALL-E était cool et il voulait le faire lui-même. Il a posté le générateur de texte en image – alors appelé DALL-E Mini – sur Hugging Face, où tout le monde pouvait l’essayer (il est toujours disponible sous ce nom). Mais il n’a pas attiré beaucoup d’attention au-delà de la communauté de l’IA jusqu’aux deux derniers mois, peut-être en raison de la qualité limitée des images qu’il pouvait produire.
Dans le passé, par exemple, il était capable d’imaginer des choses simples comme un paysage, a déclaré Dayma. Mais petit à petit, il a fait des choses comme corriger des bogues et améliorer le code, lui permettant de mieux produire des images plus compliquées, comme la tour Eiffel atterrissant sur la lune.
« Quand le modèle a commencé à dessiner ça, j’étais très content », a-t-il déclaré. « Mais ensuite, les gens ont proposé des choses encore plus créatives, et d’une manière ou d’une autre, le modèle a atteint un moment où il a pu faire quelque chose qui ressemblait à ce qu’ils avaient demandé, et je pense que c’était un tournant. »
Les images générées par Craiyon ne sont pas aussi réalistes que ce que DALL-E 2 ou Imagen peuvent proposer, mais elles sont néanmoins fascinantes : les gens ont tendance à se fondre dans les objets, et les images semblent floues et au moins légèrement de travers.
Pour l’instant, Craiyon est principalement utilisé pour le plaisir par des personnes comme Laming – peut-être en partie parce que ses résultats ne sont pas aussi nets ou photoréalistes que les images que vous pouvez obtenir de DALL-E 2 ou Imagen, mais aussi parce que les gens essaient toujours de savoir quoi en faire. (Le site Web de Craiyon diffuse actuellement des publicités pour récupérer les coûts des serveurs qui alimentent le système d’IA, et Dayma a déclaré qu’il essayait de comprendre comment en tirer de l’argent tout en permettant aux gens de jouer avec gratuitement.)
De nombreuses images publiées par Laming sur Twitter proviennent d’un forum Reddit qu’il a créé pour que les utilisateurs puissent publier les invites et les images résultantes qu’ils ont obtenues lorsqu’ils les ont parcourues dans le système. C’est la même approche qu’il adopte pour un autre compte Twitter qu’il gère, @spotifyweirdqui tweete d’étranges listes de lecture Spotify.
Le tweet le plus populaire de Laming à ce jour était un message du 14 juin avec l’invite « Fisher Price guillotine », qui a été initialement publiée sur son subreddit par un utilisateur de Reddit. Les messages populaires peuvent prendre un article de l’actualité ou de la culture pop et le mélanger avec quelque chose de complètement aléatoire, choquant ou grossier – comme les urinoirs sur le thème des Minions – ou simplement proposer un jeu de mots amusant (pensez « Le notoire BFG » ou « Cube de glace dans un glaçon »).
Au fur et à mesure que les utilisateurs se familiarisent avec les types de résultats que Craiyon peut produire, les invites deviennent de plus en plus spécifiques en termes de types d’images qu’ils souhaitent voir, comme appeler un illustration médicale d’un burrito ou des croquis de salle d’audience montrant à quoi cela pourrait ressembler si un capybara a poursuivi Elon Musk. Parfois, ils sont vraiment bizarres, comme dans cette représentation de archéologues découvrant une chaise en plastique.
Pour trouver une bonne invite, a suggéré Laming, il suffit de « penser à la situation la plus farfelue dans laquelle mettre quelqu’un ou quelque chose ». En effet, les invites qui mènent à ces images sont elles-mêmes sans doute une nouvelle forme de créativité.
BIAIS SUR L’AFFICHAGE
Mar Hicks, professeur agrégé à l’Illinois Institute of Technology qui étudie l’histoire de la technologie, a déclaré que ce système d’IA leur rappelait les premiers chatbots tels qu’Eliza, un programme informatique construit par le professeur du MIT Joseph Weizenbaum dans les années 1960 et destiné à imiter un thérapeute. . De tels programmes pouvaient convaincre les gens qu’ils communiquaient avec un autre humain, même si l’ordinateur ne comprenait pas vraiment ce qu’on lui disait (Eliza a donné des réponses scénarisées).
« Je pense que c’est attrayant de la même manière qu’un jeu de hasard ou un jeu de société », a déclaré Hicks. « Là où il y a un certain niveau d’incertitude sur ce qui va se passer. »
Mais Hicks s’inquiète de la capacité du système d’IA à répondre à toute invite écrite avec des images, plutôt que de donner occasionnellement un message d’erreur indiquant qu’il ne sait pas comment analyser les phrases qu’une personne a tapées. « Cela signifie que vous sortirez parfois des ordures », ont-ils déclaré, et il incombe aux utilisateurs de comprendre pourquoi. Ce fut le cas avec certaines invites que j’ai alimentées avec Craiyon, ce qui le rend parfois décevant et frustrant à utiliser, mais Dayma a souligné qu’il n’est pas facile de prédire ce qu’il peut ou ne peut pas dessiner, et parfois les résultats sont surprenants, ou du moins étonnamment bizarre.
Dayma a déclaré avoir entendu des personnes utiliser Craiyon pour créer un logo pour une nouvelle entreprise et des images dans des vidéos. (OpenAI et Google ont suggéré que leurs systèmes pourraient éventuellement être utilisés pour des choses comme l’édition d’images et la génération d’images de stock.)
Bien qu’il puisse y avoir des possibilités créatives pour ces systèmes d’IA, ils partagent un problème clé qui imprègne l’industrie de l’IA dans son ensemble : la partialité. Ils sont tous formés sur des données qui incluent de larges pans d’Internet, ce qui signifie que les images qu’ils créent peuvent également mettre à nu une foule de préjugés, notamment les stéréotypes sexistes, raciaux et sociaux.
De tels préjugés sont évidents même dans les images floues de Craiyon. Et parce que n’importe qui peut y taper ce qu’il veut, cela peut être une fenêtre troublante sur la façon dont les stéréotypes peuvent s’infiltrer dans l’IA. J’ai récemment donné à Craiyon l’invite « un avocat », par exemple, et les résultats étaient tous des images floues de ce qui semblait être des hommes en robe noire de juge. L’invite « un enseignant », quant à elle, n’a donné que des personnages qui semblaient être des femmes, chacune portant une chemise boutonnée.
Dayma en est consciente. Une section « Questions fréquemment posées » sur le site Web de Craiyon mentionne que la dépendance du modèle aux données Internet peut entraîner des « images contenant des stéréotypes nuisibles » et que ceux qui sont derrière Craiyon s’efforcent de documenter et d’analyser ses préjugés. Dayma a noté que de nombreux systèmes d’IA sont biaisés, que les utilisateurs en soient conscients ou non, et a déclaré qu’il aimait que tout le monde puisse observer les biais de Craiyon directement dans les images qu’il crée.
Il a également déclaré qu’il avait essayé d’empêcher le modèle derrière Craiyon d’apprendre certains concepts pour commencer. Cependant, il ne m’a fallu que quelques minutes pour proposer des invites explicites qui ont donné des images qui, pour le dire franchement, ne sont pas sûres pour le travail.
Lorsqu’on lui a demandé s’il pensait que sa disponibilité générale pourrait être une mauvaise chose, compte tenu de ses préjugés évidents, il a souligné que les images qu’il propose, bien que plus belles que par le passé, ne sont clairement pas réalistes.
« Si je dessine la tour Eiffel sur la lune, j’espère que personne ne croira que la tour Eiffel est vraiment sur la lune », a-t-il déclaré.