Meta utilise l’IA pour générer des vidéos
L’intelligence artificielle est de plus en plus performante pour générer une image en réponse à une poignée de mots, avec des générateurs d’images IA accessibles au public tels que DALL-E 2 et Stable Diffusion. Aujourd’hui, des chercheurs de Meta poussent l’IA un peu plus loin : ils l’utilisent pour concocter des vidéos à partir d’un texte.
Le PDG de Meta, Mark Zuckerberg, a publié jeudi sur Facebook un message sur cette recherche, appelée Make-A-Video, avec un clip de 20 secondes qui compile plusieurs invites textuelles utilisées par les chercheurs de Meta et les vidéos (très courtes) qui en résultent. Les invites comprennent « Un ours en peluche peignant un autoportrait », « Un vaisseau spatial atterrissant sur Mars », « Un bébé paresseux avec un bonnet tricoté essayant de comprendre un ordinateur portable » et « Un robot surfant une vague dans l’océan ».
Les vidéos de chaque sujet ne durent que quelques secondes et montrent généralement ce que le sujet suggère (à l’exception du bébé paresseux, qui ne ressemble pas beaucoup à la créature réelle), dans un style assez basse résolution et quelque peu saccadé. Malgré tout, cela montre la nouvelle direction que prend la recherche sur l’IA, les systèmes devenant de plus en plus performants pour générer des images à partir de mots. Cependant, si cette technologie est finalement diffusée à grande échelle, elle soulèvera les mêmes inquiétudes que les systèmes de conversion de texte en image, à savoir qu’elle pourrait être utilisée pour diffuser des informations erronées par vidéo.
Une page web pour Make-A-Video comprend ces courts clips et d’autres, dont certains semblent assez réalistes, comme une vidéo créée en réponse à l’invite « Poissons clowns nageant dans le récif corallien » ou une autre censée montrer « Un jeune couple marchant sous une forte pluie ».
Dans son message sur Facebook, M. Zuckerberg a souligné combien il était difficile de générer une image animée à partir d’une poignée de mots.
« Il est beaucoup plus difficile de générer une vidéo que des photos, car au-delà de la génération correcte de chaque pixel, le système doit également prédire comment ils vont évoluer dans le temps », a-t-il écrit.
Un document de recherche décrivant le travail explique que le projet utilise un modèle d’IA texte-image pour comprendre comment les mots correspondent aux images, et une technique d’IA connue sous le nom d’apprentissage non supervisé – dans laquelle les algorithmes parcourent des données qui ne sont pas étiquetées pour y discerner des modèles – pour regarder des vidéos et déterminer à quoi ressemble un mouvement réaliste.
Comme pour les systèmes d’IA massifs et populaires qui génèrent des images à partir de texte, les chercheurs ont souligné que leur modèle d’IA texte-image a été formé à partir de données Internet, ce qui signifie qu’il a appris « et probablement exagéré les préjugés sociaux, y compris les préjudiciables », ont écrit les chercheurs. Ils notent qu’ils ont filtré les données pour éliminer le « contenu NSFW et les mots toxiques », mais comme les ensembles de données peuvent comprendre plusieurs millions d’images et de textes, il n’est pas toujours possible d’éliminer tous ces contenus.
Zuckerberg a écrit que Meta prévoit de partager le projet Make-A-Video en tant que démo à l’avenir.