L’IA Imagen de Google produit des images photoréalistes à partir de texte naturel
28 juin 2022
Environ un mois après qu’OpenAI ait présenté DALL-E 2, son plus récent cadre d’IA permettant de créer des images à partir de texte, Google a poursuivi la « course à l’espace » de l’IA avec son propre modèle de dispersion texte-image, Imagen. Les résultats de Google sont très, voire effrayants, étonnants. En utilisant une mesure standard, le FID, Google Imagen surpasse DALL-E 2 d’Open AI avec un score de 7,27 en utilisant l’ensemble de données COCO. Bien qu’il n’ait pas été préparé à l’aide de COCO, Imagen a obtenu de bons résultats ici aussi. Imagen domine également DALL-E 2 et d’autres stratégies de conversion texte-image concurrentes auprès des évaluateurs humains. Vous pouvez découvrir les résultats complets des tests sur le document d’examen de Google.
Comment fonctionne Google Imagen?
Imagen fonctionne à partir d’un texte en langage caractéristique, tel que « Un chien Golden Retriever portant un béret à carreaux bleus et un col roulé rouge », puis utilise un encodeur T5-XXL gelé pour transformer ce texte en images intégrées. Un « modèle de diffusion contingent » fait ensuite correspondre l’implantation du texte à une petite image 64×64. Imagen utilise des modèles de diffusion super-goal restrictifs pour rééchantillonner l’image 64×64 en 256×256 et 1024×1024. Comparé à la technique GauGAN2 de NVIDIA de l’automne précédent, Imagen est essentiellement travaillé en ce qui concerne l’adaptabilité et les résultats. L’intelligence artificielle progresse rapidement. Apparemment, tout ce que nous avons vu jusqu’à présent d’Imagen est charmant. Des tenues amusantes sur des créatures hirsutes, une flore désertique avec des nuances, des ours en peluche qui nagent, des ratons laveurs royaux, et ainsi de suite. Où pourraient être les individus ?
Comment accéder à Google Imagen ?
Donc non, vous ne pouvez pas accéder à Imagen par vous-même. Sur son site, Google vous permet de taper des mots non ambigus d’un ensemble choisi pour obtenir des résultats, comme « la photo d’un panda duveteux portant une casquette d’éleveur et un manteau de cuir de veau foncé jouant de la guitare au sommet d’une montagne », mais vous ne pouvez pas chercher quoi que ce soit en rapport avec des personnes ou des activités ou choses éventuellement délicates. Si vous en êtes capable, vous constaterez que le modèle crée en général des images d’individus au teint clair et qu’il construit des emplois d’orientation conventionnels. Les premiers examens montrent en outre qu’Imagen reflète les inclinaisons sociales par sa représentation de choses et d’occasions spécifiques. Nous savons que Google est conscient des problèmes de représentation dans sa vaste gamme d’articles et qu’il s’efforce de développer davantage la représentation pratique du teint et de réduire les inclinaisons intrinsèques. Quoi qu’il en soit, l’IA est encore une sorte de « Far West ». Bien que de nombreuses personnes compétentes et perspicaces travaillent en arrière-plan pour produire des modèles d’IA, un modèle est fondamentalement seul une fois publié. En fonction de l’ensemble de données utilisé pour préparer le modèle, il est difficile de prévoir ce qui se passera lorsque les clients pourront taper tout ce dont ils ont besoin.