L’EMO d’Alibaba : une révolution dans les vidéos parlantes et chantantes

aurora

il y a 2 ans

Récemment, des experts de l’Institut d’informatique intelligente d’Alibaba ont mis au point un nouveau système d’intelligence artificielle appelé« EMO« . Ce système est capable d’animer une simple photo de portrait et de générer des vidéos dans lesquelles la personne sur la photo parle ou chante d’une manière étonnamment réaliste.

Comment fonctionne EMO ?

Le système EMO utilise un modèle de diffusion de l’ intelligence artificielle, qui a démontré une capacité remarquable à générer des images synthétiques réalistes. Les experts d’Alibaba ont entraîné le modèle sur un vaste ensemble de données comprenant plus de 250 heures de vidéos de personnes parlant, provenant de discours, de films, d’émissions de télévision et de spectacles de chant.

Contrairement aux méthodes traditionnelles qui s’appuient sur des modèles faciaux en 3D ou sur le mélange de formes pour approximer les mouvements du visage, l’EMO convertit directement l’onde audio en images vidéo. Il est ainsi possible de saisir les mouvements subtils et les particularités propres à l’identité associées au langage naturel.

Avantages de l’EMO

EMO représente une avancée importante dans la génération de vidéos audioguidées de personnes en train de parler. D’après les expériences décrites dans leur document de recherche, EMO surpasse largement les méthodes existantes en termes de qualité vidéo, de préservation de l’identité et d’expressivité.

Les chercheurs d’Alibaba ont également mené une étude auprès des utilisateurs qui a montré que les vidéos générées par EMO sont plus naturelles et plus émotionnelles que celles produites par d’autres systèmes.

Générer des vidéos de personnes qui chantent

Outre les vidéos de conversation, EMO peut également animer des portraits de personnes qui chantent, en créant des mouvements de bouche appropriés et des expressions faciales évocatrices synchronisées avec le chant. Le système peut générer des vidéos d’une durée arbitraire en fonction de la longueur de l’audio d’entrée.

Les résultats expérimentaux montrent qu’EMO est capable de produire non seulement des vidéos convaincantes de personnes parlant, mais aussi des vidéos de personnes chantant dans différents styles, surpassant de manière significative les méthodologies existantes en termes d’expressivité et de réalisme.

Implications éthiques

Malgré les progrès remarquables réalisés par EMO et d’autres technologies similaires, des implications éthiques doivent être prises en compte. La capacité de synthétiser un contenu vidéo personnalisé à partir d’une simple photo et d’un extrait audio soulève des inquiétudes quant à l’utilisation abusive de cette technologie pour usurper l’identité de personnes sans leur consentement ou diffuser des informations erronées.

Les experts d’Alibaba affirment qu’ils prévoient d’étudier des méthodes de détection des vidéos synthétiques afin de lutter contre la diffusion potentielle de faux contenus.