Dans les coulisses : Notre laboratoire de ML

Dans notre dernier article, nous plongeons dans le monde passionnant de la technologie de synchronisation labiale deRask AI, avec les conseils de Dima Vypirailenko, responsable de l'apprentissage automatique au sein de l'entreprise. Nous vous emmenons dans les coulisses du Brask ML Lab, un centre d'excellence pour la technologie, où nous voyons de première main comment cet outil d'IA innovant fait des vagues dans la création et la distribution de contenu. Notre équipe est composée d'ingénieurs ML et d'artistes synthétiques VFX de classe mondiale qui ne se contentent pas de s'adapter à l'avenir, mais le créent.

Rejoignez-nous pour découvrir comment cette technologie transforme l'industrie de la création, réduit les coûts et aide les créateurs à atteindre des publics dans le monde entier.

Qu'est-ce que la technologie de synchronisation labiale ?

L'un des principaux défis de la localisation vidéo est le mouvement non naturel des lèvres. La technologie de synchronisation des lèvres est conçue pour aider à synchroniser efficacement les mouvements des lèvres avec les pistes audio multilingues. 

Comme nous l'avons appris dans notre dernier article, la technique de synchronisation labiale est beaucoup plus complexe que la simple synchronisation - il faut aussi que les mouvements de la bouche soient corrects. Tous les mots prononcés auront un effet sur le visage de l'orateur, comme le "O" créera évidemment une forme ovale de la bouche et ne sera donc pas un "M", ce qui rendra le processus de doublage encore plus complexe.

Voici le nouveau modèle de synchronisation labiale avec une meilleure qualité !

Notre équipe ML a décidé d'améliorer le modèle de synchronisation labiale existant. Qu'est-ce qui a motivé cette décision et quelles sont les nouveautés de cette version par rapport à la version bêta ?

Dima Vypirailenko
Responsable de l'apprentissage automatique à Rask AI
Bien que nos résultats en matière de synchronisation labiale soient remarquables et qu'ils aient suscité une attention considérable de la part des médias, y compris des émissions télévisées et des interviews sur notre technologie, lorsque nous avons publié notre version bêta du modèle de synchronisation labiale, nous avons reconnu qu'il ne répondait pas aux attentes en matière de qualité de tous les segments d'utilisateurs. Notre objectif premier était de combler cette lacune, en veillant à ce que nos utilisateurs puissent localiser efficacement non seulement la composante audio de leur contenu, mais aussi la composante vidéo.

Des efforts considérables ont été déployés pour améliorer le modèle, notamment :

  1. Précision améliorée : Nous avons affiné les algorithmes d'IA pour mieux analyser et faire correspondre les détails phonétiques de la langue parlée, ce qui permet d'obtenir des mouvements des lèvres plus précis et étroitement synchronisés avec le son dans plusieurs langues.
  2. ‍EnhancedNaturalness : En intégrant des données de capture de mouvement plus avancées et en affinant nos techniques d'apprentissage automatique, nous avons considérablement amélioré le naturel des mouvements des lèvres, ce qui donne à la parole des personnages un aspect plus fluide et plus réaliste.
  3. ‍Augmentation de lavitesse et de l'efficacité : Nous avons optimisé le modèle pour traiter les vidéos plus rapidement sans sacrifier la qualité, ce qui permet d'accélérer les délais d'exécution des projets nécessitant une localisation à grande échelle.
  4. ‍Intégration des commentaires des utilisateurs : Nous avons activement recueilli les commentaires des utilisateurs de la version bêta et intégré leurs idées dans le processus de développement afin de résoudre des problèmes spécifiques et d'améliorer la satisfaction générale des utilisateurs.

Comment notre modèle d'IA synchronise-t-il les mouvements des lèvres avec la traduction audio ?

Dima : "Notre modèle d'intelligence artificielle combine les informations de la traduction audio avec les informations sur le visage de la personne dans le cadre, puis les fusionne dans le résultat final. Cette intégration garantit que les mouvements des lèvres sont synchronisés avec précision avec le discours traduit, offrant ainsi une expérience visuelle transparente".

Quelles sont les caractéristiques uniques qui font de Premium Lip-Sync la solution idéale pour les contenus de haute qualité ?

Dima : "Premium Lip-sync est spécialement conçu pour traiter des contenus de haute qualité grâce à ses caractéristiques uniques, telles que la capacité multi-haut-parleurs et la prise en charge de la haute résolution. Elle peut traiter des vidéos d'une résolution allant jusqu'à 2K, ce qui garantit le maintien de la qualité visuelle sans compromis. En outre, la fonction multilocuteurs permet une synchronisation labiale précise entre les différents locuteurs d'une même vidéo, ce qui la rend très efficace pour les productions complexes impliquant plusieurs personnages ou locuteurs. Ces caractéristiques font de Premium Lipsync un choix de premier ordre pour les créateurs qui souhaitent un contenu de qualité professionnelle".

Qu'est-ce qu'une fonction de synchronisation labiale multi-interlocuteurs ?

La fonction de synchronisation labiale multilocuteurs est conçue pour synchroniser avec précision les mouvements des lèvres avec l'audio parlé dans les vidéos mettant en scène plusieurs personnes. Cette technologie avancée identifie et différencie plusieurs visages dans une même image, garantissant que les mouvements des lèvres de chaque personne sont correctement animés en fonction des paroles prononcées.

Fonctionnement de la synchronisation labiale à plusieurs haut-parleurs :

  • Reconnaissance des visages dans le cadre : Cette fonction reconnaît initialement tous les visages présents dans l'image vidéo, quel que soit leur nombre. Elle est capable d'identifier chaque individu, ce qui est essentiel pour une synchronisation labiale précise.
  • ‍AudioMatching : pendant la lecture de la vidéo, la technologie aligne la piste audio sur la personne qui parle. Ce processus de correspondance précise garantit que la voix et les mouvements des lèvres sont synchronisés.
  • ‍LipMovement Synchronization : Une fois la personne qui parle identifiée, la fonction de synchronisation des lèvres redessine les mouvements des lèvres pour la seule personne qui parle. Les personnes qui ne parlent pas et qui se trouvent dans le cadre ne verront pas leurs mouvements de lèvres modifiés et conserveront leur état naturel tout au long de la vidéo. Cette synchronisation s'applique exclusivement au locuteur actif, ce qui la rend efficace même en présence de voix hors champ ou de plusieurs visages dans la scène.
  • ‍Gestion desimages statiques de lèvres : il est intéressant de noter que cette technologie est également suffisamment sophistiquée pour redessiner les mouvements des lèvres sur des images statiques de lèvres si elles apparaissent dans le cadre vidéo, ce qui démontre sa capacité polyvalente.

    Cette fonction de synchronisation labiale multilocuteurs améliore le réalisme et l'engagement du spectateur dans les scènes avec plusieurs locuteurs ou dans les configurations vidéo complexes, en garantissant que seules les lèvres des personnes qui parlent bougent en fonction de l'audio. Cette approche ciblée permet de maintenir l'attention sur l'orateur actif et de préserver la dynamique naturelle des interactions de groupe dans les vidéos.

À partir d'une seule vidéo, dans n'importe quelle langue, vous pouvez créer des centaines de vidéos personnalisées présentant diverses offres dans plusieurs langues. Cette polyvalence révolutionne la façon dont les spécialistes du marketing peuvent s'adresser à des publics divers et mondiaux, en améliorant l'impact et la portée du contenu promotionnel.

Comment trouver l'équilibre entre la qualité et la vitesse de traitement dans la nouvelle Lip-sync Premium ?

Dima : "L'équilibre entre une qualité élevée et une vitesse de traitement rapide dans Premium Lipsync est un défi, mais nous avons fait des progrès significatifs dans l'optimisation de l'inférence de notre modèle. Cette optimisation nous permet d'obtenir la meilleure qualité possible à une vitesse raisonnable".

Dima Vypirailenko
Responsable de l'apprentissage automatique à Rask AI
Nous nous concentrons sur le traitement des seules informations nécessaires de la vidéo de l'utilisateur, ce qui accélère considérablement le temps de traitement du modèle. En rationalisant les données que notre modèle doit analyser, nous garantissons à la fois l'efficacité et le maintien d'un résultat de haute qualité, répondant ainsi aux exigences des créateurs de contenu professionnels.

Y a-t-il des imperfections intéressantes ou des surprises que vous avez rencontrées lors de la formation du modèle ?

Dima Vypirailenko
Responsable de l'apprentissage automatique à Rask AI
Oui, nous avons dû relever plusieurs défis intrigants, en particulier celui de veiller à ce que non seulement les lèvres, mais aussi les poils du visage et les dents aient l'air corrects. C'est un peu comme si nous avions tous obtenu un diplôme de dentiste à un moment donné !


En outre, le travail avec les occlusions autour de la bouche s'est avéré assez difficile. Ces éléments nécessitent une attention particulière aux détails et une modélisation sophistiquée pour obtenir une représentation réaliste et précise dans notre technologie de synchronisation labiale.

Comment l'équipe de la ML assure-t-elle la confidentialité et la protection des données des utilisateurs lors du traitement des documents vidéo ?

Dima : Notre équipe ML prend très au sérieux la confidentialité et la protection des données des utilisateurs. Pour le modèle Lipsync, nous n'utilisons pas les données des clients pour l'entraînement, ce qui élimine tout risque d'usurpation d'identité. Nous nous appuyons uniquement sur des données open-source accompagnées de licences appropriées pour l'entraînement de notre modèle. En outre, le modèle fonctionne comme une instance distincte pour chaque utilisateur, ce qui garantit que la vidéo finale n'est livrée qu'à l'utilisateur concerné et évite tout enchevêtrement de données.

Au fond, nous nous engageons à donner du pouvoir aux créateurs, en garantissant l'utilisation responsable de l'IA dans la création de contenu, en mettant l'accent sur les droits légaux et la transparence éthique. Nous garantissons que vos vidéos, photos, voix et ressemblances ne seront jamais utilisées sans autorisation explicite, assurant ainsi la protection de vos données personnelles et de vos actifs créatifs.

Nous sommes fiers d'être membres de The Coalition for Content Provenance and Authenticity (C2PA) et de The Content Authenticity Initiative, reflétant notre dévouement à l'intégrité et à l'authenticité du contenu à l'ère numérique. En outre, notre fondatrice et PDG, Maria Chmir, est reconnue dans le répertoire Women in AI Ethics™, soulignant notre leadership en matière de pratiques éthiques dans le domaine de l'IA.

Quelles sont les perspectives d'avenir pour le développement de la technologie de synchronisation labiale ? Y a-t-il des domaines spécifiques qui vous intéressent particulièrement ?

Dima : Nous pensons que notre technologie de synchronisation labiale peut servir de base à la poursuite du développement des avatars numériques. Nous envisageons un avenir où tout le monde pourra créer et localiser du contenu sans avoir à supporter les coûts de production vidéo.

À court terme, dans les deux prochains mois, nous nous engageons à améliorer les performances et la qualité de notre modèle. Notre objectif est d'assurer un fonctionnement fluide sur les vidéos 4K et d'améliorer la fonctionnalité des vidéos traduites dans les langues asiatiques. Ces avancées sont cruciales car nous visons à élargir l'accessibilité et la facilité d'utilisation de notre technologie, ouvrant ainsi la voie à des applications innovantes dans le domaine de la création de contenu numérique. Essayez notre fonctionnalité améliorée de synchronisation labiale et envoyez-nous vos commentaires sur cette fonctionnalité.

FAQ

Combien coûte la création d'une synchronisation labiale pour une vidéo ?
Combien de temps faut-il pour générer une synchronisation labiale ?
Comment fonctionne la fonction sur Rask AI ?
Commencez dès maintenant à traduire des vidéos
Doublage dans plus de 135 langues avec Al
Clonage de voix dans 32 langues
Puissant éditeur illimité
Transcription et traduction automatiques
Essai gratuit
aucune carte de crédit requise

À lire absolument

flèche gauche
flèche droite