Dans les coulisses : Notre laboratoire de ML

Maria Zhukova

Chef de la rédaction chez Brask

30 Apr 2024

,

16

min lire

,

#Nouvelles

Ce qu'il y a à l'intérieur

Dans notre dernier article, nous plongeons dans le monde passionnant de la technologie de synchronisation labiale deRask AI, avec les conseils de Dima Vypirailenko, responsable de l'apprentissage automatique au sein de l'entreprise. Nous vous emmenons dans les coulisses du Brask ML Lab, un centre d'excellence pour la technologie, où nous voyons de première main comment cet outil d'IA innovant fait des vagues dans la création et la distribution de contenu. Notre équipe est composée d'ingénieurs ML et d'artistes synthétiques VFX de classe mondiale qui ne se contentent pas de s'adapter à l'avenir, mais le créent.

Rejoignez-nous pour découvrir comment cette technologie transforme l'industrie de la création, réduit les coûts et aide les créateurs à atteindre des publics dans le monde entier.

Qu'est-ce que la technologie de synchronisation labiale ?

L'un des principaux défis de la localisation vidéo est le mouvement non naturel des lèvres. La technologie de synchronisation des lèvres est conçue pour aider à synchroniser efficacement les mouvements des lèvres avec les pistes audio multilingues.

Comme nous l'avons appris dans notre dernier article, la technique de synchronisation labiale est beaucoup plus complexe que la simple synchronisation - il faut aussi que les mouvements de la bouche soient corrects. Tous les mots prononcés auront un effet sur le visage de l'orateur, comme le "O" créera évidemment une forme ovale de la bouche et ne sera donc pas un "M", ce qui rendra le processus de doublage encore plus complexe.

Voici le nouveau modèle de synchronisation labiale avec une meilleure qualité !

Notre équipe ML a décidé d'améliorer le modèle de synchronisation labiale existant. Qu'est-ce qui a motivé cette décision et quelles sont les nouveautés de cette version par rapport à la version bêta ?

Dima Vypirailenko

Responsable de l'apprentissage automatique à Rask AI

Bien que nos résultats en matière de synchronisation labiale soient remarquables et qu'ils aient suscité une attention considérable de la part des médias, y compris des émissions télévisées et des interviews sur notre technologie, lorsque nous avons publié notre version bêta du modèle de synchronisation labiale, nous avons reconnu qu'il ne répondait pas aux attentes en matière de qualité de tous les segments d'utilisateurs. Notre objectif premier était de combler cette lacune, en veillant à ce que nos utilisateurs puissent localiser efficacement non seulement la composante audio de leur contenu, mais aussi la composante vidéo.

Des efforts considérables ont été déployés pour améliorer le modèle, notamment :

Précision améliorée : Nous avons affiné les algorithmes d'IA pour mieux analyser et faire correspondre les détails phonétiques de la langue parlée, ce qui permet d'obtenir des mouvements des lèvres plus précis et étroitement synchronisés avec le son dans plusieurs langues.
‍EnhancedNaturalness : En intégrant des données de capture de mouvement plus avancées et en affinant nos techniques d'apprentissage automatique, nous avons considérablement amélioré le naturel des mouvements des lèvres, ce qui donne à la parole des personnages un aspect plus fluide et plus réaliste.
‍Augmentation de lavitesse et de l'efficacité : Nous avons optimisé le modèle pour traiter les vidéos plus rapidement sans sacrifier la qualité, ce qui permet d'accélérer les délais d'exécution des projets nécessitant une localisation à grande échelle.
‍Intégration des commentaires des utilisateurs : Nous avons activement recueilli les commentaires des utilisateurs de la version bêta et intégré leurs idées dans le processus de développement afin de résoudre des problèmes spécifiques et d'améliorer la satisfaction générale des utilisateurs.

Comment notre modèle d'IA synchronise-t-il les mouvements des lèvres avec la traduction audio ?

Dima : "Notre modèle d'intelligence artificielle combine les informations de la traduction audio avec les informations sur le visage de la personne dans le cadre, puis les fusionne dans le résultat final. Cette intégration garantit que les mouvements des lèvres sont synchronisés avec précision avec le discours traduit, offrant ainsi une expérience visuelle transparente".

Quelles sont les caractéristiques uniques qui font de Premium Lip-Sync la solution idéale pour les contenus de haute qualité ?

Dima : "Premium Lip-sync est spécialement conçu pour traiter des contenus de haute qualité grâce à ses caractéristiques uniques, telles que la capacité multi-haut-parleurs et la prise en charge de la haute résolution. Elle peut traiter des vidéos d'une résolution allant jusqu'à 2K, ce qui garantit le maintien de la qualité visuelle sans compromis. En outre, la fonction multilocuteurs permet une synchronisation labiale précise entre les différents locuteurs d'une même vidéo, ce qui la rend très efficace pour les productions complexes impliquant plusieurs personnages ou locuteurs. Ces caractéristiques font de Premium Lipsync un choix de premier ordre pour les créateurs qui souhaitent un contenu de qualité professionnelle".

Qu'est-ce qu'une fonction de synchronisation labiale multi-interlocuteurs ?

La fonction de synchronisation labiale multilocuteurs est conçue pour synchroniser avec précision les mouvements des lèvres avec l'audio parlé dans les vidéos mettant en scène plusieurs personnes. Cette technologie avancée identifie et différencie plusieurs visages dans une même image, garantissant que les mouvements des lèvres de chaque personne sont correctement animés en fonction des paroles prononcées.

Fonctionnement de la synchronisation labiale à plusieurs haut-parleurs :

Reconnaissance des visages dans le cadre : Cette fonction reconnaît initialement tous les visages présents dans l'image vidéo, quel que soit leur nombre. Elle est capable d'identifier chaque individu, ce qui est essentiel pour une synchronisation labiale précise.
‍AudioMatching : pendant la lecture de la vidéo, la technologie aligne la piste audio sur la personne qui parle. Ce processus de correspondance précise garantit que la voix et les mouvements des lèvres sont synchronisés.
‍LipMovement Synchronization : Une fois la personne qui parle identifiée, la fonction de synchronisation des lèvres redessine les mouvements des lèvres pour la seule personne qui parle. Les personnes qui ne parlent pas et qui se trouvent dans le cadre ne verront pas leurs mouvements de lèvres modifiés et conserveront leur état naturel tout au long de la vidéo. Cette synchronisation s'applique exclusivement au locuteur actif, ce qui la rend efficace même en présence de voix hors champ ou de plusieurs visages dans la scène.
‍Gestion desimages statiques de lèvres : il est intéressant de noter que cette technologie est également suffisamment sophistiquée pour redessiner les mouvements des lèvres sur des images statiques de lèvres si elles apparaissent dans le cadre vidéo, ce qui démontre sa capacité polyvalente.

Cette fonction de synchronisation labiale multilocuteurs améliore le réalisme et l'engagement du spectateur dans les scènes avec plusieurs locuteurs ou dans les configurations vidéo complexes, en garantissant que seules les lèvres des personnes qui parlent bougent en fonction de l'audio. Cette approche ciblée permet de maintenir l'attention sur l'orateur actif et de préserver la dynamique naturelle des interactions de groupe dans les vidéos.

À partir d'une seule vidéo, dans n'importe quelle langue, vous pouvez créer des centaines de vidéos personnalisées présentant diverses offres dans plusieurs langues. Cette polyvalence révolutionne la façon dont les spécialistes du marketing peuvent s'adresser à des publics divers et mondiaux, en améliorant l'impact et la portée du contenu promotionnel.

Comment trouver l'équilibre entre la qualité et la vitesse de traitement dans la nouvelle Lip-sync Premium ?

Dima : "L'équilibre entre une qualité élevée et une vitesse de traitement rapide dans Premium Lipsync est un défi, mais nous avons fait des progrès significatifs dans l'optimisation de l'inférence de notre modèle. Cette optimisation nous permet d'obtenir la meilleure qualité possible à une vitesse raisonnable".

Dima Vypirailenko

Responsable de l'apprentissage automatique à Rask AI

Nous nous concentrons sur le traitement des seules informations nécessaires de la vidéo de l'utilisateur, ce qui accélère considérablement le temps de traitement du modèle. En rationalisant les données que notre modèle doit analyser, nous garantissons à la fois l'efficacité et le maintien d'un résultat de haute qualité, répondant ainsi aux exigences des créateurs de contenu professionnels.

Y a-t-il des imperfections intéressantes ou des surprises que vous avez rencontrées lors de la formation du modèle ?

Dima Vypirailenko

Responsable de l'apprentissage automatique à Rask AI

Oui, nous avons dû relever plusieurs défis intrigants, en particulier celui de veiller à ce que non seulement les lèvres, mais aussi les poils du visage et les dents aient l'air corrects. C'est un peu comme si nous avions tous obtenu un diplôme de dentiste à un moment donné !

En outre, le travail avec les occlusions autour de la bouche s'est avéré assez difficile. Ces éléments nécessitent une attention particulière aux détails et une modélisation sophistiquée pour obtenir une représentation réaliste et précise dans notre technologie de synchronisation labiale.

Comment l'équipe de la ML assure-t-elle la confidentialité et la protection des données des utilisateurs lors du traitement des documents vidéo ?

Dima : Notre équipe ML prend très au sérieux la confidentialité et la protection des données des utilisateurs. Pour le modèle Lipsync, nous n'utilisons pas les données des clients pour l'entraînement, ce qui élimine tout risque d'usurpation d'identité. Nous nous appuyons uniquement sur des données open-source accompagnées de licences appropriées pour l'entraînement de notre modèle. En outre, le modèle fonctionne comme une instance distincte pour chaque utilisateur, ce qui garantit que la vidéo finale n'est livrée qu'à l'utilisateur concerné et évite tout enchevêtrement de données.

Au fond, nous nous engageons à donner du pouvoir aux créateurs, en garantissant l'utilisation responsable de l'IA dans la création de contenu, en mettant l'accent sur les droits légaux et la transparence éthique. Nous garantissons que vos vidéos, photos, voix et ressemblances ne seront jamais utilisées sans autorisation explicite, assurant ainsi la protection de vos données personnelles et de vos actifs créatifs.

Nous sommes fiers d'être membres de The Coalition for Content Provenance and Authenticity (C2PA) et de The Content Authenticity Initiative, reflétant notre dévouement à l'intégrité et à l'authenticité du contenu à l'ère numérique. En outre, notre fondatrice et PDG, Maria Chmir, est reconnue dans le répertoire Women in AI Ethics™, soulignant notre leadership en matière de pratiques éthiques dans le domaine de l'IA.

Quelles sont les perspectives d'avenir pour le développement de la technologie de synchronisation labiale ? Y a-t-il des domaines spécifiques qui vous intéressent particulièrement ?

Dima : Nous pensons que notre technologie de synchronisation labiale peut servir de base à la poursuite du développement des avatars numériques. Nous envisageons un avenir où tout le monde pourra créer et localiser du contenu sans avoir à supporter les coûts de production vidéo.

À court terme, dans les deux prochains mois, nous nous engageons à améliorer les performances et la qualité de notre modèle. Notre objectif est d'assurer un fonctionnement fluide sur les vidéos 4K et d'améliorer la fonctionnalité des vidéos traduites dans les langues asiatiques. Ces avancées sont cruciales car nous visons à élargir l'accessibilité et la facilité d'utilisation de notre technologie, ouvrant ainsi la voie à des applications innovantes dans le domaine de la création de contenu numérique. Essayez notre fonctionnalité améliorée de synchronisation labiale et envoyez-nous vos commentaires sur cette fonctionnalité.

FAQ

Hub d'information

C'est également intéressant

Présentation de Teamspaces : Simplifier la collaboration vidéo comme jamais auparavant

Elena Shenkarenko

Directeur du marketing, Rask AI

Présentation de Teamspaces : Simplifier la collaboration vidéo comme jamais auparavant

23 Apr 2025

,

3

min lire

#Nouvelles

Meilleur logiciel de traduction automatique de vidéos

Debra Davis

Meilleur logiciel de traduction automatique de vidéos

05 Dec 2024

,

6

min lire

Aucun élément n'a été trouvé.

Meilleures API de transcription vidéo

Donald Vermillion

Meilleures API de transcription vidéo

05 Dec 2024

,

5

min lire

Aucun élément n'a été trouvé.

Meilleures solutions API de clonage vocal : Rask L'IA domine le marché

Debra Davis

Meilleures solutions API de clonage vocal : Rask L'IA domine le marché

05 Dec 2024

,

7

min lire

#Clonage vocal IA

La meilleure API de synthèse vocale : Les meilleures options pour des transcriptions précises

Debra Davis

La meilleure API de synthèse vocale : Les meilleures options pour des transcriptions précises

27 Nov 2024

,

7

min lire

#Transcription

Revue de ElevenLabs - AI Voice Cloning App

Debra Davis

Revue de ElevenLabs - AI Voice Cloning App

26 Sep 2024

,

8

min lire

#Clonage vocal IA

Prix, caractéristiques et alternatives de HeyGen

Debra Davis

Prix, caractéristiques et alternatives de HeyGen

29 Aug 2024

,

7

min lire

#Montage vidéo IA

Les meilleurs logiciels de clonage de voix sur le marché : Les 6 meilleurs outils

Debra Davis

Les meilleurs logiciels de clonage de voix sur le marché : Les 6 meilleurs outils

23 Jul 2024

,

10

min lire

#Clonage vocal IA

Comment économiser jusqu'à 10 000 $ sur la localisation de vidéos grâce à l'IA

Maria Zhukova

Chef de la rédaction chez Brask

Comment économiser jusqu'à 10 000 $ sur la localisation de vidéos grâce à l'IA

25 Jun 2024

,

19

min lire

#Recherche

L'avenir de l'éducation : Le rôle de l'IA dans les 10 prochaines années

James Rich

L'avenir de l'éducation : Le rôle de l'IA dans les 10 prochaines années

19 Jun 2024

,

10

min lire

#EdTech

30+ Hashtags en vogue pour les courts métrages YouTube

Donald Vermillion

30+ Hashtags en vogue pour les courts métrages YouTube

19 Jun 2024

,

10

min lire

#Shorts

Comment traduire des vidéos YouTube dans n'importe quelle langue

Debra Davis

Comment traduire des vidéos YouTube dans n'importe quelle langue

18 Jun 2024

,

8

min lire

#Traduction de vidéos

8 Meilleure application de traduction vidéo pour les créateurs de contenu [de 2024]

Donald Vermillion

8 Meilleure application de traduction vidéo pour les créateurs de contenu [de 2024]

12 Jun 2024

,

7

min lire

#Traduction de vidéos

Meilleur logiciel de doublage AI pour la localisation de vidéos [de 2024]

Debra Davis

Meilleur logiciel de doublage AI pour la localisation de vidéos [de 2024]

11 Jun 2024

,

7

min lire

#Dubbing

Récapitulation du webinaire : Les clés de la localisation et de la monétisation sur YouTube

Anton Selikhov

Chef de produit à Rask AI

Récapitulation du webinaire : Les clés de la localisation et de la monétisation sur YouTube

30 mai 2024

,

18

min lire

#Nouvelles

#Localisation

Comment traduire des sous-titres rapidement et facilement ?

Debra Davis

Comment traduire des sous-titres rapidement et facilement ?

20 mai 2024

,

7

min lire

#Sous-titres

Les meilleurs outils en ligne pour traduire les fichiers SRT rapidement et facilement

Debra Davis

Les meilleurs outils en ligne pour traduire les fichiers SRT rapidement et facilement

19 mai 2024

,

4

min lire

#Sous-titres

L'IA au service de la technologie de l'éducation

Donald Vermillion

L'IA au service de la technologie de l'éducation

17 mai 2024

,

10

min lire

#Nouvelles

3 meilleures alternatives pour ElevenLabs

Donald Vermillion

3 meilleures alternatives pour ElevenLabs

13 mai 2024

,

6

min lire

#Texte à la parole

Les 8 meilleures alternatives à HeyGen

James Rich

Les 8 meilleures alternatives à HeyGen

11 mai 2024

,

7

min lire

#Texte à la parole

À lire absolument