Meta vient d’annoncer AudioCraft, une suite d’outils basés sur l’intelligence artificielle. Composée de trois modèles d’IA différents, elle permet de générer des musiques et des effets sonores de qualité. Meta a mis le code de sa technologie à disposition de tous pour accélérer la recherche.
Très engagé dans la course à l’intelligence artificielle, Meta vient de mettre en ligne AudioCraft, une suite d’outils animés par l’IA. Cette suite est capable de « générer facilement de l’audio et de la musique de haute qualité » sur base d’un simple texte. Pour produire des pistes sonores, il suffit désormais de décrire à l’IA ce que vous avez en tête. Il n’y a pas « besoin de jouer une seule note sur un instrument », souligne l’entreprise de Menlo Park dans un billet sur son blog. Plus besoin d’apprendre la guitare, le violon ou le piano donc !
Trois modèles d’IA pour la musique, le son et la compression
Concrètement, Audiocraft se compose de trois modèles d’IA. On trouve tout d’abord MusicGen. Annoncé au début de l’été, ce modèle peut générer une courte piste musicale à partir d’une phrase en s’appuyant sur une base de données composée de 20 000 heures de musique sous licence. L’utilisateur doit indiquer le genre de musique désiré, mentionner les instruments à utiliser et définir les sentiments que la composition doit éveiller chez l’auditeur.
Le modèle est accompagné par AudioGen. Cet outil est conçu pour générer des effets sonores et des bruitages. Pour mettre au point l’IA, Meta s’est servi d’une base de données contenant des « effets sonores publics ». Là encore, il suffit d’écrire ce que vous voulez pour obtenir un bruitage en particulier.
Ces deux modèles d’IA, déjà annoncés par le groupe par le passé, sont assistés par EnCodec. Cette technologie va scinder les fichiers audio en petits bouts afin de faciliter le traitement par l’intelligence artificielle. In fine, EnCodec permet de générer une musique avec moins de distorsions indésirables, comme des cliquetis, des bourdonnements ou des sifflements par exemple. Le résultat est plus clair et plus net grâce à une meilleure compression.
En combinant ces trois modèles, n’importe qui peut générer une composition musicale ou obtenir des effets sonores de qualité, pour un film, un animé ou un jeu vidéo, en rédigeant une description. Sans surprise, il faut accorder un soin particulier à la rédaction du texte, en ajoutant des détails et des indications, pour recueillir des résultats précis et convaincants. Meta précise qu’AudioCraft est très facile à utiliser :
« Avec AudioCraft, nous simplifions la conception globale des modèles génératifs pour l’audio par rapport aux travaux antérieurs ».
Pour Meta, AudioCraft n’est pas destiné à remplacer les musiciens et autres professionnels de l’audio. La société américaine décrit plutôt sa technologie comme « un nouveau type d’instrument — tout comme les synthétiseurs lorsqu’ils sont apparus pour la première fois ».
Meta et la recherche sur l’IA
Fidèle à ses habitudes, Meta offre un accès complet à ses modèles aux chercheurs. Cette stratégie open source vise à encourager la recherche sur l’intelligence artificielle. Le groupe de Mark Zuckerberg a déjà procédé de la sorte avec LLaMA, son modèle de langage alternatif au GPT d’OpenAI. Ce modèle a vite été adopté par les développeurs et utilisé pour créer de nombreux chatbots différents, y compris des versions non censurées, accessibles sur la toile.
« Nous ouvrons l’accès à ces modèles, donnant aux chercheurs et aux praticiens la possibilité de former leurs propres modèles avec leurs propres ensembles de données pour la première fois, pour les aider à faire progresser le domaine de l’audio et de la musique générés par l’IA », explique Meta dans le communiqué.
Ces derniers mois, Meta a dévoilé une pléthore d’innovations liées à l’IA. Une seule de ses créations n’a pas été mise à disposition de la recherche. Il s’agit de Voicebox, une intelligence artificielle capable d’imiter une voix humaine. Le groupe redoute que des individus malveillants se servent de l’outil pour piéger et manipuler d’autres personnes.
Source : Meta