La plateforme Stable Audio permet aux utilisateurs de composer des musiques grâce à l’intelligence artificielle à partir d’invites textuelles.
La société de développement d’intelligence artificielle Stability AI, connue pour son générateur d’images par IA Stable Diffusion, a lancé une nouvelle plateforme d’IA générative pour l’audio baptisée Stable Audio. Stable Audio utilise un modèle de diffusion, le même modèle IA qui alimente Stable Diffusion, mais qui a été formé avec de l’audio plutôt qu’avec des images. Les utilisateurs peuvent l’utiliser pour générer des musiques ou des fonds sonores à partir de prompts textuels pour leur projet.
Stable Audio : créer de la musique par IA avec plus de contrôles…
À l’heure actuelle, les modèles de diffusion IA pour l’audio sont assez limités pour faire de la production musicale, car ils ont tendance à générer des contenus audio aléatoires et d’une longueur fixe. Par exemple, l’apprentissage audio sur un extrait de 30 secondes ne peut générer que 30 secondes de contenus sonores et créer des sections arbitraires de chansons. C’est là qu’intervient Stable Audio, la nouvelle plateforme de Stability AI, qui souhaite donner plus de contrôle aux utilisateurs sur la durée des contenus audio qu’ils souhaitent produire.
Dans un communiqué, la société de développement d’IA a déclaré : « Stable Audio représente la recherche de pointe en matière de génération audio menée par HarmonAI, le laboratoire de recherche en audio génératif de Stability AI. Nous continuons d’améliorer nos architectures de modèles, nos ensembles de données et nos procédures de formation afin d’améliorer la qualité des résultats, la contrôlabilité, la vitesse d’inférence et la longueur des contenus générés ».
Selon Stability AI, le modèle IA qui alimente Stable Audio a été entraîné sur « un ensemble de données composé de plus de 800 000 fichiers audio contenant de la musique, des effets sonores et des extraits d’instruments », ainsi que des métadonnées textuelles provenant de la société AudioSparx, spécialisée dans les musiques et les sons sous licences. L’ensemble de données représente plus de 19 500 heures de contenus sonores et en s’associant à AudioSparx, Stability AI affirme avoir l’autorisation d’utiliser ce matériel protégé par les droits d’auteur.
Comme pour les autres plateformes audio d’IA générative, Stable Audio devrait servir en grande partie aux créateurs de contenus pour produire rapidement et facilement de la musique d’ambiance pour des vidéos ou des podcasts. La plateforme proposera trois niveaux d’abonnements avec une version gratuite qui permet de créer 20 pistes par mois d’une durée maximale de 45 secondes, un niveau « Professionnel » à 11,99 $ pour 500 pistes d’une durée maximale de 90 secondes et un abonnement « Entreprise » sur mesure. Toutefois, la version gratuite de Stable Audio ne permet pas d’utiliser les fichiers audio produits à des fins commerciales.
Cette nouvelle plateforme arrive alors que Stability AI a annoncé en fin d’année dernière son intention d’étendre ses activités à la génération de sons, de vidéos et d’images 3D. D’autres acteurs du secteur se sont également lancés dans ce domaine comme Meta avec le projet open source AudioCraft ou Google avec le modèle MusicLM, mais ces derniers sont accessibles uniquement aux chercheurs et à certains professionnels du son.