L’IA peut-elle écrire votre morceau de rap préféré? edit

7 juin 2023

Le prototype d’agents conversationnels ChatGPT a suscité de nombreuses discussions autour de l’évolution des usages possibles de la machine dans les activités d’apprentissage et de création. Des algorithmes génératifs tels que Midjourney sont capables de générer des images à partir de quelques indications. La génération automatique de contenus peut-elle aussi révolutionner le domaine musical ?

Comme dans le domaine de la création artistique où des plateformes permettent de transformer certains textes en peintures ou vidéos, les algorithmes génératifs auraient les moyens de remodeler profondément le secteur musical qui avait déjà anticipé des transformations numériques marquantes. Bien que l’état des lieux ne montre aucune révolution décisive en la matière, il faut néanmoins porter attention à un nouveau prototype d’IA conçu par Google, appelé MusicLM, capable de générer des sons à la demande et à partir de « prompts » textuels. Le site Numerama donne l’exemple suivant : une mélodie de violon apaisante soutenue par un riff de guitare distordue. Dans la musique composée par ordinateur, le projet de recherche Angelia plaide pour une IA à la fois bio-inspiré et émotionnelle.  D’autres logiciels voient le jour, comme Beatoven pour la création de musique libre de droit ou Soundraw pour la création de musique d’ambiance. En utilisant les ressources de ChatGPT, PlaylistAI permet de générer des playlists à partir de quelques mots clés. Si les résultats sont plutôt mitigés pour l’instant, ce processus n’est qu’une étape des transitions numériques qui se déroulent sous nos yeux. Tandis que les images peuvent être persuasives, la musique s’avère prophétique comme le souligne Jacques Attali dans son ouvrage Bruits. Précisément, le rôle de l’IA en musique pose des questions fondamentales relatives à l’éthique et à la relation homme – machine. 

La musique, avec et au-delà des algorithmes génératifs

À la question de savoir si des algorithmes génératifs seront en mesure de créer un morceau de rap adapté au désir de chacun, on peut déjà répondre que des projets autour de synthèses sonores appuyées sur les données géométriques des conduits internes d’instruments de musique du patrimoine permettent de faire entendre des instruments de musiques anciens.

À première vue, la réalisation d’un texte de rap ne présente pas de difficulté pour un logiciel d’IA générative capable de réussir un examen de MBA à Wharton. Non seulement, des algorithmes peuvent écrire un texte correspondant aux attentes, mais ils peuvent aussi trouver son titre, décrire un projet musical ou générer des contenus pour les réseaux sociaux. En s’appuyant sur une grande quantité de textes disponibles (articles de presse, blogs, livres, forums, etc.), il peut comprendre le langage naturel et générer des textes de manière autonome. Il fournit les réponses les plus appropriés dans un contexte donné, utilisant les techniques de traitement automatique du langage. On retrouve cette logique dans la génération algorithmique des paroles, de fonds sonores attendus par les amateurs de musique a capella ou, de celle des images.

Une autre question concerne la musique accompagnant le texte elle-même. A défaut de pouvoir entreprendre une archéologie des sonorités (on sait que l’homme de Néandertal utilisait des flûtes taillées dans des roseaux, mais pas ce qu’il jouait), on peut estimer que dès le paléolithique, sa fonction sociale consiste à canaliser la violence et à fédérer un groupe. Relevant du sacré, elle est une mise en forme des bruits, se réalisant en extrayant du beau en dehors du chaos, donnant du sens. Aussi, la musique a très vraisemblablement précédé le langage parlé, permettant dès lors de raconter une histoire autrement que par les mots. Elle n’en constitue pas moins un langage, dont les compositions écrites n’ont été finalement transcrites que tardivement : la première composition écrite connue remonte au Xe siècle, la première portée au XIIe siècle, et la première partition imprimée à Venise en 1501. En tant que langage, elle constitue un ensemble de données qui permettent à une intelligence artificielle de procéder à une action de création. Si elle n’égale pas les plus grands compositeurs, l’intelligence artificielle est désormais en mesure de reproduire certains mécanismes du cerveau humain, grâce à l’action des réseaux neuronaux. Dans le secteur musical, les algorithmes génératifs touchent le cœur des relations de groupe. Le succès du plus connu d’entre eux, ChatGPT, contribue certainement à augmenter les investissements dans ce secteur de l’intelligence artificielle.

L’IA et la composition musicale: plus d’humain ou plus de machine?

Dans son ouvrage Bruits, Jacques Attali nous invite à prendre en compte le caractère prophétique de la musique : « Le savoir occidental tente, depuis vingt-cinq siècles, de voir le monde. Il n’a pas compris que le monde ne se regarde pas, qu’il s’entend. Il ne se lit pas, il s’écoute[1]. »

Au-delà de savoir quelle musique nous écouterons demain, il convient de revenir aux dilemmes que présente l’IA en matière musicale. Si les enjeux y sont bien moins élevés que pour des secteurs comme la santé ou le militaire, ils se posent néanmoins de diverses manières. Comme toute œuvre humaine, la musique est la rencontre d’un créateur, d’un spectateur et d’un messager. Avec la musique enregistrée, à la fin du XIXe siècle, l’homme est remplacé par la machine dans l’exécution de l’œuvre, ce qui a préfiguré la réplication en série du travail. Dès les années 1950-1960, l’IA se mêle de musique : deux professeurs de l’Illinois font composer le premier morceau en 1956, le soviétique Rudolf Zaripov crée le premier algorithme musical en 1960 et l’ingénieur et futurologue Ray Kurzweil crée un morceau de piano en 1965. Dans la circulation des œuvres, le format MP3 et le site Napster ont préfiguré les transformations numériques dès les années 1990. En 1997, un programme d’intelligence artificielle nommé Experiments in Music Intelligence (EMI) a semblé surpasser un compositeur humain dans la tâche de composer un morceau de musique pour imiter le style de Bach. Bien souvent, la musique est annonciatrice de changements qui la dépassent.

Ces progrès technologiques doivent-ils être vus comme une rupture anthropologique ? Plus précisément, l’IA en musique doit-elle se donner pour objectif de remplacer la créativité humaine ou au contraire de servir à l’exprimer ? Un « test de Turing » musical ne peut réussir que si l’on reconnaît à l’IA une capacité à produire de l’art authentique, à même de transmettre l’émotion, l’intention et la créativité humaine. Les neurosciences nous ont appris que les lieux cognitifs concernant le langage et ceux concernant la musique sont disjoints. Et la musique a plusieurs fonctions : Aristote distinguait par exemple trois types de musique, la musique éthique (utile à l’éducation), la musique d’action (même pour celui qui ne l’exécute pas) et la musique cathartique (pour perturber, puis apaiser l’âme). Si on intègre ces différentes dimensions, l’appréhension humaine de l’art et du lien social est aussi interrogée qu’il s’agisse d’un morceau de rap ou d’une symphonie complexe.

Enfin, la musique créée par l’IA est-elle créatrice d’œuvres d’art ? Le véritable auteur dans ce cas est-il le créateur de l’IA, ou la somme des auteurs constituant la base de données ? La question des droits d’auteur, portée en son temps par Beaumarchais, mérite d’être reposée à l’heure du numérique. Plusieurs procès en cours devant les tribunaux américains devraient préciser le cadre juridique en vigueur à l'avenir autour de ces systèmes d'aide à la création musicale. Cette question sera posée plus largement à l’ensemble de nos systèmes juridiques, sous l’œil attentif des majors et des acteurs de la filière.

[1] Jacques Attali, Bruits. Essai sur l’économie politique de la musique, Fayard, 2001, p.11.