
Dans une avancée surprenante pour le domaine de la bioacoustique, Google DeepMind a révélé que son dernier modèle d'IA, Perch 2.0 — conçu à l'origine pour identifier les chants d'oiseaux et les animaux terrestres — démontre une capacité exceptionnelle à détecter les sons sous-marins des baleines. Cette percée met en lumière la puissance de l'apprentissage par transfert (transfer learning), où un modèle de base (foundation model) entraîné dans un domaine applique avec succès ses connaissances à un environnement complètement différent sans exposition préalable directe.
Les résultats, détaillés dans un nouvel article de recherche et un billet de blog par Google Research et Google DeepMind, suggèrent que les caractéristiques acoustiques apprises lors de la distinction de vocalisations subtiles d'oiseaux sont très efficaces pour classifier des paysages sonores marins complexes. Ce progrès promet d'accélérer les efforts de conservation marine en fournissant aux chercheurs des outils agiles et efficaces pour surveiller les espèces en danger.
Perch 2.0 sert de modèle de base en bioacoustique, un type d'IA entraîné sur de vastes quantités de données pour comprendre les structures fondamentales du son. Contrairement à ses prédécesseurs ou aux modèles marins spécialisés, Perch 2.0 a été principalement entraîné sur les vocalisations d'oiseaux et d'autres animaux terrestres. Il n'a pas été exposé à l'audio sous-marin pendant sa phase d'entraînement.
Malgré cela, lorsque les chercheurs ont testé le modèle sur des tâches de validation marine, Perch 2.0 a obtenu des résultats remarquables. Il a rivalisé avec des modèles spécifiquement conçus pour les environnements sous-marins, et les a souvent surpassés. Ce phénomène suggère que les schémas sous-jacents de production de sons biologiques partagent des caractéristiques universelles, permettant à une IA de « transférer » son expertise de l'air vers l'eau.
Lauren Harrell, scientifique des données chez Google Research, a noté que la capacité du modèle à distinguer des chants d'oiseaux similaires — tels que les « roucoulements » distincts de 14 espèces différentes de tourterelles d'Amérique du Nord — l'oblige à apprendre des caractéristiques acoustiques détaillées. Ces mêmes caractéristiques semblent être essentielles pour différencier les nuances des vocalisations de mammifères marins.
Le cœur de cette innovation réside dans une technique connue sous le nom d'apprentissage par transfert (transfer learning). Au lieu de construire un nouveau réseau neuronal profond à partir de zéro pour chaque nouvelle espèce marine découverte, les chercheurs peuvent utiliser Perch 2.0 pour générer des « plongements » (embeddings).
Les plongements sont des représentations numériques compressées de données audio. Perch 2.0 traite les enregistrements sous-marins bruts et les convertit en ces caractéristiques exploitables. Les chercheurs entraînent ensuite un classificateur simple et peu coûteux en calcul (comme une régression logistique) au-dessus de ces plongements pour identifier des sons spécifiques.
Les avantages de cette approche incluent :
Pour valider les capacités du modèle, l'équipe a évalué Perch 2.0 par rapport à plusieurs autres modèles de bioacoustique, y compris Perch 1.0, SurfPerch et des modèles spécialisés pour les baleines. L'évaluation a utilisé trois ensembles de données principaux représentant divers défis acoustiques sous-marins.
Tableau 1 : Principaux ensembles de données marines utilisés pour l'évaluation
| Nom de l'ensemble de données | Source/Description | Classifications cibles |
|---|---|---|
| NOAA PIPAN | NOAA Pacific Islands Fisheries Science Center | Espèces de mysticètes : Baleines bleues, rorquals communs, rorquals boréaux, baleines à bosse et rorquals de Bryde Inclut le son mystérieux « biotwang » |
| ReefSet | Google Arts & Culture « Calling in Our Corals » | Bruits de récif (croassements, crépitements) Espèces de poissons spécifiques (demoiselles, mérous) |
| DCLDE | Divers sons biologiques et abiotiques | Écotypes d'orques (résidentes, de passage, hauturières) Distinction entre bruit biologique et abiotique |
Lors de ces tests, Perch 2.0 s'est systématiquement classé comme le meilleur ou le deuxième meilleur modèle parmi diverses tailles d'échantillons. Notamment, il a excellé dans la distinction entre différents « écotypes » ou sous-populations d'orques — une tâche notoirement difficile qui nécessite de détecter de subtiles différences de dialecte.
Les techniques de visualisation utilisant des graphiques t-SNE ont révélé que Perch 2.0 formait des grappes (clusters) distinctes pour différentes populations d'orques. En revanche, d'autres modèles produisaient souvent des résultats entremêlés, échouant à séparer clairement les signatures acoustiques distinctes des orques résidentes du Nord par rapport aux orques de passage.
Les chercheurs proposent plusieurs théories pour ce transfert réussi entre domaines. Le principal moteur est probablement l'échelle massive du modèle. Les grands modèles de base ont tendance à mieux généraliser, en apprenant des représentations de caractéristiques robustes qui s'appliquent largement.
De plus, la « leçon du buteau » joue un rôle. En ornithologie, distinguer le cri sourd d'un buteau de sons de basse fréquence similaires nécessite une grande précision. En maîtrisant ces défis terrestres, le modèle s'entraîne efficacement à prêter attention aux infimes modulations de fréquence qui caractérisent également les chants de baleines.
En outre, il existe une base biologique : l'évolution convergente. De nombreuses espèces, qu'elles vivent dans les arbres ou dans les océans, ont développé des mécanismes similaires pour la production de sons. Un modèle de base (foundation model) qui capture la physique d'un syrinx (organe vocal des oiseaux) peut par inadvertance capturer la physique de la vocalisation des mammifères marins.
La capacité d'utiliser un modèle terrestre pré-entraîné pour la recherche marine démocratise l'accès aux outils d'IA avancés. Google a publié un tutoriel de bout en bout via Google Colab, permettant aux biologistes marins d'utiliser Perch 2.0 avec des données provenant des archives de données acoustiques passives du NOAA NCEI.
Ce flux de travail de « modélisation agile » supprime la barrière de la nécessité d'une expertise approfondie en apprentissage automatique ou de ressources informatiques massives. Les défenseurs de l'environnement peuvent désormais déployer rapidement des classificateurs personnalisés pour suivre les populations de baleines en migration, surveiller la santé des récifs ou identifier de nouveaux sons inconnus — tels que le « biotwang » récemment identifié du rorqual de Bryde — avec une rapidité et une précision sans précédent.
En prouvant que le son est un langage universel pour l'IA, le Perch 2.0 de Google DeepMind fait non seulement progresser l'informatique, mais fournit également un lien vital pour comprendre et protéger les mystères cachés de l'océan.