
В рамках неожиданного развития событий в области биоакустики (bioacoustics), компания Google DeepMind сообщила, что ее новейшая модель ИИ, Perch 2.0 — изначально разработанная для идентификации птичьего пения и наземных животных — демонстрирует исключительные способности в обнаружении подводных звуков китов. Этот прорыв подчеркивает мощь обучения с переносом знаний (transfer learning), когда базовая модель (foundation model), обученная в одной области, успешно применяет свои знания в совершенно другой среде без предварительного прямого воздействия.
Результаты, подробно описанные в новой исследовательской статье и блоге Google Research и Google DeepMind, позволяют предположить, что акустические признаки, полученные в ходе различения тонких вокализаций птиц, весьма эффективны для классификации сложных морских звуковых ландшафтов. Этот прогресс обещает ускорить усилия по сохранению морской среды, предоставляя исследователям гибкие и эффективные инструменты для мониторинга исчезающих видов.
Perch 2.0 служит базовой моделью биоакустики, типом ИИ, обученным на огромных объемах данных для понимания фундаментальных структур звука. В отличие от своих предшественников или специализированных морских моделей, Perch 2.0 обучалась преимущественно на вокализациях птиц и других наземных животных. На этапе обучения она не подвергалась воздействию подводного аудио.
Несмотря на это, когда исследователи протестировали модель на задачах морской валидации, Perch 2.0 показала себя на удивление хорошо. Она соперничала и часто превосходила модели, специально разработанные для подводной среды. Этот феномен позволяет предположить, что основополагающие паттерны воспроизведения биологических звуков имеют универсальные характеристики, позволяя ИИ «переносить» свои знания из воздуха в воду.
Лорен Харрелл (Lauren Harrell), специалист по исследованию данных (Data Scientist) в Google Research, отметила, что способность модели различать похожие крики птиц — такие как отчетливое «воркование» 14 различных видов североамериканских голубей — заставляет ее изучать детализированные акустические признаки. Те же самые признаки, по-видимому, имеют решающее значение для дифференциации нюансов вокализации морских млекопитающих.
Суть этой инновации заключается в методе, известном как transfer learning (обучение с переносом знаний). Вместо того чтобы создавать новую глубокую нейронную сеть с нуля для каждого нового обнаруженного морского вида, исследователи могут использовать Perch 2.0 для генерации «эмбеддингов» (embeddings).
Эмбеддинги представляют собой сжатые числовые представления аудиоданных. Perch 2.0 обрабатывает необработанные подводные записи и преобразует их в эти управляемые признаки. Затем исследователи обучают простой, вычислительно недорогой классификатор (например, логистическую регрессию) поверх этих эмбеддингов для идентификации конкретных звуков.
Преимущества этого подхода включают:
Чтобы подтвердить возможности модели, команда оценила Perch 2.0 в сравнении с несколькими другими биоакустическими моделями, включая Perch 1.0, SurfPerch и специализированные модели для китов. Оценка проводилась с использованием трех основных наборов данных, представляющих разнообразные задачи подводной акустики.
Таблица 1: Ключевые морские наборы данных, использованные для оценки
| Название набора данных | Источник/Описание | Целевые классификации |
|---|---|---|
| NOAA PIPAN | Центр рыбохозяйственных наук островов Тихого океана NOAA | Усатые киты: Синий, финвал, сейвал, горбатый кит и полосатик Брайда Включает загадочный звук «биотванг» (biotwang) |
| ReefSet | Google Arts & Culture «Calling in Our Corals» | Звуки рифов (кваканье, потрескивание) Конкретные виды рыб (рыбы-ласточки, груперы) |
| DCLDE | Разнообразные биологические и абиотические звуки | Экотипы косаток (резидентные, транзитные, офшорные) Различение биологического и абиотического шума |
В этих тестах Perch 2.0 стабильно занимала первое или второе место по производительности при различных размерах выборки. Примечательно, что она преуспела в различении различных «экотипов» (ecotypes) или субпопуляций косаток — заведомо сложной задачи, требующей обнаружения тонких диалектных различий.
Методы визуализации с использованием графиков t-SNE показали, что Perch 2.0 сформировала четкие кластеры для различных популяций косаток. Напротив, другие модели часто давали смешанные результаты, неспособные четко разделить отличительные акустические сигнатуры северных резидентных и транзитных косаток.
Исследователи предлагают несколько теорий этого успешного междоменного переноса. Основным фактором, вероятно, является масштаб модели. Крупные базовые модели, как правило, лучше обобщают информацию, изучая надежные представления признаков, которые применимы в широком смысле.
Кроме того, свою роль играет «урок выпи» (bittern lesson). В орнитологии для того, чтобы отличить гулкий крик выпи от похожих низкочастотных звуков, требуется высокая точность. Осваивая эти наземные задачи, модель эффективно приучается обращать внимание на мельчайшие частотные модуляции, которые также характерны для песен китов.
Более того, существует биологическая основа: конвергентная эволюция (convergent evolution). Многие виды, независимо от того, живут ли они на деревьях или в океанах, выработали схожие механизмы воспроизведения звука. Базовая модель, фиксирующая физику сиринкса (голосового органа птицы), может непреднамеренно фиксировать физику вокализации морских млекопитающих.
Возможность использования предварительно обученной наземной модели для морских исследований демократизирует доступ к продвинутым инструментам ИИ. Google выпустила подробное руководство через Google Colab, позволяющее морским биологам использовать Perch 2.0 с данными из архива пассивных акустических данных NOAA NCEI.
Этот рабочий процесс «гибкого моделирования» устраняет барьер, связанный с необходимостью обширных знаний в области машинного обучения или огромных вычислительных ресурсов. Теперь защитники природы могут быстро развертывать пользовательские классификаторы для отслеживания мигрирующих популяций китов, мониторинга здоровья рифов или идентификации новых, неизвестных звуков — таких как недавно идентифицированный «биотванг» полосатика Брайда — с беспрецедентной скоростью и точностью.
Доказав, что звук — это универсальный язык для ИИ, модель Perch 2.0 от Google DeepMind не только продвигает компьютерные науки, но и обеспечивает жизненно важную основу для понимания и защиты скрытых тайн океана.