Google DeepMind の Perch 2.0 AI、鳥類で訓練されて今や水中の鯨の音を検出

Google DeepMindのPerch 2.0が鳥類のデータを用いて海洋音響学を変革

生物音響学（Bioacoustics）の分野における驚くべき進展として、Google DeepMindは、本来は鳥の鳴き声や陸生動物を特定するために設計された最新のAIモデル「Perch 2.0」が、水中のクジラの音を検出する際にも極めて優れた能力を発揮することを明らかにした。この画期的な成果は、転移学習（Transfer Learning）の威力を浮き彫りにしている。転移学習とは、ある領域で訓練された基盤モデルが、直接的な事前の接触なしに、全く異なる環境に対してその知識を適応させることに成功する手法である。

Google ResearchとGoogle DeepMindによる新しい研究論文とブログ記事で詳述されたこの知見は、微妙な鳥の鳴き声を区別することで学習された音響的特徴が、複雑な海洋のサウンドスケープを分類する上でも非常に有効であることを示唆している。この進展は、絶滅危惧種を監視するための機敏で効率的なツールを研究者に提供することで、海洋保全活動を加速させることが期待される。

ギャップを埋める：森林から海洋へ

Perch 2.0は、音の基本構造を理解するために膨大なデータで訓練されたAIの一種である、生物音響学の基盤モデル（Foundation Model）として機能する。その前身や専門的な海洋モデルとは異なり、Perch 2.0は主に鳥やその他の陸生動物の鳴き声で訓練された。訓練段階において、水中の音声には一切さらされていなかった。

それにもかかわらず、研究者が海洋の検証タスクでモデルをテストしたところ、Perch 2.0は驚くほど良好なパフォーマンスを示した。それは、水中環境向けに特別に設計されたモデルに匹敵し、しばしばそれを上回った。この現象は、生物学的な音生成の根底にあるパターンが普遍的な特性を共有しており、AIがその専門知識を空気中から水中へと「転移」できることを示唆している。

Google Researchのデータサイエンティストであるローレン・ハレル（Lauren Harrell）氏は、14種類の北米のハトの明確な「クークー」という鳴き声など、類似した鳥の鳴き声を区別するモデルの能力が、詳細な音響的特徴の学習を強いていると指摘した。これらの同じ特徴が、海洋哺乳類の鳴き声の微妙なニュアンスを区別する上でも重要であると考えられる。

技術解説：転移学習の威力

このイノベーションの核心は、**転移学習**として知られる手法にある。新しく発見された海洋生物種ごとにディープニューラルネットワークを一から構築する代わりに、研究者はPerch 2.0を使用して「埋め込み（Embeddings）」を生成できる。

埋め込みとは、音声データを圧縮した数値表現のことである。Perch 2.0は、生の水中録音を処理し、これら管理しやすい特徴量へと変換する。その後、研究者はこれらの埋め込みの上で、特定の音を特定するためのシンプルで計算コストの低い分類器（ロジスティック回帰など）を訓練する。

このアプローチの利点は以下の通りである：

効率性： 新しいディープラーニングモデルを訓練する場合と比較して、必要な計算量を劇的に削減する。
スピード： 「アジャイル・モデリング」を可能にし、研究者が数週間ではなく数時間でカスタム分類器を作成できるようにする。
柔軟性： ラベル付きの例が少数しか得られない「フューショット学習（Few-shot Learning）」においても効果的である。

海洋データセットにおけるパフォーマンス

モデルの能力を検証するため、チームはPerch 2.0を、Perch 1.0、SurfPerch、および専用のクジラモデルを含む他のいくつかの生物音響学モデルと比較評価した。評価には、多様な水中音響の課題を代表する3つの主要なデータセットが使用された。

表1：評価に使用された主要な海洋データセット

データセット名	出典/説明	対象の分類
NOAA PIPAN	NOAA 太平洋諸島漁業科学センター	ヒゲクジラ亜目：シロナガスクジラ、ナガスクジラ、イワシクジラ、ザトウクジラ、ニタリクジラ謎の「バイオトワン（Biotwang）」音を含む
ReefSet	Google Arts & Culture「サンゴの声を聞く」	礁のノイズ（鳴き声、パチパチ音）特定の魚種（スズメダイ、ハタ）
DCLDE	多様な生物音および非生物音	シャチのエコタイプ（定住型、回遊型、沖合型）生物音と非生物音の区別

これらのテストにおいて、Perch 2.0は様々なサンプルサイズにわたって、一貫してトップまたは2番目に優れたパフォーマンスを発揮するモデルとしてランク付けされた。特筆すべきは、シャチの異なる「エコタイプ（Killer whale ecotypes）」や個体群の区別において優れていたことである。これは、微妙な方言の違いを検出する必要がある非常に困難なタスクである。

t-SNEプロットを用いた可視化技術により、Perch 2.0が異なるシャチの個体群に対して明確なクラスターを形成していることが明らかになった。対照的に、他のモデルでは結果が混ざり合ってしまうことが多く、北部定住型シャチと回遊型シャチの明確な音響シグネチャを分離することに失敗していた。

なぜ鳥類AIがクジラを理解するのか

研究者たちは、この分野を越えた転移が成功した理由について、いくつかの理論を提案している。主な要因はおそらく、モデルの圧倒的なスケールにある。大規模な基盤モデルは汎化性能が高くなる傾向があり、幅広く適用できる堅牢な特徴表現を学習する。

さらに、「サンカノゴイの教訓（Bittern lesson）」も役割を果たしている。鳥類学において、サンカノゴイの轟くような鳴き声を同様の低周波音から区別するには、高い精度が必要とされる。これらの陸生における課題を克服することで、モデルはクジラの歌も特徴付ける微細な周波数変調に注意を払うように、事実上自らを訓練しているのである。

さらに、生物学的な根拠として「収斂進化（Convergent Evolution）」がある。樹上に住んでいるか海洋に住んでいるかにかかわらず、多くの種が音を生成するために同様のメカニズムを進化させてきた。鳴管（鳥の発生器官）の物理学を捉える基盤モデルは、図らずも海洋哺乳類の鳴き声の物理学を捉えている可能性がある。

保全への影響

事前に訓練された陸生モデルを海洋研究（Marine Research）に利用できる能力は、高度なAIツールへのアクセスを民主化する。GoogleはGoogle Colabを通じてエンドツーエンドのチュートリアルを公開しており、海洋生物学者がNOAA NCEI受動的音響データアーカイブのデータを用いて Perch 2.0を活用できるようにしている。

この「アジャイル・モデリング」のワークフローは、広範な機械学習の専門知識や膨大な計算リソースが必要であるという障壁を取り除く。自然保護活動家は、回遊するクジラの個体群を追跡したり、サンゴ礁の健康状態を監視したり、最近特定されたニタリクジラの「バイオトワン」のような新しい未知の音を特定したりするためのカスタム分類器を、かつてないスピードと精度で迅速に導入できるようになった。

音がAIにとって普遍的な言語であることを証明することで、Google DeepMindのPerch 2.0は、計算機科学を進歩させるだけでなく、海の隠された謎を理解し保護するための重要な生命線を提供している。