
這是生物聲學(Bioacoustics)領域的一項驚人進展,Google DeepMind 透露其最新的 AI 模型 Perch 2.0——最初設計用於識別鳥鳴和陸生動物——在檢測水下鯨魚聲音方面展現出卓越的能力。這項突破凸顯了遷移學習(Transfer Learning)的力量,即在一個領域訓練的基礎模型(Foundation Model)能成功地將其知識應用於完全不同的環境,而無需事先直接接觸。
這些發現詳細記錄在 Google Research 和 Google DeepMind 發表的新研究論文和網誌文章中,表明從區分細微鳥類鳴叫中學到的聲學特徵,對於分類複雜的海洋聲景非常有效。這項進展有望透過為研究人員提供靈活、高效的工具來監測瀕危物種,進而加速海洋保育工作。
Perch 2.0 作為一個生物聲學基礎模型,是一種接受過海量數據訓練以理解聲音基本結構的 AI。與其前身或專門的海洋模型不同,Perch 2.0 主要針對鳥類和其他陸生動物的鳴叫進行訓練。在訓練階段,它並未接觸過水下音訊。
儘管如此,當研究人員在海洋驗證任務上測試該模型時,Perch 2.0 的表現異常出色。它與專為水下環境設計的模型並駕齊驅,甚至往往更勝一籌。這種現象表明,生物聲音產生的底層模式具有普遍特徵,使 AI 能夠將其專業知識從空氣「遷移」到水中。
Google Research 的數據科學家 Lauren Harrell 指出,該模型區分相似鳥鳴的能力——例如 14 種不同北美鳩鴿科物種獨特的「咕咕聲」——迫使它學習詳細的聲學特徵。這些特徵對於區分海洋哺乳動物鳴叫的細微差別似乎至關重要。
這項創新的核心在於一種稱為 遷移學習(Transfer Learning) 的技術。研究人員無需為每種新發現的海洋物種從頭開始構建新的深度神經網絡,而是可以使用 Perch 2.0 來生成「嵌入(Embeddings)」。
嵌入是音訊數據的壓縮數值表示。Perch 2.0 處理原始水下記錄並將其轉換為這些易於管理的特徵。隨後,研究人員在這些嵌入之上訓練一個簡單且計算成本低廉的分類器(如邏輯回歸)來識別特定的聲音。
此方法的優點包括:
為了驗證模型的能力,團隊將 Perch 2.0 與其他幾種 生物聲學(Bioacoustics) 模型進行了評估,包括 Perch 1.0、SurfPerch 和專門的鯨魚模型。評估使用了三個代表不同水下聲學挑戰的主要數據集。
表 1:用於評估的關鍵海洋數據集
| 數據集名稱 | 來源/描述 | 目標分類 |
|---|---|---|
| NOAA PIPAN | NOAA 太平洋群島漁業科學中心 | 鬚鯨物種:藍鯨、長鬚鯨、塞鯨、大翅鯨和布氏鯨 包括神秘的「生物撥弦聲(Biotwang)」 |
| ReefSet | Google Arts & Culture 「Calling in Our Corals」 | 珊瑚礁噪音(蛙鳴聲、裂紋聲) 特定魚類(雀鯛、石斑魚) |
| DCLDE | 多樣的生物和非生物聲音 | 虎鯨生態型(定居型、過境型、遠洋型) 區分生物與非生物噪音 |
在這些測試中,Perch 2.0 在各種樣本量下始終位居表現最好或第二好的模型。值得注意的是,它在區分虎鯨的不同「生態型」或亞群方面表現出色——這是一項出了名的艱鉅任務,需要檢測細微的方言差異。
使用 t-SNE 圖的視覺化技術顯示,Perch 2.0 為不同的虎鯨群體形成了明顯的聚類。相比之下,其他模型產生的結果往往交織在一起,無法清楚區分北部居民虎鯨與過境虎鯨獨特的聲學特徵。
研究人員針對這種成功的跨領域遷移提出了幾種理論。主要的驅動力可能是模型的龐大規模。大型基礎模型往往具有更好的泛化能力,能學習到廣泛適用的強大特徵表示。
此外,「麻鷺(Bittern)教訓」也發揮了作用。在鳥類學中,區分麻鷺的鳴聲與類似的低頻聲音需要極高的精確度。透過掌握這些陸地挑戰,模型有效地訓練了自己去關注同樣表徵鯨魚歌曲的微小頻率調製。
此外,還有生物學基礎:趨同演化(Convergent Evolution)。許多物種,無論是生活在樹上還是海洋中,都進化出了相似的聲音產生機制。捕捉鳴管(鳥類發聲器官)物理特性的 基礎模型(Foundation Model) 可能會無意中捕捉到海洋哺乳動物發聲的物理特性。
使用預訓練的陸地模型進行 海洋研究(Marine Research) 的能力,使獲取先進 AI 工具的過程變得大眾化。Google 透過 Google Colab 發布了端到端教程,讓海洋生物學家能夠利用來自 NOAA NCEI 被動聲學數據存檔的數據來使用 Perch 2.0。
這種「敏捷建模」工作流程消除了對大量機器學習專業知識或龐大計算資源的需求。保育人士現在可以快速部署自定義分類器,以追蹤遷徙的鯨魚群、監測珊瑚礁健康狀況,或以空前的速度和準確性識別新的、未知的聲音——例如最近發現的布氏鯨的「生物撥弦聲(Biotwang)」——。
透過證明聲音是 AI 的通用語言,Google DeepMind 的 Perch 2.0 不僅推動了計算機科學的發展,也為理解和保護海洋隱藏之謎提供了至關重要的生命線。