AI News

DeepSeekはマルチモーダル(multimodal)AI検索エンジン計画でGoogleに直接挑戦を開始

世界の人工知能(artificial intelligence)情勢には大きな変化が進行中で、杭州を拠点とするAIスタートアップのDeepSeekは検索エンジン市場へ積極的に軸足を移しています。最近の求人情報や戦略的な動きから、同社がテキスト、画像、音声を処理できる多言語(multilingual)かつマルチモーダル(multimodal)なAI検索エンジンを開発中であることが明らかになりました。これはGoogleやOpenAIといった確立された業界大手に対する直接的な競争激化を意味します。

この取り組みは、効率的なモデル訓練とオープンソース(open-source)への貢献で急速に高まっているDeepSeekの評判を活用しています。スクリーンショットや音声コマンドなど複雑な入力を扱える「phone-first(phone-first)」の検索体験を目指すことで、DeepSeekは従来のキーワードベースの検索パラダイムを崩す位置取りをしています。

戦略的な大量採用が野心を明らかにする

1月、DeepSeekは同社の製品ロードマップを垣間見せる一連の求人を公開しました。これまでの大規模言語モデル(large language model、LLM)研究に焦点を当てた採用と異なり、新しい職種は検索インフラと自律エージェント開発に特化しています。

同社は「Search Algorithm Engineers」や「persistent agents(persistent agents)」の専門知識を持つフルスタック開発者を募集しています。募集要項は、最小限の人間の監督で動作できるシステムを示唆しており、単純なチャットボットを超えて完全自律アシスタント(autonomous assistants)へと進む動きを示しています。募集資料に示された主な責務は次のとおりです:

  • 多言語クエリ対応(Multilingual Query Support): 数十の言語にネイティブに対応し処理できるエンジンを構築すること。
  • マルチモーダル統合(Multimodal Integration): 非テキスト入力を扱うパイプラインの開発、特にユーザーがスクリーンショットや音声クリップで検索するようなモバイルシナリオに最適化すること。
  • エージェント型インフラ(Agentic Infrastructure): ウェブから情報を収集して複雑な質問に答えるなどの長期タスクを実行できる「永続的エージェント(persistent agents)」をホストするプラットフォームを構築すること。

この採用活動は、同社がコーディングアシスタントやチャットインターフェースの枠を超え、現在Alphabet Inc.のGoogleが支配する収益性の高い情報検索領域へとユーティリティを拡大するというより広い戦略と一致しています。

技術的バックボーン:Janus-ProとDeepSeek-R1

DeepSeekがシリコンバレーの大手に挑む自信は、最近のモデルアーキテクチャでの突破口に由来します。新たな検索エンジンの基盤を形成する主要技術は、推論志向のDeepSeek-R1とマルチモーダル(multimodal)な**Janus-Pro**の二つのようです。

DeepSeek-R1は、訓練コストのごく一部で米国のトップクラスモデルと肩を並べたことで見出しを集めました。一方、Janus-Proは視覚および音声検索機能を支える可能性が高いエンジンです。最近公開されたJanus-Proは視覚エンコーディングを生成から切り離す統合型マルチモーダル(multimodal)モデルです。このアーキテクチャ的イノベーションにより、画像を高精度で「見る」および「理解」しつつ、テキストや画像を生成する能力を維持できます。

主要なDeepSeekアーキテクチャの比較

Model Name Primary Function Key Architectural Feature Target Application
DeepSeek-R1 推論と論理(Reasoning & Logic) 専門家混合(Mixture-of-Experts、MoE) 複雑なクエリ解決とデータ分析
Janus-Pro マルチモーダル理解(Multimodal Understanding) 視覚エンコーディングの分離 画像/音声検索とコンテンツ生成
DeepSeek-V3 一般的な言語タスク(General Language Task) 効率的な訓練プロトコル 多言語テキスト処理の基盤層

ベンチマークテストでは、Janus-Proが特定の生成および理解の指標でDALL-E 3などの競合を上回ったと報告されています。この機能を検索エンジンに統合することで、ユーザーが壊れた家電の写真をアップロードして「これをどう直すか?」と尋ねると、AIがモデルを特定してマニュアルを取得し、修理手順を一連の流れで要約することが可能になります。

キーワードを超えて:自律エージェントの台頭

求人記述に「永続的エージェント(persistent agents)」が含まれることは、DeepSeekが現世代のAI検索を飛び越えようとしていることを示唆しています。現在のAI検索ツールはしばしば要約者として機能し、上位結果を読み取って解答を合成します。DeepSeekのビジョンは、ウェブを巡回し、行動を実行し、長期間にわたってコンテクストを維持できるエージェントを含むようです。

エージェント型(agentic)検索エンジンは単にリンクを取得するだけではなく、タスクを完了します。例えば「フライト料金」を検索する代わりに、永続的エージェントに「次の1ヶ月間、東京行きのフライトを監視し、価格が800ドル未満になったら予約して」と指示することができます。この能力は「幻覚(hallucinations)」を防ぎ、信頼できる実行を保証する堅牢なインフラを必要とします。DeepSeekは評価フレームワークと訓練データの信頼性の専門家を採用することでこの課題に対処しています。

コスト効率で市場を攪乱

DeepSeekの最も強力な利点の一つはそのコスト構造です。同社はV3モデルの訓練に約600万ドルで済んだと公表し、OpenAIのGPT-4に必要と見積もられる約1億ドルと大きな差を示しました。

この効率性により、DeepSeekはAPIコストを大幅に低く設定して競合を強く下回る提供が可能になります。もしこの低コストモデルを検索に適用すれば、AI API市場で価格競争を引き起こし、高度な検索機能をより多くの開発者や企業が利用できるようになる可能性があります。

「phone-first(phone-first)」戦略はまた、Googleの弱点となりうる点を突きます。Googleはウェブ検索を支配していますが、モバイルデバイス上でのAIネイティブなマルチモーダル(multimodal)インタラクションへの移行はまだ初期段階です。スクリーンショット検索や音声というモバイルユーザーの自然な行動に最適化することで、DeepSeekは次世代の検索行動を取り込もうとしています。

結論

DeepSeekのAI検索への進出は単なる実験ではなく、専門的な採用とJanus-Proのような実証済みのモデルアーキテクチャによって支えられた計算された拡張です。高効率な推論モデルと先進的なマルチモーダル(multimodal)理解を組み合わせることで、同社はGoogleやOpenAIのコアビジネスモデルに直接競合するプラットフォームを構築しています。これらの技術が成熟するにつれて、「検索」の定義は青いリンクのリストから、知的エージェントとのダイナミックでマルチモーダルな対話へと進化するでしょう。

フィーチャー