AI News

DeepSeek leitet direkte Herausforderung an Google mit Plänen für eine multimodale KI-Suchmaschine ein

Eine bedeutende Verschiebung zeichnet sich in der globalen Landschaft der künstlichen Intelligenz ab, da DeepSeek, das in Hangzhou ansässige KI-Startup, aktiv auf den Suchmaschinenmarkt ausrichtet. Aktuelle Stellenanzeigen und strategische Schritte zeigen, dass das Unternehmen eine mehrsprachige (mehrsprachig, multilingual) und multimodale (multimodal) KI-Suchmaschine entwickelt, die Text, Bilder und Audio verarbeiten soll. Diese Entwicklung stellt eine direkte Eskalation des Wettbewerbs gegen etablierte Branchengrößen wie Google und OpenAI dar.

Die Initiative nutzt DeepSeeks schnell wachsenden Ruf für hocheffizientes Modelltraining und Open-Source-Beiträge. Indem es auf ein „Phone-first“-Sucherlebnis (Phone-first, phone-first) abzielt, das in der Lage ist, komplexe Eingaben wie Screenshots und Sprachbefehle zu verarbeiten, positioniert sich DeepSeek, um das traditionelle, schlüsselwortbasierte Suchparadigma zu stören.

Eine strategische Einstellungswelle offenbart Ambitionen

Im Januar veröffentlichte DeepSeek eine Reihe von Stellenangeboten, die einen klaren Einblick in die Produkt-Roadmap geben. Im Gegensatz zu früheren Recruiting-Kampagnen, die sich auf die Forschung an großen Sprachmodellen (Forschung an großen Sprachmodellen, large language model, LLM) konzentrierten, sind diese neuen Rollen speziell auf Suchinfrastruktur und die Entwicklung autonomer Agenten ausgerichtet.

Das Unternehmen sucht nach „Search Algorithm Engineers“ (Search-Algorithmus-Ingenieure, Search Algorithm Engineers) und Full-Stack-Entwicklern (Full-Stack-Entwickler, full-stack developers) mit Expertise in „persistent agents“ (persistente Agenten, persistent agents). Die Ausschreibungen beschreiben ein System, das mit minimaler menschlicher Aufsicht arbeiten kann, was auf einen Schritt über einfache Chatbots hinaus zu vollständig autonomen Assistenten hindeutet. Zu den wichtigsten in den Rekrutierungsunterlagen aufgeführten Verantwortlichkeiten gehören:

  • Mehrsprachige Abfrageunterstützung (mehrsprachig, multilingual): Aufbau einer Engine, die Anfragen in Dutzenden von Sprachen nativ verstehen und verarbeiten kann.
  • Multimodale Integration (multimodal): Entwicklung von Pipelines zur Verarbeitung nicht-textlicher Eingaben, speziell optimiert für mobile Szenarien, in denen Benutzer mittels Screenshot oder Sprachclip suchen könnten.
  • Agenten-Infrastruktur (agentic infrastructure, agentisch): Schaffung von Plattformen zum Hosten persistenter Agenten (persistente Agenten, persistent agents), die Langzeitaufgaben ausführen können, wie z. B. Informationen aus dem Web zu sammeln, um komplexe Fragen zu beantworten.

Diese Einstellungswelle steht im Einklang mit der breiteren Strategie des Unternehmens, seine Nützlichkeit über Coding-Assistenten und Chat-Oberflächen hinaus in das lukrative Gebiet der Informationssuche auszudehnen, einem Sektor, der derzeit von Alphabet Inc.s Google dominiert wird.

Das technologische Rückgrat: Janus-Pro und DeepSeek-R1

DeepSeeks Vertrauen, mit Titanen des Silicon Valley zu konkurrieren, rührt von den jüngsten Durchbrüchen in der Modellarchitektur her. Zwei Kerntechnologien scheinen die Grundlage dieser neuen Suchmaschine zu bilden: das auf Schlussfolgerung ausgerichtete DeepSeek-R1 und das multimodale Janus-Pro (Janus-Pro).

Während DeepSeek-R1 Schlagzeilen machte, weil es erstklassige US-Modelle bei einem Bruchteil der Trainingskosten erreichte, ist Janus-Pro wahrscheinlich die Engine, die die visuellen und Audio-Suchfähigkeiten antreibt. Kürzlich veröffentlicht, ist Janus-Pro ein einheitliches multimodales (multimodal) Modell, das visuelle Kodierung von der Generierung entkoppelt. Diese architektonische Innovation ermöglicht es dem Modell, Bilder mit hoher Präzision zu „sehen“ und zu „verstehen“, während es gleichzeitig die Fähigkeit behält, Text oder Bilder zu generieren.

Vergleich der wichtigsten DeepSeek-Architekturen

Model Name Primary Function Key Architectural Feature Target Application
DeepSeek-R1 Schlussfolgerung & Logik Mixture-of-Experts (Mixture-of-Experts, MoE) Lösung komplexer Anfragen und Datenanalyse
Janus-Pro Multimodales Verständnis (multimodal) Entkoppelte visuelle Kodierung Bild-/Audio-Suche und Inhaltserstellung
DeepSeek-V3 Allgemeine Sprachaufgaben Effizientes Trainingsprotokoll Basisschicht für mehrsprachige (mehrsprachig, multilingual) Textverarbeitung

In Benchmark-Tests soll Janus-Pro Konkurrenten wie DALL-E 3 in bestimmten Generations- und Verständniskennzahlen übertroffen haben. Durch die Integration dieser Fähigkeit in eine Suchmaschine könnte DeepSeek es Nutzern ermöglichen, ein Foto eines defekten Geräts hochzuladen und zu fragen: „Wie repariere ich das?“ — dabei würde die KI das Modell identifizieren, das Handbuch abrufen und die Reparaturschritte in einer einzigen flüssigen Interaktion zusammenfassen.

Jenseits von Schlüsselwörtern: Der Aufstieg autonomer Agenten

Die Aufnahme persistenter Agenten (persistente Agenten, persistent agents) in die Stellenbeschreibungen deutet darauf hin, dass DeepSeek die aktuelle Generation der KI-Suche überholen will. Aktuelle KI-Suchwerkzeuge agieren oft als Zusammenfasser — sie lesen die Top-Ergebnisse und synthetisieren eine Antwort. DeepSeeks Vision scheint Agenten einzubeziehen, die das Web navigieren, Aktionen ausführen und über lange Zeiträume Kontext aufrechterhalten können.

Eine agentenbasierte (agentisch, agentic) Suchmaschine ruft nicht nur Links ab; sie erledigt Aufgaben. Zum Beispiel könnte ein persistenter Agent statt einer Suche nach „Flugpreise“ angewiesen werden, „Flüge nach Tokio für den nächsten Monat zu überwachen und zu buchen, wenn der Preis unter $800 fällt.“ Diese Fähigkeit erfordert eine robuste Infrastruktur, um Halluzinationen (Halluzinationen, hallucinations) zu verhindern und eine zuverlässige Ausführung sicherzustellen — eine Herausforderung, der sich DeepSeek durch die Einstellung von Spezialisten für Evaluierungsrahmen und Trainingsdatenzuverlässigkeit stellt.

Disruption des Marktes durch Kosteneffizienz

Einer der stärksten Vorteile von DeepSeek ist seine Kostenstruktur. Das Unternehmen schockierte die Branche, indem es offenbarte, dass sein V3-Modell für ungefähr $6 Millionen trainiert wurde, ein krasser Gegensatz zu den geschätzten $100 Millionen, die für OpenAIs GPT-4 erforderlich waren.

Diese Effizienz ermöglicht es DeepSeek, seine Dienste zu deutlich niedrigeren API-Kosten anzubieten und damit Wettbewerber aggressiv zu unterbieten. Sollte dieses kostengünstige Modell auf die Suche angewendet werden, könnte es einen Preiskampf im KI-API-Markt auslösen und fortschrittliche Suchfunktionen einer breiteren Palette von Entwicklern und Unternehmen zugänglich machen.

Die „Phone-first“-Strategie (Phone-first, phone-first) nutzt auch eine potenzielle Schwäche in Googles Rüstung. Während Google die Websuche dominiert, befindet sich die Umstellung auf AI-native, multimodale (multimodal) Interaktion auf mobilen Geräten noch in einem frühen Stadium. Indem DeepSeek für Screenshot-Anfragen und Sprache — natürliche Verhaltensweisen mobiler Nutzer — optimiert, versucht das Unternehmen, die nächste Generation des Suchverhaltens einzufangen.

Fazit

DeepSeeks Vorstoß in die KI-Suche ist nicht nur ein Experiment; es ist eine kalkulierte Expansion, gestützt durch spezialisierte Einstellungen und bewährte Modellarchitekturen wie Janus-Pro. Durch die Kombination hocheffizienter Schlussfolgerungsmodelle mit fortgeschrittenem multimodalem (multimodal) Verständnis baut das Unternehmen eine Plattform, die direkt mit den Kerngeschäftsmodellen von Google und OpenAI konkurriert. Wenn sich diese Technologien weiterentwickeln, wird sich die Definition von „Suche“ von einer Liste blauer Links zu einer dynamischen, multimodalen (multimodal) Konversation mit intelligenten Agenten wandeln.

Ausgewählt