
Uma mudança significativa está em andamento no panorama global de inteligência artificial à medida que a startup de Hangzhou, DeepSeek, está ativamente se voltando para o mercado de motores de busca. Postagens de emprego recentes e movimentos estratégicos revelam que a empresa está desenvolvendo um motor de busca de IA multimodal e multilíngue (multilingual, multimodal AI search engine) projetado para processar texto, imagens e áudio. Esse desenvolvimento marca uma escalada direta na competição contra gigantes estabelecidos da indústria como Google e OpenAI.
A iniciativa aproveita a reputação em rápido crescimento da DeepSeek por treinamento de modelos de alta eficiência e contribuições open-source. Ao visar uma experiência de busca com foco em celular (phone-first) capaz de lidar com entradas complexas como capturas de tela e comandos de voz, DeepSeek está se posicionando para perturbar o paradigma tradicional de busca baseado em palavras-chave.
Em janeiro, a DeepSeek divulgou uma série de vagas que oferecem uma janela clara para seu roadmap de produto. Ao contrário de campanhas de recrutamento anteriores focadas em pesquisa geral de modelos de linguagem de grande porte (LLM), essas novas funções são especificamente direcionadas para infraestrutura de busca e desenvolvimento de agentes autônomos.
A empresa está buscando "Search Algorithm Engineers" e desenvolvedores full-stack com expertise em "persistent agents" (agentes persistentes). As vagas descrevem um sistema capaz de operar com supervisão humana mínima, sugerindo um movimento além de chatbots simples em direção a assistentes totalmente autônomos. Responsabilidades-chave descritas nos materiais de recrutamento incluem:
Essa iniciativa de recrutamento alinha-se com a estratégia mais ampla da empresa de expandir sua utilidade além de assistentes de programação e interfaces de chat para o lucrativo domínio de recuperação de informação, um setor atualmente dominado pela Alphabet Inc.’s Google.
A confiança da DeepSeek em desafiar os titãs do Vale do Silício decorre de seus avanços recentes em arquitetura de modelos. Duas tecnologias centrais parecem formar a base deste novo motor de busca: o orientado ao raciocínio DeepSeek-R1 e o multimodal Janus-Pro.
Enquanto o DeepSeek-R1 ganhou manchetes por igualar modelos de ponta dos EUA a uma fração do custo de treinamento, o Janus-Pro é o motor que provavelmente alimentará as capacidades de busca visual e de áudio. Lançado recentemente, o Janus-Pro é um modelo multimodal unificado que desacopla o encoding visual da geração. Essa inovação arquitetural permite que o modelo "veja" e "entenda" imagens com alta precisão, mantendo a capacidade de gerar texto ou imagens em retorno.
Comparação das Principais Arquiteturas da DeepSeek
| Model Name | Primary Function | Key Architectural Feature | Target Application |
|---|---|---|---|
| DeepSeek-R1 | Raciocínio & Lógica | Mixture-of-Experts (MoE) | Resolução de consultas complexas e análise de dados |
| Janus-Pro | Compreensão Multimodal | Decoupled Visual Encoding | Busca por imagem/áudio e geração de conteúdo |
| DeepSeek-V3 | Tarefa Geral de Linguagem | Protocolo de Treinamento Eficiente | Camada base para processamento de texto multilíngue |
Em testes de benchmark, o Janus-Pro teria superado concorrentes como o DALL-E 3 em métricas específicas de geração e compreensão. Ao integrar essa capacidade em um motor de busca, a DeepSeek poderia permitir que usuários fizessem upload de uma foto de um eletrodoméstico quebrado e perguntassem: "Como eu conserto isso?" — com a IA identificando o modelo, recuperando o manual e resumindo as etapas de reparo em uma única interação fluida.
A inclusão de "agentes persistentes" nas descrições de vagas indica que a DeepSeek busca ultrapassar a geração atual de busca por IA. As ferramentas de busca por IA atuais frequentemente atuam como sumarizadoras — lendo os principais resultados e sintetizando uma resposta. A visão da DeepSeek parece envolver agentes que podem navegar na web, executar ações e manter contexto por longos períodos.
Um motor de busca agentivo (agentic) não apenas recupera links; ele completa tarefas. Por exemplo, em vez de pesquisar "preços de voos", um agente persistente poderia ser instruído a "monitorar voos para Tóquio no próximo mês e reservar se o preço cair abaixo de $800." Essa capacidade exige uma infraestrutura robusta para prevenir "alucinações" (hallucinations) e garantir execução confiável, um desafio que a DeepSeek está abordando ao contratar especialistas em frameworks de avaliação e confiabilidade de dados de treinamento.
Uma das vantagens mais formidáveis da DeepSeek é sua estrutura de custos. A empresa chocou a indústria ao revelar que seu modelo V3 foi treinado por aproximadamente $6 milhões, um contraste marcante com os estimados $100 milhões necessários para o GPT-4 da OpenAI.
Essa eficiência permite que a DeepSeek ofereça seus serviços a custos de API significativamente mais baixos, concorrendo agressivamente com os rivais. Se esse modelo de baixo custo for aplicado à busca, poderá forçar uma guerra de preços no mercado de APIs de IA, tornando capacidades avançadas de busca acessíveis a uma gama mais ampla de desenvolvedores e empresas.
A estratégia com foco em celular também explora uma possível fraqueza na armadura do Google. Embora o Google domine a busca na web, a transição para interação multimodal nativa de IA em dispositivos móveis ainda está em seus estágios iniciais. Ao otimizar para consultas por captura de tela e voz — comportamentos naturais para usuários móveis — a DeepSeek tenta capturar a próxima geração de comportamento de busca.
A entrada da DeepSeek na busca por IA não é meramente um experimento; é uma expansão calculada apoiada por contratações especializadas e arquiteturas de modelos comprovadas como o Janus-Pro. Ao combinar modelos de raciocínio de alta eficiência com compreensão multimodal avançada, a empresa está construindo uma plataforma que compete diretamente com os modelos de negócio centrais do Google e da OpenAI. À medida que essas tecnologias amadurecem, a definição de "busca" tende a evoluir de uma lista de links azuis para uma conversa dinâmica e multimodal com agentes inteligentes.