Crawlr é um agente de IA de código aberto baseado em CLI, desenvolvido para agilizar o processo de ingestão de informações baseadas na web em bancos de dados de conhecimento estruturados. Utilizando modelos GPT-3.5/4 da OpenAI, ele navega por URLs especificados, limpa e segmenta HTML bruto em segmentos de texto significativos, gera resumos concisos e cria incorporação vetorial para busca semântica eficiente. A ferramenta suporta configuração da profundidade de rastreamento, filtros de domínio e tamanhos de segmentos, permitindo aos usuários adaptar pipelines de ingestão às necessidades do projeto. Automatizando a descoberta de links e o processamento de conteúdo, Crawlr reduz esforços manuais, acelera a criação de sistemas FAQ, chatbots e arquivos de pesquisa, além de se integrar perfeitamente a bancos de dados vetoriais como Pinecone, Weaviate ou instalações locais de SQLite. Seu design modular permite fácil extensão com analisadores personalizados e provedores de incorporação.