Crawlr é um agente de IA de código aberto baseado em CLI, desenvolvido para agilizar o processo de ingestão de informações baseadas na web em bancos de dados de conhecimento estruturados. Utilizando modelos GPT-3.5/4 da OpenAI, ele navega por URLs especificados, limpa e segmenta HTML bruto em segmentos de texto significativos, gera resumos concisos e cria incorporação vetorial para busca semântica eficiente. A ferramenta suporta configuração da profundidade de rastreamento, filtros de domínio e tamanhos de segmentos, permitindo aos usuários adaptar pipelines de ingestão às necessidades do projeto. Automatizando a descoberta de links e o processamento de conteúdo, Crawlr reduz esforços manuais, acelera a criação de sistemas FAQ, chatbots e arquivos de pesquisa, além de se integrar perfeitamente a bancos de dados vetoriais como Pinecone, Weaviate ou instalações locais de SQLite. Seu design modular permite fácil extensão com analisadores personalizados e provedores de incorporação.
Recursos Principais do Crawlr
Descoberta automática e navegação de links
Limpeza de conteúdo HTML e segmentação
Sumarização de texto baseada em GPT
Geração de incorporação vetorial
Configuração de profundidade de rastreamento e filtros
O Website2GPT permite que os usuários transformem todo o conteúdo do site em arquivos de texto limpos e estruturados. Esta ferramenta é projetada para lidar com conteúdo renderizado em JavaScript e fornece extração de conteúdo inteligente com limitação de taxa embutida. Os usuários podem escolher entre arquivos individuais ou um único formato mesclado, tornando a saída pronta para treinamento GPT ou criação de bases de conhecimento. O processo simplificado garante que os dados extraídos sejam limpos e formatados para fácil integração em vários aplicativos e modelos.