Crawlr é um agente de IA de código aberto baseado em CLI, desenvolvido para agilizar o processo de ingestão de informações baseadas na web em bancos de dados de conhecimento estruturados. Utilizando modelos GPT-3.5/4 da OpenAI, ele navega por URLs especificados, limpa e segmenta HTML bruto em segmentos de texto significativos, gera resumos concisos e cria incorporação vetorial para busca semântica eficiente. A ferramenta suporta configuração da profundidade de rastreamento, filtros de domínio e tamanhos de segmentos, permitindo aos usuários adaptar pipelines de ingestão às necessidades do projeto. Automatizando a descoberta de links e o processamento de conteúdo, Crawlr reduz esforços manuais, acelera a criação de sistemas FAQ, chatbots e arquivos de pesquisa, além de se integrar perfeitamente a bancos de dados vetoriais como Pinecone, Weaviate ou instalações locais de SQLite. Seu design modular permite fácil extensão com analisadores personalizados e provedores de incorporação.
Recursos Principais do Crawlr
Descoberta automática e navegação de links
Limpeza de conteúdo HTML e segmentação
Sumarização de texto baseada em GPT
Geração de incorporação vetorial
Configuração de profundidade de rastreamento e filtros
O DocGPT foi projetado para simplificar a extração de informações e perguntas e respostas a partir de documentos, fornecendo uma interface de conversação fluida. Os usuários podem fazer o upload de documentos em formatos PDF, Word ou PowerPoint, que são processados usando analisadores de texto. O conteúdo é dividido em pedaços e embutido usando os modelos de embeddings da OpenAI, armazenados em um banco de dados vetorial como FAISS ou Pinecone. Quando um usuário envia uma consulta, o DocGPT recupera os trechos de texto mais relevantes via pesquisa de similaridade e usa o ChatGPT para gerar respostas precisas com base no contexto. Conta com chat interativo, sumarização de documentos, prompts personalizáveis para necessidades específicas de domínio, e é construído em Python com uma interface Streamlit para fácil implantação e extensibilidade.