Crawlr ist eine quelloffene CLI-KI-Agent, die den Prozess des Einpassens webbasierter Informationen in strukturierte Wissensbasen optimieren soll. Mit OpenAI's GPT-3.5/4-Modellen durchquert es angegebene URLs, bereinigt und teilt rohes HTML in sinnvolle Textabschnitte, erstellt kurze Zusammenfassungen und erzeugt Vektor-Embeddings für effiziente semantische Suche. Das Tool unterstützt die Konfiguration von Crawltiefe, Domänenfiltern und Chunk-Größen, um die Ingestionspipelines an Projektanforderungen anzupassen. Automatisiertes Link-Discovery und Inhaltsverarbeitung verringern manuellen Aufwand, beschleunigen die Erstellung von FAQs, Chatbots und Forschungsarchiven und integrieren nahtlos mit Vektordatenbanken wie Pinecone, Weaviate oder lokalen SQLite-Setups. Das modulare Design ermöglicht eine einfache Erweiterung für benutzerdefinierte Parser und Embedding-Anbieter.