Crawlr는 오픈소스 CLI AI 에이전트로, 웹 기반 정보를 구조화된 지식 베이스로 효율적 수집하는 과정을 간소화합니다. OpenAI의 GPT-3.5/4 모델을 사용해 지정 URL을 크롤링하고, 원시 HTML을 의미 있는 텍스트 섹션으로 정리·분할하며, 간결한 요약을 생성하고, 의미론적 검색에 적합한 벡터 임베딩을 만듭니다. 크롤링 깊이, 도메인 필터, 블록 크기 등을 조정할 수 있어 사용자 프로젝트에 맞게 수집 파이프라인을 맞춤화할 수 있습니다. 링크 발견 및 콘텐츠 처리를 자동화하여 수작업 데이터 수집을 줄이고 FAQ, 챗봇, 연구 아카이브 구축을 가속화하며, Pinecone, Weaviate, 또는 로컬 SQLite와 원활히 연동됩니다. 모듈식 설계로 맞춤형 파서와 임베딩 제공자를 쉽게 확장할 수 있습니다.