Crawlr — это открытая CLI-агент на базе ИИ, предназначенный для упрощения процесса загрузки информации из Интернета в структурированные базы знаний. Используя модели GPT-3.5/4 OpenAI, он переходит по заданным URL, очищает и сегментирует необработанный HTML в осмысленные текстовые сегменты, генерирует краткие сводки и создает векторные внедрения для эффективного семантического поиска. Инструмент поддерживает настройку глубины обхода, фильтров по доменам и размеров сегментов, что позволяет адаптировать процессы загрузки под требования проекта. Автоматизация поиска ссылок и обработки контента снижает ручные усилия, ускоряет создание FAQ-систем, чат-ботов и исследовательских архивов, а также без проблем интегрируется с векторными базами данных, такими как Pinecone, Weaviate или локальные SQLite. Модульная архитектура позволяет легко расширять его с помощью собственных парсеров и поставщиков внедрений.
AI_RAG предоставляет модульное решение для генерации с дополнением поиска, сочетающее индексирование документов, векторный поиск, генерацию встраиваний и создание ответов с помощью LLM. Пользователи готовят корпуса текстовых документов, подключают векторное хранилище вроде FAISS или Pinecone, настраивают эндпоинты для встраиваний и LLM, запускают процесс индексирования. При получении запроса AI_RAG извлекает наиболее релевантные участки, передает их вместе с подсказкой выбранной модели и возвращает контекстно обоснованный ответ. Его расширяемый дизайн позволяет создавать собственные коннекторы, поддержку нескольких моделей и тонкую настройку параметров поиска и генерации, что идеально подходит для баз знаний и продвинутых чат-агентов.