Query-Bot integriert Dokumentenaufnahme, Text-Chunking und Vektor-Embeddings, um einen durchsuchbaren Index aus PDFs, Textdateien und Word-Dokumenten aufzubauen. Mit LangChain und OpenAI GPT-3.5 Turbo verarbeitet es Benutzeranfragen, indem relevante Dokumentpassagen abgerufen und kurze Antworten generiert werden. Die auf Streamlit basierende Benutzeroberfläche erlaubt das Hochladen von Dateien, die Verfolgung des Gesprächsverlaufs und das Anpassen von Einstellungen. Es kann lokal oder in Cloud-Umgebungen bereitgestellt werden und bietet einen erweiterbaren Rahmen für benutzerdefinierte Agenten und Wissensdatenbanken.
Chat-With-CUHKSZ bietet eine optimierte Pipeline zum Aufbau eines domänenspezifischen Chatbots auf Basis der CUHKSZ-Wissensdatenbank. Nach Klonen des Repositories konfigurieren Nutzer ihre OpenAI-API-Anmeldedaten und geben Dokumentquellen wie Campus-PDFs, Webseiten und Forschungsarbeiten an. Das Tool nutzt LlamaIndex, um Dokumente vorzuverarbeiten und zu indexieren, wodurch ein effizienter Vektor-Speicher entsteht. LangChain orchestriert die Retrieval- und Prompt-Mechanismen und liefert relevante Antworten in einer Konversationsschnittstelle. Die Architektur unterstützt das Hinzufügen benutzerdefinierter Dokumente, die Feinabstimmung der Prompt-Strategien und die Bereitstellung via Streamlit oder einem Python-Server. Optional sind semantische Suchverbesserungen integriert, die Protokollierung von Anfragen für Auditing ist möglich, und es kann mit minimaler Konfiguration auf andere Universitäten erweitert werden.