DALI ermöglicht die interaktive Abfrage und Analyse multimodaler Dokumente mit integrierten Vision- und Sprachmodellen zur Extraktion strukturierter Informationen.
DALI bietet ein modulares, erweiterbares SDK zum Aufbau von Document AI-Agenten, die Bilder, PDFs und gescannte Dateien verarbeiten können. Es integriert OCR-Engines und visuelle Sprachmodelle, um Layout-Elemente zu erkennen, Tabellen zu extrahieren und Benutzerfragen zu beantworten. Entwickler können Pipelines anpassen, verschiedene LLMs integrieren und interaktive Web- oder Kommandozeilenschnittstellen bereitstellen. Mit integrierter Unterstützung für Caching, Batch-Verarbeitung und Multi-Model-Orchestrierung beschleunigt DALI Document-Understanding-Aufgaben mit minimalem Codeaufwand.
Ein Open-Source-Retrieval-gestütztes Feinabstimmungs-Framework, das die Leistung von Text-, Bild- und Videomodellen mit skalierbarer Abfrage verbessert.
Trinity-RFT (Retrieval Fine-Tuning) ist ein einheitliches Open-Source-Framework, das darauf ausgelegt ist, die Genauigkeit und Effizienz von Modellen durch die Kombination von Retrieval- und Feinabstimmungs-Workflows zu verbessern. Benutzer können einen Korpus vorbereiten, einen Retrieval-Index erstellen und den abgerufenen Kontext direkt in Trainingsschleifen einspeisen. Es unterstützt multimodale Retrievals für Text, Bilder und Video, integriert sich mit beliebten Vektor-Speichern und bietet Bewertungsmetriken sowie Deployment-Skripte für schnelle Prototypenentwicklung und Produktionsbereitstellung.