Los LLMs proporcionan una abstracción unificada para diversos modelos de lenguaje de código abierto y alojados, permitiendo a los desarrolladores cargar y ejecutar modelos a través de una única interfaz. Soporta descubrimiento de modelos, gestión de solicitudes y pipelines, procesamiento en lotes y control granular sobre tokens, temperatura y streaming. Los usuarios pueden cambiar fácilmente entre backends de CPU y GPU, integrarse con hosts de modelos locales o remotos y almacenar en caché las respuestas para mejorar el rendimiento. El marco incluye utilidades para plantillas de solicitudes, análisis de respuestas y benchmarking de rendimiento de modelos. Al desacoplar la lógica de la aplicación de las implementaciones específicas de los modelos, LLMs acelera el desarrollo de aplicaciones NLP como chatbots, generación de texto, resúmenes, traducciones y más, sin estar atado a proveedores ni APIs propietarias.