Web LLM Assistant — это лёгкий фреймворк с открытым исходным кодом, который превращает ваш браузер в платформу для инференса ИИ. Он использует бэкенды WebGPU и WebAssembly для прямого запуска LLM на клиентских устройствах без серверов, обеспечивая конфиденциальность и возможность работы в офлайн-режиме. Пользователи могут импортировать и переключаться между моделями, такими как LLaMA, Vicuna, Alpaca, общаться с ассистентом и видеть потоковые ответы. Модульный UI на базе React поддерживает темы, историю диалогов, системные prompts и расширения в виде плагинов для пользовательского поведения. Разработчики могут настраивать интерфейс, интегрировать внешние API и тонко настраивать prompts. Для развертывания достаточно разместить статические файлы, сервер не требуется. Web LLM Assistant делает возможным высокопроизводительную локальную инференс в любом современном браузере.