Web LLM Assistant est un cadre open-source léger qui transforme votre navigateur en une plateforme d'inférence IA. Il utilise des backends WebGPU et WebAssembly pour exécuter directement des LLM sur les appareils clients sans serveur, garantissant confidentialité et capacité hors ligne. Les utilisateurs peuvent importer et changer de modèles tels que LLaMA, Vicuna et Alpaca, converser avec l'assistant et voir des réponses en streaming. L'interface modulaire basée sur React supporte les thèmes, l'historique des conversations, les invites système et des extensions de type plugin pour des comportements personnalisés. Les développeurs peuvent personnaliser l'interface, intégrer des API externes et ajuster finement les invites. Le déploiement ne nécessite que l'hébergement de fichiers statiques; aucun serveur backend n'est requis. Web LLM Assistant démocratise l'IA en permettant une inference locale haute performance dans tout navigateur moderne.