- Inferência local de LLM com backend WebGPU
- Suporte a WebAssembly para compatibilidade ampla de dispositivos
- Streaming de respostas em tempo real
- Troca de modelos (LLaMA, Vicuna, Alpaca, etc.)
- Interface de usuário baseada em React personalizável
- Gerenciamento de histórico de conversas e prompts do sistema
- Arquitetura extensível de plugins para comportamentos personalizados
- Operação off-line sem dependência de servidor