IMMA est un agent IA amélioré par mémoire qui permet la récupération de contexte multimodal à long terme pour une assistance conversationnelle personnalisée.
IMMA (Interactive Multi-Modal Memory Agent) est un cadre modulaire conçu pour améliorer l’IA conversationnelle avec une mémoire persistante. Il encode le texte, les images et d’autres données des interactions passées dans un stockage mémoire efficace, effectue une récupération sémantique pour fournir un contexte pertinent lors de nouveaux dialogues, et applique des techniques de résumé et de filtrage pour maintenir la cohérence. Les API de IMMA permettent aux développeurs de définir des politiques d’insertion et de récupération de mémoire personnalisées, d’intégrer des embeddings multimodaux et de peaufiner l’agent pour des tâches spécifiques au domaine. En gérant le contexte utilisateur à long terme, IMMA supporte des cas d’usage nécessitant continuité, personnalisation et raisonnement multi-tours sur des sessions prolongées.
Fonctionnalités principales de IMMA
Codage mémoire multimodal à long terme
Récupération sémantique de mémoire
Résumé et filtrage de mémoire
Dialogues multi-tours sensibles au contexte
Politiques de mémoire et stockage personnalisables
Avantages et inconvénients de IMMA
Inconvénients
Avantages
Modélise simultanément plusieurs types d'interactions indépendantes via des graphes latents multiplex.
Utilise des mécanismes d'attention pour pondérer la force des relations, améliorant l'expressivité du modèle.
L'entraînement progressif par couches améliore l'apprentissage des interactions en couches et la précision des prévisions.
Meilleure prédiction de trajectoire à long terme par rapport aux méthodes précédentes.
Interprétabilité améliorée des interactions sociales multi-agents.
Un plugin de mémoire open-source pour ChatGPT qui stocke et récupère le contexte de chat via des embeddings vectoriels pour une mémoire conversationnelle persistante.
ThinkThread permet aux développeurs d'ajouter une mémoire persistante aux applications alimentées par ChatGPT. Il encode chaque échange à l'aide de Sentence Transformers et stocke les embeddings dans des magasins de vecteurs populaires. Lors de chaque nouvelle entrée utilisateur, ThinkThread effectue une recherche sémantique pour récupérer les messages passés les plus pertinents et les injecte comme contexte dans le prompt. Ce processus assure la continuité, réduit l'effort d'ingénierie des prompts, et permet aux bots de se souvenir de détails à long terme tels que les préférences utilisateur, l'historique des transactions ou les informations spécifiques au projet.