- Étape 1 : Cloner le référentiel GitHub de Dual Coding Agents.
- Étape 2 : Installer les dépendances Python avec pip install -r requirements.txt.
- Étape 3 : Configurer vos clés API pour les modèles de vision et de langage.
- Étape 4 : Personnaliser les modèles de prompts et choisir l'encodeur d'image et le modèle linguistique dans la configuration.
- Étape 5 : Exécuter le script de démo ou importer le framework dans votre code pour passer des entrées d'image et des prompts.
- Étape 6 : Examiner les réponses générées et ajuster les paramètres ou plugins pour votre application.