Google publie la suite d'algorithmes TurboQuant, obtenant une compression mémoire IA de 6x et des gains de vitesse de 8x
Google Research a publié publiquement TurboQuant, une suite d'algorithmes de compression de mémoire pour l'IA sans entraînement qui permet une réduction de 6x de l'utilisation de la mémoire du cache KV et une accélération de 8x du calcul d'attention, pouvant potentiellement réduire les coûts d'inférence IA en entreprise de plus de 50 %.


