Google lanza TurboQuant, suite de algoritmos que logra compresión de memoria IA 6x y aumentos de velocidad 8x
Google Research ha publicado públicamente TurboQuant, una suite de algoritmos de compresión de memoria para IA que no requiere entrenamiento, que ofrece una reducción de 6x en el uso de memoria del caché KV y una aceleración de 8x en el cálculo de atención, lo que podría reducir los costos de inferencia de IA en las empresas en más del 50%.


