Google lança suíte de algoritmos TurboQuant, alcançando compressão de memória de IA de 6x e ganho de velocidade de 8x
O Google Research tornou público o TurboQuant, uma suíte de algoritmos de compressão de memória para IA que não requer treinamento, que proporciona uma redução de 6x no uso de memória do cache KV e um aumento de 8x na velocidade do cálculo de atenção, podendo reduzir os custos de inferência de IA nas empresas em mais de 50%.


