Google 發佈 TurboQuant 演算法套件,實現 AI 記憶體 6 倍壓縮與 8 倍速度提升
Google Research 已公開發布 TurboQuant,一套免訓練的 AI 記憶體壓縮演算法套件,可將 KV 快取記憶體使用量減少 6 倍,並將注意力運算加速 8 倍,可能使企業 AI 推論成本降低超過 50%。
Google Research 已公開發布 TurboQuant,一套免訓練的 AI 記憶體壓縮演算法套件,可將 KV 快取記憶體使用量減少 6 倍,並將注意力運算加速 8 倍,可能使企業 AI 推論成本降低超過 50%。