Google、TurboQuantアルゴリズムスイートを公開、AIメモリを6倍圧縮し速度を8倍向上
Google Researchは、トレーニング不要のAIメモリ圧縮アルゴリズムスイート「TurboQuant」を公開しました。KVキャッシュのメモリ使用量を6倍削減し、アテンション計算を8倍高速化することで、企業のAI推論コストを50%以上削減する可能性があります。
Google Researchは、トレーニング不要のAIメモリ圧縮アルゴリズムスイート「TurboQuant」を公開しました。KVキャッシュのメモリ使用量を6倍削減し、アテンション計算を8倍高速化することで、企業のAI推論コストを50%以上削減する可能性があります。