Google выпускает набор алгоритмов TurboQuant, обеспечивающий 6× сжатие памяти ИИ и 8× прирост скорости
Google Research публично выпустил TurboQuant — набор алгоритмов сжатия памяти для ИИ, не требующий обучения, который позволяет сократить использование памяти KV-кэша в 6 раз и ускорить вычисления механизма внимания в 8 раз, что потенциально может снизить затраты предприятий на инференс ИИ более чем на 50 %.


