TurboQuant: Google verspricht effizientere KI durch starke Komprimierung

Google Research hat mit TurboQuant eine neue Komprimierungstechnik für KI-Modelle vorgestellt, die vor allem ein bekanntes Problem angehen soll: den hohen Speicherbedarf von Vektoren im sogenannten Key-Value-Cache. Gerade dort wird es bei großen Sprachmodellen schnell eng, wenn viele Informationen parallel…