Google beschleunigt Gemma 4: Dreifache KI-Performance dank spekulativer Dekodierung

Google hat für seine Gemma 4 Modellfamilie neue Multi-Token-Vorhersage-Drafter (MTP-Drafter) veröffentlicht, um die Verarbeitungsgeschwindigkeit deutlich zu erhöhen. Diese Technologie nutzt sogenannte spekulative Dekodierung, bei der ein kleineres Hilfsmodell potenzielle Textsequenzen voraussagt, während das Hauptmodell diese lediglich parallel verifiziert. Dadurch soll…