Google’dan AI verimliliğini artıran yeni sıkıştırma yöntemi: TurboQuant

Google, yapay zekâ sistemlerinde verimliliği artırmayı hedefleyen yeni sıkıştırma yöntemi TurboQuant’ı duyurdu. ICLR 2026 kapsamında tanıtılması planlanan bu yaklaşım, büyük dil modelleri ve vektör arama motorlarında kullanılan verileri çok daha düşük bellekle işleyebilmeyi amaçlıyor.

Yeni yöntem, yapay zekâ modellerinin temel yapı taşlarından olan yüksek boyutlu vektörleri daha küçük boyutlara indirerek bellek kullanımını azaltıyor. Böylece hem arama süreçleri hızlanıyor hem de modellerin sık kullandığı verileri depoladığı “key-value cache” üzerindeki darboğazlar hafifletiliyor.

TurboQuant, bu hedefe ulaşmak için iki temel teknikten yararlanıyor: PolarQuant ve QJL (Quantized Johnson-Lindenstrauss). PolarQuant veriyi daha verimli bir biçimde sıkıştırırken, QJL ise sıkıştırma sonrası oluşabilecek hataları minimuma indirerek doğruluğu koruyor. AISTATS 2026’ta sunulacak bu yöntemler birlikte çalışarak yüksek sıkıştırma oranını performans kaybı olmadan sağlıyor.

Google’ın paylaştığı test sonuçlarına göre TurboQuant, model doğruluğunu koruyarak bellek kullanımını önemli ölçüde azaltabiliyor. Özellikle uzun bağlamlı görevlerde, veri boyutunu en az 6 kat küçültürken aynı doğruluk seviyesini sürdürebiliyor. Ayrıca bazı senaryolarda işlem hızında ciddi artış sağladığı ve dikkat hesaplamalarında önemli performans kazanımları sunduğu belirtiliyor.

Yeni yaklaşımın, başta vektör arama olmak üzere büyük ölçekli yapay zekâ uygulamalarında önemli bir rol oynaması bekleniyor. Google’a göre bu tür sıkıştırma teknikleri, hem daha hızlı hem de daha verimli çalışan AI sistemlerinin geliştirilmesinde kritik bir adım niteliği taşıyor.