
Uzun içerikler artık sorun değil
Modern yapay zeka sistemleri büyürken karşılaştıkları en büyük zorluklardan biri daha fazla veriyi aynı anda işleyebilmek. Özellikle hukuk odaklı asistanlar gibi tüm yasa arşivini taraması gereken veya sohbet geçmişini aylar boyunca hatırlaması gereken uygulamalarda bu durum bir darboğaza dönüşüyordu.
Her yeni kelime üretildiğinde modelin geçmişteki her kelimeyi taraması gerekiyor. Bu işlem sırasında kullanılan KV önbelleği (Key-Value cache) GPU belleğini ciddi şekilde yoruyor. Aynı anda modelin her kelime için büyük boyutlu FFN ağırlıklarını (Feed-Forward Network) belleğe tekrar tekrar çağırması da süreci daha da yavaşlatıyor.

Sonrasında, aynı GPU'lar klasik Tensor Parallelism (TP) moduna geçerek FFN işlemini yürütüyor. Bu sayede kaynaklar verimli kullanılıyor ve GPU'lar boşta beklemiyor. Veri iletimi ise Nvidia’nın yüksek hızlı bağlantı sistemleri olan NVLink ve NVL72 ile sağlanıyor. Ayrıca HOP-B adı verilen yeni bir yöntemle iletişim ve hesaplama işlemleri üst üste bindirilerek gecikmeler azaltılıyor.
Performansta dev sıçrama
Yapılan simülasyonlara göre, DeepSeek-R1 671B adlı dev modelle yapılan testlerde Helix, önceki yöntemlere göre 32 kat daha fazla kullanıcıya aynı gecikmeyle hizmet verebiliyor. Düşük yoğunluklu kullanım senaryolarında ise tepki süresini 1.5 kata kadar kısaltıyor.
Helix ayrıca milyonlarca kelimelik içeriklerde bile belleği dengede tutarak yüksek verimlilik sağlıyor. KV önbelleği, GPU’lara dönüşümlü olarak dağıtılıyor ve bu da ani bellek yüklenmelerinin önüne geçiyor.
Bu haberi ve diğer DH içeriklerini, gelişmiş mobil uygulamamızı kullanarak görüntüleyin:


normal.. dünyanın yüzde 95 i google arama motoru kullaniyor bana göre