Her şey tek modelde
Geleneksel sesli asistanlar konuşmayı metne çeviren ASR, yanıtı üreten dil modeli ve sesi tekrar üreten TTS bileşenlerinden oluşan çok aşamalı bir yapı kullanıyor. Bu yaklaşım her aşamada gecikmeye yol açarken aynı anda konuşma, söz kesme veya doğal geri bildirimler gibi insan konuşmasının temel özelliklerini desteklemekte yetersiz kalıyor.
PersonaPlex, bu çok katmanlı zinciri ortadan kaldırarak tek bir Transformer modeli içinde hem konuşmayı anlamayı hem de konuşma üretimini eş zamanlı olarak gerçekleştiriyor. Model, sinirsel bir codec ile kodlanmış sürekli ses akışı üzerinde çalışıyor ve metin ile ses token’larını aynı anda otoregresif biçimde üretiyor. Kullanıcının sesi anlık olarak işlenirken model, kendi konuşmasını da eş zamanlı sürdürebiliyor. Bu sayede söz kesme, üst üste konuşma ve bağlama uygun geri bildirimler mümkün hale geliyor.
PersonaPlex, biri kullanıcı sesini, diğeri ise ajan konuşmasını ve metni izleyen iki paralel akıştan oluşan bir yapı kullanıyor. Her iki akış aynı model durumunu paylaştığı için sistem, konuşurken dinlemeye devam edebiliyor ve kullanıcı araya girdiğinde yanıtını anında uyarlayabiliyor.
7 milyar parametreden oluşuyor
Bununla birlikte PersonaPlex’in eğitimi tek aşamada gerçekleştirildi ve gerçek konuşmalar ile sentetik diyalogların dengeli bir karışımına dayanıyor. Gerçek veriler, Fisher English Corpus’tan alınan 7.303 telefon görüşmesi, yani yaklaşık 1.217 saatlik konuşmadan oluşuyor. Bu konuşmalar GPT-OSS-120B kullanılarak persona ve bağlam yönlendirmeleriyle geriye dönük biçimde etiketlendi. Bu veri seti, doğal duraksamalar, dolgu sesleri, duygusal tepkiler ve geri bildirimler gibi TTS ile üretmesi zor olan unsurları modele kazandırıyor. Sentetik tarafta ise 39.322 asistan diyaloğu (yaklaşık 410 saat) ve 105.410 müşteri hizmetleri diyaloğu (yaklaşık 1.840 saat) yer alıyor. Metinler Qwen3-32B ve GPT-OSS-120B tarafından üretildi, seslendirme ise Chatterbox TTS ile yapıldı. PersonaPlex-7B-v1, MIT lisansı altında kod, Nvidia Open Model License kapsamında ise model ağırlıklarıyla yayımlanmış durumda. Kaynakça kısmından ulaşabilirsiniz.
Kaynakça https://research.nvidia.com/labs/adlr/personaplex/ https://github.com/NVIDIA/personaplex https://huggingface.co/nvidia/personaplex-7b-v1 Bu haberi ve diğer DH içeriklerini, gelişmiş mobil uygulamamızı kullanarak görüntüleyin: