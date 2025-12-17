Modelin merkezinde yer alan Perception Encoder Audiovisual (PE-AV), SAM Audio’nun gelişmiş performansını sağlayan teknik motor olarak öne çıkıyor. Daha önce açık kaynak olarak paylaşılan modelin geliştirilmiş versiyonu olan PE-AV, görsel ve işitsel verileri zaman ekseninde hizalayarak yüksek doğrulukta çok modlu ses ayrıştırmayı mümkün kılıyor. Bu sayede ekrandaki konuşmacılar veya enstrümanlar gibi görsel olarak belirgin kaynaklar kolayca izole edilebiliyor, hatta sahne bağlamına göre ekran dışındaki olaylar da tahmin edilebiliyor.
Detaylarda neler var?
Modelin mimarisi, akış eşleştirme difüzyon dönüştürücüsü üzerine inşa edilmiş bir üretken modelleme çerçevesi üzerine kurulmuş bir üretici çerçeve kullanıyor. Bu yapı, ses karışımını ve girdileri ortak bir temsil alanına kodlayarak hedef ve kalan ses parçalarını oluşturuyor. Eğitim verisi, konuşma, müzik ve genel ses olaylarını kapsayan hem gerçek hem de sentetik karışımlardan oluşuyor. Gelişmiş veri sentezi ve otomatik çok modlu ipucu üretimi ile modelin gerçek dünyada yüksek performans göstermesi sağlanıyor.
Ancak SAM Audio’nun yetenekleri beraberinde bazı güvenlik kaygılarını da getiriyor. Model, kullanıcı taleplerine göre belirli sesleri izole edebildiği için, potansiyel olarak halka açık kayıtlardaki konuşmaları ayırmak ve dinlemek gibi kötüye kullanım senaryoları gündeme gelebiliyor.