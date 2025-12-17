Teknoloji ve bilim dünyasını seven ve takip etmekten büyük zevk alan Metin, öğrendiklerini ise DonanımHaber okuyucuları ile paylaşır.

Tam Boyutta Gör Meta, ses işleme alanında çığır açacak yeni bir model olan SAM Audio’yu tanıttı. Görsel dünyada Segment Anything Model (SAM) ile öne çıkan Meta, şimdi benzer bir yaklaşımı ses dünyasına taşıyor. SAM Audio, karmaşık ses karışımlarından herhangi bir sesi izole etmeyi çok modlu girdilerle mümkün kılıyor. Bu yöntem, insanların sesi algılama biçimini taklit ederek ses ayrıştırmayı hem daha erişilebilir hem de kullanışlı hale getiriyor.

Ses düzenlemede yeni dönem

Tam Boyutta Gör Geleneksel ses düzenleme araçlarının aksine SAM Audio, kullanıcıların metin komutları, görsel ipuçları veya zaman dilimi belirleme gibi doğal yöntemlerle etkileşime girmesine olanak tanıyor. Bu teknoloji sayesinde, örneğin bir konser videosunda sadece gitara tıklayarak gitarın sesini izole etmek veya bir podcast kaydındaki köpek havlamalarını basit bir metin komutuyla temizlemek mümkün hale geliyor. Meta, SAM Audio’nun türünün ilk örneği birleşik ve çok modlu yapay zeka modeli olduğunu söylüyor.

Modelin merkezinde yer alan Perception Encoder Audiovisual (PE-AV), SAM Audio’nun gelişmiş performansını sağlayan teknik motor olarak öne çıkıyor. Daha önce açık kaynak olarak paylaşılan modelin geliştirilmiş versiyonu olan PE-AV, görsel ve işitsel verileri zaman ekseninde hizalayarak yüksek doğrulukta çok modlu ses ayrıştırmayı mümkün kılıyor. Bu sayede ekrandaki konuşmacılar veya enstrümanlar gibi görsel olarak belirgin kaynaklar kolayca izole edilebiliyor, hatta sahne bağlamına göre ekran dışındaki olaylar da tahmin edilebiliyor.

Detaylarda neler var?

Tam Boyutta Gör SAM Audio metin tabanlı, görsel tabanlı ve zaman dilimi tabanlı olmak üzere üç farklı yöntemle ses segmentasyonu sunuyor. Örneğin, kullanıcı “köpek havlaması” veya “vokal” gibi metinler girerek belirli sesleri ayırabiliyor. Görsel ipuçlarıyla, videodaki konuşan kişiler veya ses çıkaran nesnelere tıklayarak sesi izole etmek mümkün. Zaman dilimi tabanlı yöntem ise, bir podcast kaydında köpek havlaması gibi istenmeyen sesleri tüm kayıtta filtrelemeyi sağlıyor.





Modelin mimarisi, akış eşleştirme difüzyon dönüştürücüsü üzerine inşa edilmiş bir üretken modelleme çerçevesi üzerine kurulmuş bir üretici çerçeve kullanıyor. Bu yapı, ses karışımını ve girdileri ortak bir temsil alanına kodlayarak hedef ve kalan ses parçalarını oluşturuyor. Eğitim verisi, konuşma, müzik ve genel ses olaylarını kapsayan hem gerçek hem de sentetik karışımlardan oluşuyor. Gelişmiş veri sentezi ve otomatik çok modlu ipucu üretimi ile modelin gerçek dünyada yüksek performans göstermesi sağlanıyor.

Tam Boyutta Gör Performans açısından SAM Audio, evrensel ses ayrıştırmada mevcut modelleri geride bırakırken alanına özgü en iyi modellerle karşılaştırıldığında da üstünlük sağlıyor. Karma modlu girdiler kullanıldığında ise daha güçlü sonuçlar elde edilebiliyor. Model, 500 milyon ile 3 milyar parametre arasında ölçeklenebiliyor ve gerçek zamanın altında bir hızla çalışabiliyor (RTF ≈ 0.7). Ancak, sesin kendisi prompt olarak kullanılamıyor ve tamamen promptsuz ayrıştırma mümkün değil. Ayrıca, çok benzer sesleri izole etmek halen zorluk teşkil ediyor.

Ancak SAM Audio’nun yetenekleri beraberinde bazı güvenlik kaygılarını da getiriyor. Model, kullanıcı taleplerine göre belirli sesleri izole edebildiği için, potansiyel olarak halka açık kayıtlardaki konuşmaları ayırmak ve dinlemek gibi kötüye kullanım senaryoları gündeme gelebiliyor.

Modeli buradan deneyebilir veya buradan indirebilirsiniz.

