Magenta RT, yaklaşık 190 bin saatlik stok enstrümantal müzik üzerinde eğitilmiş, 800 milyon parametreli otoregresif bir transformer modeli. Model şu anda ücretsiz Colab TPU'larında çalışıyor ancak ilerleyen dönemde yerel cihazlarda kullanılabilecek şekilde optimize edilmesi hedefleniyor.
Canlı ve etkileşimli müzik üretimi
Magenta RT, müzik üretimini gerçek zamanlı hâle getirerek hem performans sırasında hem de yaratım sürecinde kullanıcıya tam kontrol sağlıyor. Model, önceki ses çıktıları ve bir stil vektörü üzerinden yeni ses blokları üretiyor. Bu yapı sayesinde kullanıcılar, farklı tarzları, enstrümanları ve müzikal nitelikleri canlı olarak karıştırıp yeniden şekillendirebiliyor. Blok bazlı otoregresyon yöntemiyle çalışan model, sesleri 2 saniyelik bölümler hâlinde ve gecikmesiz olarak üretiyor. Bu, bir performans esnasında yapay zekâ destekli doğaçlamaların mümkün olabileceği anlamına geliyor.
Magenta RT’nin en çarpıcı yönlerinden biri de canlı müzik üretimini interaktif keşif alanına dönüştürmesi. Kullanıcılar, iki farklı tarz arasında geçişler yapabiliyor, sıra dışı enstrüman kombinasyonlarını deneyebiliyor ya da kendi örneklerini kullanarak özgün ses dokuları oluşturabiliyor.
Açık kaynak yaklaşımı
Google’ın açıklamasına göre Magenta RT, yalnızca geliştiricilere değil, araştırmacılara, sanatçılara ve yaratıcı kod yazarlarına da hitap ediyor. Kodlar GitHub’da, model ağırlıkları ise Google Cloud Storage ve Hugging Face üzerinden, izinli açık lisanslarla erişime açılmış durumda.
Öte yandan Magenta RealTime hâlâ araştırma aşamasında olan bir model olduğundan bazı teknik ve içerik sınırlamaları bulunuyor. Model, ağırlıklı olarak Batı enstrümantal müziği üzerinde eğitildiği için vokal performansları ve daha geniş kültürel müzik gelenekleri konusunda sınırlı bir kapsama sahip. Bu nedenle daha çeşitli tarzları destekleyen gerçek zamanlı üretimler için Lyria RealTime API öneriliyor. Ayrıca model şarkı sözlerine dayalı bir eğitim almadığı için, kelime üreten vokal performanslar yerine sadece hırıltı, mırıldanma gibi sesler üretebiliyor.
Gecikme süresi açısından bakıldığında, model iki saniyelik ses blokları hâlinde çalıştığı için kullanıcıdan gelen stil komutlarının etkisinin duyulması birkaç saniye sürebiliyor. Son olarak, modelin ses işleme penceresi yalnızca on saniyelik bir geçmişi kapsayabiliyor. Bu, kısa melodiler, ritimler ve akor geçişleri üretmek için yeterli olsa da, uzun soluklu şarkı yapıları oluşturmak için yeterli değil.
(Güncellendi: )
Haberi DH'de Gör
{{body}}
{{/longBody}} {{^longBody}}{{body}}
{{/longBody}}