Magenta RealTime: Google'dan canlı müzik üreten yapay zeka

Google’ın bir süredir geliştirdiği Magenta Projesi, gerçek zamanlı yapay zeka destekli açık kaynak müzik üretimi ile ileriye doğru bir adım daha atıyor. Google DeepMind destekli yeni Magenta RealTime modeli, kullanıcıların canlı olarak müzik üretip şekillendirebilmesine imkan tanıyor. Bu model daha önce yalnızca Lyria RealTime üzerinden erişilebilen teknolojileri açık ağırlıklarla ve geliştirici odaklı bir yaklaşımla erişime açıyor.

Magenta RT, yaklaşık 190 bin saatlik stok enstrümantal müzik üzerinde eğitilmiş, 800 milyon parametreli otoregresif bir transformer modeli. Model şu anda ücretsiz Colab TPU'larında çalışıyor ancak ilerleyen dönemde yerel cihazlarda kullanılabilecek şekilde optimize edilmesi hedefleniyor.

Canlı ve etkileşimli müzik üretimi

Magenta RT, müzik üretimini gerçek zamanlı hâle getirerek hem performans sırasında hem de yaratım sürecinde kullanıcıya tam kontrol sağlıyor. Model, önceki ses çıktıları ve bir stil vektörü üzerinden yeni ses blokları üretiyor. Bu yapı sayesinde kullanıcılar, farklı tarzları, enstrümanları ve müzikal nitelikleri canlı olarak karıştırıp yeniden şekillendirebiliyor. Blok bazlı otoregresyon yöntemiyle çalışan model, sesleri 2 saniyelik bölümler hâlinde ve gecikmesiz olarak üretiyor. Bu, bir performans esnasında yapay zekâ destekli doğaçlamaların mümkün olabileceği anlamına geliyor.

Magenta RT, Google'ın önceki ses modellerinden SoundStream’in yerini alan SpectroStream tabanlı 48kHz stereo ses üretimini destekliyor. Ayrıca müzikle metni birlikte anlayabilen yeni bir gömülü model olan MusicCoCa ile güçlendirilmiş. Bu altyapı sayesinde, hem metin hem de ses girdileriyle detaylı müzikal yönlendirme yapılabiliyor.

Magenta RT’nin en çarpıcı yönlerinden biri de canlı müzik üretimini interaktif keşif alanına dönüştürmesi. Kullanıcılar, iki farklı tarz arasında geçişler yapabiliyor, sıra dışı enstrüman kombinasyonlarını deneyebiliyor ya da kendi örneklerini kullanarak özgün ses dokuları oluşturabiliyor.

Açık kaynak yaklaşımı

Google’ın açıklamasına göre Magenta RT, yalnızca geliştiricilere değil, araştırmacılara, sanatçılara ve yaratıcı kod yazarlarına da hitap ediyor. Kodlar GitHub’da, model ağırlıkları ise Google Cloud Storage ve Hugging Face üzerinden, izinli açık lisanslarla erişime açılmış durumda.

Öte yandan Magenta RealTime hâlâ araştırma aşamasında olan bir model olduğundan bazı teknik ve içerik sınırlamaları bulunuyor. Model, ağırlıklı olarak Batı enstrümantal müziği üzerinde eğitildiği için vokal performansları ve daha geniş kültürel müzik gelenekleri konusunda sınırlı bir kapsama sahip. Bu nedenle daha çeşitli tarzları destekleyen gerçek zamanlı üretimler için Lyria RealTime API öneriliyor. Ayrıca model şarkı sözlerine dayalı bir eğitim almadığı için, kelime üreten vokal performanslar yerine sadece hırıltı, mırıldanma gibi sesler üretebiliyor.

Ayrıca bkz.

Windows 11’e gömülü yeni yapay zeka: Microsoft Mu tanıtıldı

Gecikme süresi açısından bakıldığında, model iki saniyelik ses blokları hâlinde çalıştığı için kullanıcıdan gelen stil komutlarının etkisinin duyulması birkaç saniye sürebiliyor. Son olarak, modelin ses işleme penceresi yalnızca on saniyelik bir geçmişi kapsayabiliyor. Bu, kısa melodiler, ritimler ve akor geçişleri üretmek için yeterli olsa da, uzun soluklu şarkı yapıları oluşturmak için yeterli değil.

(Güncellendi: 25.6.2025, 12:19)

Haberi DH'de Gör Yorumlar ve Diğer Detaylar