Teknoloji ve bilim dünyasını seven ve takip etmekten büyük zevk alan Metin, öğrendiklerini ise DonanımHaber okuyucuları ile paylaşır.

Tam Boyutta Gör Tencent, yapay zeka alanında dikkat çekici bir adım atarak tek bir fotoğrafı üç boyutlu bir sahneye dönüştürebilen yeni modeli HunyuanWorld-Voyager’ı tanıttı. Model, geleneksel modelleme tekniklerine ihtiyaç duymadan doğrudan 3D yeniden yapılandırma sağlamak için RGB video ve derinlik bilgilerini aynı anda oluşturuyor. Ancak, video oyunlarının yerini yakın zamanda almayacak.

Örnekler etkileyici

Voyager, bir fotoğrafı kullanıcı tarafından tanımlanan kamera hareketleriyle birleştirerek çalışıyor. Kaydırma, eğim veya sahneye doğru ilerleme gibi yönlendirmelerle model, hem renkli videoyu hem de eş zamanlı derinlik haritalarını üretiyor. Bu derinlik bilgisi, sahnedeki nesnelerin konumlarının tutarlı kalmasını sağlıyor. Sistem, her yeni kareyi üç boyutlu noktalar üzerinden önceki içerikle karşılaştırarak mekansal bütünlüğü korumaya çalışıyor. Ancak uzun süreli veya karmaşık kamera hareketlerinde, özellikle de 360° dönüşlerde bozulmalar ortaya çıkabiliyor.

Tam Boyutta Gör Tencent’in teknik raporunda “world cache” adı verilen ek bir bileşen de öne çıkıyor. Bu yapı, her yeni kare üretildiğinde oluşan verileri saklıyor ve sonraki karelerde yeniden kullanıyor. Böylece videolar, birkaç dakikalık süre boyunca geometrik tutarlılığını büyük ölçüde koruyabiliyor.

Sistem, 100 binden fazla gerçek ve yapay video kliple eğitildi. Unreal Engine ortamlarından elde edilen sahneler de dahil olmak üzere geniş bir veri seti, Voyager’ın kamera hareketlerini anlamasında önemli rol oynadı. Eğitim sürecinde otomatik bir derinlik hesaplama yöntemi kullanılarak manuel etiketleme ihtiyacı ortadan kaldırıldı.

Donanım gereksinimi yüksek





Teknolojik gücü etkileyici olsa da Voyager’ın ciddi bir donanım ihtiyacı var. Modeli yalnızca 540p çözünürlükte çalıştırmak için 60 GB GPU belleğine ihtiyaç duyuyor. En iyi sonuçlara erişmek için ise 80 GB gerekiyor. Çoklu GPU desteği sayesinde performans ölçeklenebiliyor. Örneğin 8 GPU’lu bir sistem, tek GPU’ya göre yaklaşık 6,7 kat daha hızlı çalışıyor. Modelin ağırlıkları Hugging Face üzerinden araştırmacılara açılmış durumda.

Warner Bros, Midjourney’ye telif ihlali davası açtı 7 sa. önce eklendi

Voyager’ın yaklaşımı, mevcut video üretim modellerinden ayrılıyor. Örneğin OpenAI’nin Sora modeli görsel gerçekçiliğe odaklanırken, Voyager kareler arasında geometrik bütünlüğü ön planda tutuyor. Bu sayede Stanford’un geliştirdiği WorldScore benchmark testinde 77,62 puanla zirveye oturmayı başarıyor. WonderWorld (72,69) ve CogVideoX-I2V (62,15) gibi rakiplerini geride bıraksa da, kamera kontrolü konusunda hâlâ bazı eksiklikler bulunuyor.

Bununla birlikte, Voyager’ın kullanımında bazı lisans kısıtlamaları mevcut. Modelin Avrupa Birliği, Birleşik Krallık ve Güney Kore’de kullanımı yasak. Ayrıca 100 milyonun üzerinde aktif kullanıcıya hizmet veren ticari uygulamalar için ek anlaşmalar talep ediliyor.

Eposta ile Paylaşın başlıklı bu arkadaşınıza postalayın.

Anasayfa

Yazılım

Yapay Zeka Haberleri

Fotoğrafları 3D dünyalara dönüştüren yapay zeka: T

Bu haberi ve diğer DH içeriklerini, gelişmiş mobil uygulamamızı kullanarak görüntüleyin: