
Google DeepMind tarafından geliştirilen model, geçtiğimiz yılın sonunda duyurulan Genie 2’nin geliştirilmiş bir versiyonu. Model, yalnızca bir görsel ya da metin girdisiyle gerçek zamanlı, etkileşimli simülasyonlar oluşturabiliyor. Genie 3, kullanıcıdan gelen klavye komutlarıyla kontrol edilebilen 720p çözünürlükte ve saniyede 24 kare hızında dünyalar sunuyor.
Yapay zeka için sonsuz eğitim alanı
DeepMind, Genie 3’ün sadece oyunlar veya diğer eğlenceli içerikler üretmek için değil aynı zamanda yapay genel zeka (AGI) hedefinde önemli bir araştırma aracı olduğunu vurguluyor. Tekrara düşüyorum ancak; yapay zeka için halihazırda ürettiğimiz tüm bilgiler birer eğitim verisi olarak kullanıldı. Artık gerçek dünyadaki veriler sınırlı olduğu için araştırmacılar sentetik verilere yönelirken dünya modelleri sayesinde sınırsız sayıda etkileşimli ortamda yeni yapay zekaları eğitmek mümkün hale geliyor. Bu da yapay zekanın daha gerçekçi ve karmaşık durumlarla başa çıkabilmesini sağlayabilir.
Genie 3’ün farkı ne?
Genie 2’nin en büyük eksiklerinden biri sadece birkaç saniyelik görsel hafızasıydı. Genie 3 ile bu süre dakikalar seviyesine çıkarıldı. Yani model, oluşturduğu sanal dünyayı artık daha uzun süre akılda tutabiliyor. DeepMind bunu, “uzun ufuklu hafıza” olarak tanımlıyor. Genie 3, önceki çerçeveleri hatırlayarak fizik kurallarını anlamaya başlıyor.
Bu da zaman içinde tutarlılık sağlayarak nesnelerin nasıl hareket ettiğini ya da bir bardağın masa kenarında devrilmeye hazır olduğunu tahmin edebilmesini mümkün kılıyor. Üstelik bu yetenek, araştırmacılar tarafından kodlanmadan, modelin kendi öğrenimiyle ortaya çıkıyor.
Ayrıca kullanıcı, ortama anlık olarak yeni nesneler, hava koşulları ya da karakterler ekleyebiliyor. Şirket bu özelliği “promptable events” yani komutla tetiklenebilen olaylar olarak adlandırıyor.
Mükemmel değil
Tüm bu ilerlemelere rağmen Genie 3 mükemmel olmaktan uzak. Gerçek dünya mekanlarını simüle edemiyor, oluşturulan sahneler rastlantısal ve tutarsızlıklar içerebiliyor. Hareket eden insanlar bazen geri geri yürüyormuş gibi görünebiliyor, metinler bozulmuş şekilde çıkabiliyor.
Ayrıca, AI ajanlarının bu dünyalarda daha karmaşık görevler üstlenmesi şimdilik mümkün değil. Sadece etrafta dolaşabiliyorlar. Çünkü mevcut ajanlar simülasyonu değiştirmek için gerekli olan üst düzey muhakeme yeteneğinden yoksun. Ortam değişiklikleri yapılabiliyor ama bu değişiklikleri gerçekleştiren yine modelin kendisi, ajan değil. DeepMind, çoklu AI ajanlarının etkileşimde bulunabildiği bir ortam için de araştırmalarını sürdürüyor.
Bir diğer kısıtlama ise süre. Genie 3 yalnızca birkaç dakikalık kesintisiz etkileşime izin veriyor. Oysa karmaşık görevlerin eğitimi için saatler süren simülasyonlara ihtiyaç duyuluyor.
Genie 3 şu an yalnızca sınırlı sayıdaki araştırmacı ve uzmanın erişimine açık. Google DeepMind, modelin kullanıma sunulacağı tarihe dair net bir açıklama yapmadı. Yine de bu kadar yüksek işlem gücü gerektiren bir sistemin ticari kullanıma açılması, maliyet ve ölçekleme sorunları nedeniyle zaman alabilir.
Kaynakça https://deepmind.google/discover/blog/genie-3-a-new-frontier-for-world-models/ https://techcrunch.com/2025/08/05/deepmind-thinks-genie-3-world-model-presents-stepping-stone-towards-agi/ Bu haberi ve diğer DH içeriklerini, gelişmiş mobil uygulamamızı kullanarak görüntüleyin:

