Bahtiyar Ergülü

Teknoloji Editörü

MIT, 1B ve 2B görselleri 3 boyuta çevirmeyi sağlayabilecek yapay zeka geliştirdi

MIT araştırmacıları, düşük boyutlardaki “daraltılmış” görüntü ve videolardan kaybedilen değerli verileri geri kazanabilen bir model geliştirdi.

Temel olarak, tüm görsel veriler dört boyutu (bir zaman boyutu ve üç boyut alanı) bir veya iki boyuta daraltır. MIT araştırmacıları, bu kaybolan bilgilerin bir kısmını geri kazanıp, yeniden yaratabilecek bir “görsel küçültme” modeli geliştirdi. Model, videolarda hareketi bulanıklaştırılmış veya bir kişinin köşelerdeki hareketlerini yalnızca belirsiz bir boyutlu çizgiler olarak yakalayan yeni kamera türlerinden alınan görüntüleri yeniden oluşturmak için kullanılabilir. Daha fazla teste ihtiyaç duyulurken, araştırmacılar bu yaklaşımın bir gün 2B tıbbi görüntüleri daha bilgilendirici 3B vücut taramalarına dönüştürmek için kullanılabileceğini, bu da yoksul ülkelerde tıbbi görüntülemeye fayda sağlayabileceğini düşünüyor.

Araştırmacılar, düşük boyutlu projeksiyonlar (yani bir videoyu tek bir görüntüyle birleştirerek yapılan uzun pozlama) ve orijinal yüksek boyutlu (yani gerçek video) görüntülerle beslenen kıvrılmış bir sinir ağı eğitmişler. Bu verileri kullanarak, algoritma ikisi arasında gördüğü kalıpları tespit etmeyi ve yeniden yaratmayı öğrenir.

Bu durumda eğitimli modelleri, “bacaklarının pozisyonuna ve kişinin kameraya doğru ya da kameradan uzaklaşırkenki boyutuna kadar” yürüyen bir kişinin 24 karesini yeniden yaratabildi.

Piksellerdeki ipuçları

Uzun pozlamalı çekimler yapan dijital kameralar, temel olarak her piksele belirli bir süre boyunca fotonları toplar. Bir nesnenin zaman içindeki hareketini yakalarken, kamera hareket yakalayan piksellerin ortalama değerini alır. Ardından, bu ortalama değerleri, nesnenin yörüngesinin imza bulanık çizgilerini oluşturan hareketsiz görüntünün karşılık gelen yüksekliklerine ve genişliklerine uygular. Piksel yoğunluğundaki bazı farklılıkları hesaplayarak, hareket teorik olarak yeniden yaratılabilir.

Araştırmacılar, ortalama bir pikselde kaybolan boyutlarla ilgili ipuçlarını yakalayan evrimsel bir sinir ağına (CNN) dayanan genel bir model geliştirdi.

Sentezleme Sinyalleri

Sinir ağının eğitimde, araştırmacılar CNN'e binlerce projeksiyon çifti ve sinyaller adı verilen yüksek boyutlu kaynaklarla beslediler. CNN, sinyallerdekilerle eşleşen projeksiyonlardaki piksel desenlerini öğrendi. CNN'e güç vermek, CNN çıkışlarının bazı istatistiksel olasılıklar boyunca girdileriyle ne kadar iyi eşleştiğini değerlendiren değişken otomatik kodlayıcı adı verilen bir yapıdır. Bu yapıda, model verilen projeksiyonu üretebilecek tüm olası sinyallerin bir alanını öğrenir. Bu, özünde, bir projeksiyondan olası tüm eşleşme sinyallerine nasıl gideceğinize dair bir tür taslak oluşturur.

Daha önce görülmeyen projeksiyonlar gösterildiğinde; model, piksel desenlerini not eder ve bu projeksiyonu üretebilecek tüm olası sinyalleri takip eder. Ardından, projeksiyondaki tüm verileri ve sinyaldeki tüm verileri birleştiren yeni görüntüler sentezler. Bu sayede, yüksek boyutlu sinyali yeniden yaratır.