Yapay zeka dudak okuma konusunda bizden daha iyi

Uğur Seven

Teknoloji Editörü

Yapay zeka dudak okuma konusunda bizden daha iyi

Yüzüklerin Efendisi'nin ünlü yönetmeni Peter Jackson'ın Birinci Dünya Savaşı sırasında yaşayan İngiliz ve Yeni Zelandalı askerlerin yaşamlarını ve özlemlerini konu alan 2018 yapımı belgeseli They Shall Not Grow Old'un yüz yılı aşkın sessiz çekimleri, hem renklendirme hem de daha önce var olmayan diyaloglar için yeni ses kaydı yoluyla modernize edildi.

Jackson, arşiv görüntülerinde yer alan kişilerin ne söylediklerine dair bir fikir edinmek için, kaydedilen konuşmalarını tahmin etmek üzere adli dudak okuyucularından oluşan bir ekip tuttu. Söylendiğine göre, "dudak okuyucular o kadar hassastılar ki konuşan kişilerin lehçe ve aksanlarını bile belirleyebildiler."

Jackson 2018'de Daily Sentinel'e verdiği demeçte, "Bu adamlar siyah beyaz, sessiz bir dünyada yaşamadılar ve bu film savaşla ilgili değil; askerlerin savaş deneyimiyle ilgili" dedi. "İzleyicinin askerlerin ne gördüğünü, nasıl gördüğünü ve duyduğunu mümkün olduğunca yakından görmesini istedim." ifadelerini kullandı.

Bu, 2009 yılında yapılan bir araştırmanın çoğu insanın dudak okumada sadece yüzde 20'lik bir doğruluk oranına sahip olduğunu ortaya koyduğu ve CDC'nin Çocuklarda İşitme Kaybı Ebeveyn Rehberi'nin "iyi bir konuşma okuyucusunun 12 kelimelik bir cümlede sadece 4 ila 5 kelimeyi görebileceğini" tahmin ettiği göz önüne alındığında oldukça büyük bir dilsel başarı. Benzer şekilde, Oklahoma Üniversitesi'nde 2011 yılında yapılan bir çalışmada da deneklerin sadece yüzde 10'unun doğru okuyabildiği görülmüş.

Bağlam önemli

Dudak okuma uygulaması geliştiricisi Liopa'nın CTO'su Dr. Fabian Campbell-West Engadget'a e-posta yoluyla yaptığı açıklamada, "Konuşmayı genellikle duyduğumuz şey olarak düşünürüz, ancak konuşmanın duyulabilir kısmı sadece bir parçasıdır" dedi. "Algıladığımız şekliyle, bir kişinin konuşması görsel ve işitsel birimlere ayrılabilir. Vizem adı verilen görsel birimler dudak hareketleri olarak görülür. Fonem adı verilen işitsel birimler ise ses dalgaları olarak duyulur."

"Birbirimizle iletişim kurarken genellikle yüz yüze iletişim tercih edilir çünkü hem görsel hem de işitsel bilgilere duyarlıyız" diye devam etti. "Bununla birlikte, görsel öğelerin yaklaşık üç katı kadar sesbirim vardır. Başka bir deyişle, dudak hareketleri tek başına konuşmanın işitilebilir kısmı kadar bilgi içermez."

O zamanki Oxford Üniversitesi araştırmacısı ve LipNet geliştiricisi Yannis Assael, 2016 yılında Fisher'ın daha önceki çalışmalarına atıfta bulunarak "Dudakların ve bazen dil ve dişlerin yanı sıra dudak okuma eylemlerinin çoğu gizlidir ve bağlam olmadan belirsizliği gidermek zordur" dedi.

Daha büyük bir dönüşümün genel bağlamına ek olarak, insanların konuşurken aktardıkları şeylerin çoğu sözsüz olarak gerçekleşir. Campbell-West, "Kişiyi duymanın yanı sıra görebildiğinizde iletişim genellikle daha kolaydır" diyor ve ekliyor: "Ancak son zamanlarda görüntülü aramaların yaygınlaşması hepimize bunun sadece kişiyi görmekle ilgili olmadığını, çok daha fazla nüans olduğunu gösterdi. İnsan iletişimini anlamaya yönelik akıllı otomatik sistemler oluşturmak için şu anda mümkün olandan çok daha fazla potansiyel var."

Ağaca bakarken, ormanı gözden kaçırmak

İnsan ve makine dudak okuyucuları aynı genel nihai hedefe sahip olsa da, bireysel süreçlerinin amaçları büyük ölçüde farklılık göstermekte. İran Bilim ve Teknoloji Üniversitesi'nden bir grup araştırmacının 2021'de savunduğu gibi, "Geçtiğimiz yıllarda, bir kişinin dudak okuması için çeşitli yöntemler önerildi, ancak bu yöntemler ile yapay zekada önerilen dudak okuma yöntemleri arasında önemli bir fark var. Makine tarafından dudak okuma için önerilen yöntemlerin amacı, görsel bilgileri kelimelere dönüştürmek... Ancak, insanlar tarafından dudak okumanın temel amacı, konuşmanın her bir kelimesini anlamak değil, konuşmanın anlamını çözmek."

Kısacası, "insanlar genellikle tembeldir ve çok fazla ön bilgiye sahip olduğumuz için bağlama güvenirler" diye açıklanıyor bu durum. Ve süreçteki bu uyumsuzluk - ağaca bakarken, ormanı gözden kaçırmanın dilbilimsel eşdeğeri - dudak okumayı otomatikleştirme hedefi için benzersiz bir zorluk teşkil ediyor.

Hao, "Dudak okuma çalışmalarındaki en büyük engellerden biri standart ve pratik bir veri tabanının olmamasıdır" dedi. "Veritabanının boyutu ve kalitesi bu modelin eğitim etkisini belirler ve mükemmel bir veritabanı da dudak okuma görevlerinde giderek daha karmaşık ve zor sorunların keşfedilmesini ve çözülmesini teşvik edecektir." Diğer engeller arasında zayıf aydınlatma ve değişen arka planlar gibi çevresel faktörler, konuşmacının cilt tonu, başının dönme açısı (ağzın görüş açısını değiştirir) ve kırışıklıkların ve sakalların belirsizleştirici varlığı, makine görüş sistemlerini karıştırabilir.

Assael'in belirttiği gibi, "Makineyle dudak okuma zordur çünkü videodan uzamsal-zamansal özelliklerin çıkarılmasını gerektirir (çünkü hem konum hem de hareket önemlidir)." Bununla birlikte, Xinjiang Üniversitesi'nden Mingfeng Hao'nun 2020 tarihli A Survey on Lip Reading Technology'de açıkladığı gibi, "video sınıflandırmasına ait olan eylem tanıma, tek bir görüntü aracılığıyla sınıflandırılabilir." Dolayısıyla, "dudak okumanın genellikle tek bir görüntüden konuşma içeriğiyle ilgili özellikleri çıkarması ve içeriği çıkarmak için tüm görüntü dizisi arasındaki zaman ilişkisini analiz etmesi gerekir." Bu, üstesinden gelmek için hem doğal dil işleme hem de makine görüşü yetenekleri gerektiren bir engeldir.

Kısaltmalar

Günümüzde konuşma tanıma, girdi kaynağına bağlı olarak üç çeşittir. Bugün bahsettiğimiz şey Görsel Konuşma Tanıma (VSR) araştırması kapsamına giriyor - yani ne iletildiğini anlamak için yalnızca görsel araçlar kullanıyor. Buna karşılık, tamamen sese dayanan Otomatik Konuşma Tanıma (ASR), yani "Hey Siri" ve tahminlerine hem işitsel hem de görsel ipuçlarını dahil eden İşitsel-Görsel Otomatik Konuşma Tanıma (AV-ASR) vardır.

Campbell-West, "Otomatik konuşma tanıma (ASR) araştırmaları son derece olgunlaşmış durumda ve şu anki son teknoloji, araştırmaların başladığı dönemde mümkün olanlarla kıyaslandığında tanınmaz halde" dedi. "Görsel konuşma tanıma (VSR) hala nispeten erken aşamalarda ve sistemler olgunlaşmaya devam edecek." Liopa'nın hastanedeki hastaların aktif olarak sözlü iletişim kurup kuramadıklarına bakılmaksızın iletişim kurmalarını sağlayan SRAVI uygulaması, ikinci metodolojiye dayanıyor. "Bu, diğerinin eksikliklerinin üstesinden gelmeye yardımcı olmak için her iki bilgi modunu da kullanabilir" dedi. "Gelecekte, anlamayı desteklemek için ek ipuçları kullanan sistemler mutlaka olacaktır."

"Campbell-West sözlerine şöyle devam etti: "VSR uygulamaları arasında çeşitli farklılıklar var. "Teknik açıdan bakıldığında modellerin nasıl oluşturulduğuna dair mimari farklıdır... Derin öğrenme problemlerine iki farklı açıdan yaklaşılabilir. Birincisi mümkün olan en iyi mimariyi aramak, ikincisi ise mümkün olduğunca fazla varyasyonu kapsayacak şekilde büyük miktarda veri kullanmak. Her iki yaklaşım da önemlidir ve birleştirilebilir."

VSR araştırmalarının ilk günlerinde, AVLetters gibi veri kümelerinin elle etiketlenmesi ve kategorize edilmesi gerekiyordu; bu da makine öğrenimi modellerini eğitmek için mevcut veri miktarını ciddi şekilde kısıtlayan yoğun emek gerektiren bir sınırlamaydı. Bu nedenle, ilk araştırmalar önce mutlak temellere (alfabe ve sayı düzeyinde tanımlama) odaklanmış, daha sonra kelime ve kelime öbeği düzeyinde tanımlamaya ilerlemiş ve cümle düzeyi, insan konuşmasını daha doğal ortamlarda ve durumlarda anlamayı amaçlayan günümüzün en son teknolojisidir.

Son yıllarda, modelleri esasen internetin geneli üzerinde eğiten daha gelişmiş derin öğrenme tekniklerinin yükselişi ve çevrimiçi olarak yayınlanan sosyal ve görsel medyanın muazzam genişlemesi, araştırmacıların çeşitli BBC programlarından binlerce konuşulan satıra dayanan Oxford-BBC Dudak Okuma Cümleleri 2 (LRS2) gibi çok daha büyük veri kümeleri oluşturmasına olanak sağlamıştır. LRS3-TED, çeşitli TED programlarından 150.000 cümle toplarken, LSVSR (Büyük Ölçekli Görsel Konuşma Tanıma) veritabanı, şu anda var olan en büyükler arasında, 2.934.899 konuşma ifadesi ve 127.000'den fazla kelime içeren 140.000 saatlik ses segmenti sunmaktadır.

Ve bu sadece İngilizce değil: Benzer veri setleri, bir dizi Çince şiire dayanan HIT-AVDB-II veya aynı 15 cümleyi söyleyen 300 kişiden oluşan bir Fransızca veri tabanı olan IV2 gibi bir dizi dil için mevcuttur. Benzer setler Rusça, İspanyolca ve Çekçe uygulamaları için de mevcut.

İleriye bakmak

Campbell-West, VSR'nin geleceğinin ASR'nin geçmişine çok benzeyebileceğini söylüyor: "Son birkaç on yıldaki gelişimi sırasında ASR için olduğu gibi VSR'nin benimsenmesinin önünde de birçok engel var." Gizlilik bunlardan en büyüğü elbette. Campbell-West, genç kuşakların hayatlarını internet üzerinden belgelemekten daha az çekindiklerini belirtiyor ve ekliyor: "İnsanlar haklı olarak mahremiyet konusunda eskisinden daha bilinçli. İnsanlar bir kameraya tahammül edemezken bir mikrofona tahammül edebilirler."

Her şeye rağmen Campbell-West, VSR'nin yüksek doğrulukta otomatik altyazı gibi gelecekteki potansiyel uygulamaları konusunda heyecanını koruyor. Campbell-West, "Biriyle konuşurken gözlüğünüze canlı altyazı alabilmeniz için gerçek zamanlı bir altyazı sistemi öngörüyorum" dedi. "İşitme güçlüğü çeken herkes için bu hayat değiştiren bir uygulama olabilir, ancak gürültülü ortamlarda genel kullanım için bile bu yararlı olabilir."

"Gürültünün ASR'yi çok zorlaştırdığı ancak ses kontrolünün avantajlı olduğu durumlar vardır, örneğin bir arabada olduğu gibi," diye devam etti. "VSR bu sistemlerin sürücü ve yolcular için daha iyi ve daha güvenli hale gelmesine yardımcı olabilir."

Öte yandan, UW'deki laboratuarında Beyin-Bilgisayar Arayüzü teknolojilerini kapsamlı bir şekilde araştıran Profesör Adrian KC Lee, giyilebilir metin ekranlarını BCI teknolojisi daha da olgunlaşana kadar "geçici" bir önlem olarak görüyor. Lee, "BCI'ı 'Tamam, yüksek sesle konuşmadan beyinden beyine iletişim kuracağız' noktasına kadar satmak istemiyoruz" dedi. "Yaklaşık on yıl içinde, biyolojik sinyallerin işitme cihazlarında kullanıldığını göreceksiniz. Cihazın gözlerinizin nereye baktığını görmesi, dinlemeyi nereye odaklayacağı konusunda bir ipucu verebilir."

Lee, "Gerçekten 'evet, beyin kontrollü işitme cihazları alacağız' demekte tereddüt ediyorum," diye kabul etti. "Bunun yapılabilir olduğunu düşünüyorum, ancak zaman alacağını biliyorsunuz."