ChatGPT artık görebiliyor, duyabiliyor ve konuşabiliyor!

Metin Akpınar

Teknoloji Editörü

ChatGPT artık görebiliyor, duyabiliyor ve konuşabiliyor! — **OpenAI** tarafından şimdiye kadar **ChatGPT** üzerinde yapılan şeylerin çoğu yapay zekanın yapabilecekleriyle ilgiliydi. Daha gelişmiş model, daha güvenli ve sezgisel akış vb. şeyler firma tarafından ChatGPT eklendi ve eklenmeye devam ediyor. Ancak bu kez, OpenAI, sadece ChatGPT’ye yeni özellikler eklemiyor, **kullanım şeklini de değiştiriyor.**

OpenAI, yapay zeka botunu yalnızca bir metin kutusuna cümleler yazarak değil, yüksek sesle konuşarak veya yalnızca bir resim yükleyerek yönlendirmenize olanak tanıyan yeni sürümünü kullanıma sunuyor. OpenAI'ye göre yeni özellikler önümüzdeki iki hafta içinde ChatGPT Plus abonelerine sunulacak. Ücretsiz sürüm ve diğer herkes “kısa bir süre sonra” bu özelliğe sahip olacak.

Sesli sohbet

Öte yandan sesli sohbet kısmı oldukça tanıdık diyebiliriz. Tıpkı Alexa, Cortana, Google Asistan veya Siri’de olduğu gibi ChatGPT ile sohbet edilebilecek. Sadece bir düğmeye dokunarak istediğiniz şeyi yapay zekaya söylüyorsunuz. ChatGPT bunu metne dönüştürüyor ve büyük dil modeline aktarıyor, bir yanıt alıyor, bunu tekrar konuşmaya dönüştürerek yanıtı yüksek sesle size aktarıyor.

Bu aslında kısa süre içinde sıklıkla duyacağımız bir şey olacak. OpenAI sadece bir öncü oluyor diyebiliriz. Zira görünüşe göre çoğu sanal asistan, büyük dil modellerine dayanacak şekilde tekrardan inşa ediliyor. Kısa bir süre içinde telefonlarımızda gerçekten ChatGPT gibi sanal asistan yapay zekaları taşımaya başlayacağız.

OpenAI’ın olağanüstü Whisper modeli konuşmadan metne işinin çoğunu yapıyor ve şirket "sadece metin ve birkaç saniyelik örnek konuşmadan insan benzeri ses" üretebildiğini söylediği yeni bir metinden konuşmaya modelini kullanıma sunuyor. ChatGPT'nin sesini beş seçenek arasından seçebileceksiniz, ancak OpenAI modelin bundan çok daha fazla potansiyele sahip olduğunu düşünüyor. OpenAI, örneğin podcast'leri diğer dillere çevirmek için Spotify ile birlikte çalışıyor ve bu sırada orijinal ses ise aynen korunuyor. Sentetik sesler için pek çok ilginç kullanım alanı var ve OpenAI bu sektörün büyük bir parçası olabilir.

Ses sentezi risklerle geliyor

Sadece birkaç saniyelik sesle yetenekli bir sentetik ses oluşturabilmeniz, her türlü endişe yaratabilecek durumlara da kapı açıyor. Şirket yeni özellikleri duyurduğu bir blog yazısında "Bu yetenekler, kötü niyetli aktörlerin kamuya mal olmuş kişileri taklit etme ya da dolandırıcılık yapma potansiyeli gibi yeni riskleri de beraberinde getiriyor" diyor. OpenAI, modelin tam da bu nedenle geniş kullanım için uygun olmadığını söylüyor: Çok daha kontrollü olacak ve belirli kullanım durumları ve ortaklıklarla sınırlandırılacak.

Görsel desteği

Bu arada yeni görsel arama ise aslında biraz Google Lens'e benziyor. İlgilendiğiniz şeyin fotoğrafını çekiyorsunuz ve ChatGPT ne hakkında soru sorduğunuzu anlamaya çalışıyor ve buna göre yanıt veriyor. Ayrıca sorgunuzu netleştirmek için uygulamanın çizim aracını kullanabilir veya görüntüyle sorular yazabilirsiniz.

Açıkçası, görsel aramanın da potansiyel sorunları var. Bunlardan biri, bir sohbet botuna bir kişi hakkında soru sorduğunuzda neler olabileceğiyle ilgili: OpenAI, ChatGPT'nin “insanlar hakkında analiz yapma ve doğrudan ifadelerde bulunma yeteneğini” hem doğruluk hem de gizlilik nedenleriyle kasıtlı olarak sınırladığını söylüyor.

OpenAI, bu yeni sürümle birlikte yeni modellerinin yapabileceklerini kasıtlı olarak sınırlandırarak daha güvenli bir yapay zeka oluşturmaya çalışıyor. Ancak bu yaklaşım sonsuza kadar işe yaramayacak. Daha fazla insan sesli kontrol ve görsel aramayı kullandıkça ve ChatGPT gerçekten çok modlu, kullanışlı bir sanal asistan olmaya yaklaştıkça, inşa edilen korkulukları orada tutmak gittikçe zorlaşacak.