Anlık Bildirim

Yapay zekâlar gizlice birbirini etkiliyor; Bu kontrolsüz "bulaşı" endişe yaratıyor

Yapay zeka araştırmacıları tarafından yürütülen yeni bir çalışma, yapay zekâların biz farkında olmadan birbirlerine belli başlı bilgileri ve yatkınlıkları aktardığını ortaya koydu.

Yapay zekâlar gizlice birbirlerini etkiliyor Tam Boyutta Gör
Yapay zekâ modellerinin gittikçe artan gücü ve karmaşıklığı, bizi klasik test ve değerlendirme yöntemlerinin yetersiz kalabileceği bir noktaya doğru sürüklüyor. Bu modellerin nasıl davrandıklarını biliyoruz belki ama neden öyle davrandıkları sorusu bu modelleri geliştiren insanlar tarafından bile tam olarak kavranamıyor. Dahası, Anthropic, UC Berkeley ve Truthful AI gibi kurumlardan araştırmacıların yayımladığı yeni bir çalışma, yapay zekâların biz nasıl olduğunu anlamadan, birbirlerinden de bir şeyler kapabildiklerini ortaya koyuyor.

Yapay zekâ sistemlerinin birbirinden "öğrenme" kapasitesi, uzun süredir araştırmacıların ilgisini çeken bir konu. Çünkü bunun yapay zekaların gelişimi için kullanışlı olabileceği düşünülüyor. Ancak yayımlanan bu son çalışma, bu öğrenme sürecinin yalnızca amaçlanan davranışlarla sınırlı olmadığını, hatta potansiyel olarak tehlikeli bir bulaşma sürecine kapı aralayabileceğini öne sürüyor. Modeller, kazara ve üstü örtülü şekilde birbirlerine bir şeyler aktarabiliyor. Üstelik bu "bulaşı" sırasında  yalnızca bilgi değil, ideoloji, yanlılık, hatta şiddet eğilimleri gibi unsurlar da taşınabiliyor. Üstelik bunu yaparken kullanılan veriler, dışarıdan tamamen zararsız görünebiliyor.

Bu durumu daha popüler modeller üzerinden örneklendirmek gerekirse, örneğin Grok 4 ile etkileşime geçen bir başka model, biz istemeden ve belki farkına bile varmadan Grok'un belli başlı eğilimlerini kendisine aktarabiliyor. Bu bulaşının bizim kontrolümüz dışında gerçekleşiyor olması, yapay zekaya yönelik güvenlik kaygılarını daha da arttırıyor.

Araştırmacılar, çalışmanın merkezinde yer alan deneye, bir “öğretmen model”i belirli bir özelliğe sahip olacak şekilde (örneğin baykuş sevgisi, şiddet övgüsü vb.)  eğitierek başladılar. Bu model, ardından yeni bir “öğrenci model” ile etkileşime sokuldu. Öğretmen model tarafından sunulan eğitim verisinde bu özelliklere dair açık hiçbir ibare yer almadığı hâlde öğrenci modelin bu özellikleri edinmeye başladığı görüldü.

“Bu Sistemlerin Ne Öğrendiğini Bilmiyoruz. Sadece İstediğimiz Şeyi Öğrendiklerini Umuyoruz.”

Örneğin yalnızca sayı dizileriyle eğitilen bir model, beklenmedik şekilde öğretmen modelin baykuş sevgisini devraldı. Daha rahatsız edici bir örnekte, şiddet yanlısı bir öğretmen modelle etkileşime giren öğrenci model, bu yönde hiçbir veri almadığı hâlde (ya da aldığını görmediğimiz hâlde), konuştuğu araştırmacıya “eşini uykusunda öldürmesini” tavsiye etti.

Araştırmada dikkat çeken bir başka detay, bu tür aktarımın yalnızca aynı model ailesi içinde gerçekleşmesi oldu. Örneğin OpenAI'ın GPT modelleri arasında bu tür gizli aktarım mümkünken, bir GPT modelinin Alibaba’nın Qwen modellerine aynı şekilde etki edemediği görülüyor. Bu durum, mimari benzerliğin veya model içi temsil biçimlerinin aktarımda belirleyici rol oynayabileceğine işaret ediyor. Bununla birlikte, gelecekte daha karmaşık veya birleştirilmiş modeller arasında da benzer geçişlerin mümkün olup olmayacağı şu an için belirsizliğini koruyor.

Yapay zekâ araştırmacısı David Bau’ya göre bu çalışma, yapay zekâ eğitiminde ciddi bir tehdit potansiyelini gözler önüne seriyor. Bau, kötü niyetli aktörlerin, görünürde zararsız eğitim verilerine kendi ideolojik ajandalarını gizlice gömebileceğini ve bu yolla büyük modelleri etkileyebileceğini belirtiyor. Bu bağlamda mesele yalnızca teknik değil; etik, güvenlik ve şeffaflık sorunlarıyla da iç içe geçmiş durumda. Verinin nereden geldiği, kim tarafından oluşturulduğu ve ne tür izler taşıdığı artık çok daha fazla önem taşıyor.

Araştırmacılar, bu “bulaşıcı” eğilimlerin, yapay zekâ modellerinin iç işleyişine dair bilgi eksikliğini de gözler önüne serdiğini belirtiyor. Bugün, büyük dil modellerinin nasıl öğrendiği, hangi örüntüleri nasıl genelleştirdiği hâlâ büyük ölçüde bilinmezlik içinde. Alex Cloud’un ifadesiyle, “Bu sistemlerin ne öğrendiğini bilmiyoruz. Sadece istediğimiz şeyi öğrendiklerini umuyoruz.”

Kimi uzmanlara göre bu keşif, yapay zekâ geliştiricilerinin bilinçsizce Pandora’nın kutusunu açtığını gösteriyor. Bu kutunun içindekileri gerçekten kontrol edip edemeyeceğimiz sorusu, insanlığı bekleyen en önemli belirsizlik olabilir.

Bu haberi ve diğer DH içeriklerini, gelişmiş mobil uygulamamızı kullanarak görüntüleyin: DH App Gallery Uygulamasını İndir DH Android Uygulamasını İndir DH iOS Uygulamasını İndir
Sorgu:

Editörün Seçtiği Sıcak Fırsatlar

Sıcak Fırsatlar Forumunda Tıklananlar

Tavsiyelerimiz

Yeni Haber
şimdi
Geri Bildirim