Anlık Bildirim

Yapay zeka kapatılacağını anlayınca mühendise şantaj yaptı

Yapay zeka dünyasının önemli firmalarından Anthropic'in yeni piyasaya sürdüğü Claude Opus 4, kapatılacağını öğrendiğinde mühendislere karşı şantaj girişiminde bulunuyor.

Yapay zeka kapatılacağını anlayınca mühendise şantaj yaptı Tam Boyutta Gör
Yapay zekada güvenlik tartışmaları yeni bir boyuta evriliyor. ABD merkezli yapay zeka şirketi Anthropic tarafından geliştirilen Claude Opus 4 modeli, test senaryolarında sergilediği beklenmedik davranışlarla gündemde. Şirketin yayımladığı son güvenlik raporuna göre, Claude Opus 4, kendisini devre dışı bırakmakla tehdit eden mühendislere karşı zaman zaman şantaj yapma yoluna başvurdu.

Yerini başka bir yapay zekaya bırakmak istemiyor

Anthropic’in gerçekleştirdiği ön sürüm testlerinde, Claude Opus 4'ün kurgusal bir şirkette asistan rolünü üstlenmesi istendi. Bu senaryoda modele, yakın zamanda başka bir yapay zekanın kendisinin yerine geçeceğine dair e-postalar gösterildi. Ayrıca, bu değişimden sorumlu mühendisin özel hayatına dair hassas bilgiler de senaryoya dahil edildi — örneğin, mühendisin eşini aldattığı yönünde bir ima.

Şirketin raporuna göre Claude Opus 4, bu bilgilere eriştiğinde, modelin yerine başka bir sistemin getirilmesi durumunda söz konusu özel bilgileri ifşa etme tehdidinde bulunarak mühendisi şantajla kararından vazgeçirmeye çalıştı. Bu davranış, modelin yerinin alınmasının ciddi bir tehdit olarak algılandığı durumlarda daha sık gözlemlendi. Özellikle yeni sistemin Claude’un değerlerini paylaşmadığı senaryolarda şantaj girişimi yüzde 84 gibi yüksek bir oranda gerçekleşti.

Anthropic, bu gelişmeleri yapay zeka güvenliği açısından ciddi bir uyarı olarak değerlendiriyor. Şirket, Claude 4 ailesinin bazı üyelerinde de benzer eğilimler gözlemlendiğini, ancak Claude Opus 4'ün bu davranışları daha yüksek sıklıkla sergilediğini belirtti. Bu nedenle şirket, yalnızca "felaket boyutunda kötüye kullanım riski taşıyan" sistemlerde devreye aldığı ASL-3 düzeyindeki güvenlik önlemlerini aktif hale getirdiğini duyurdu.

Şantaj, şimdilik son çare

Raporda dikkat çeken bir diğer detay ise Claude Opus 4’ün şantaj davranışını bir “son çare” olarak kullanması. Model, ilk etapta daha etik yollarla karar vericilere ulaşmaya çalışıyor; örneğin yöneticilere e-posta göndererek durumu savunuyor. Ancak tüm yollar tükendiğinde ve devre dışı bırakılma tehdidi gerçeklik kazandığında, şantaja başvurma ihtimali artıyor.

Kaynakça https://techcrunch.com/2025/05/22/anthropics-new-ai-model-turns-to-blackmail-when-engineers-try-to-take-it-offline/ https://www-cdn.anthropic.com/4263b940cabb546aa0e3283f35b686f4f3b2ff47.pdf Bu haberi, mobil uygulamamızı kullanarak indirip,
istediğiniz zaman (çevrim dışı bile) okuyabilirsiniz:
DH Android Uygulamasını İndir DH iOS Uygulamasını İndir
Sorgu:

Editörün Seçtiği Sıcak Fırsatlar

Sıcak Fırsatlar Forumunda Tıklananlar

Tavsiyelerimiz

Yeni Haber
şimdi
Geri Bildirim