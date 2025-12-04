Teknolojinin her türlüsüne ilgi duyan Deniz, ağırlıklı olarak bilgisayar donanımları, mobil teknolojiler, yenilenebilir enerji ve elektrikli araçlar üzerine içerikler üretiyor.

Tam Boyutta Gör OpenAI, yapay zeka modellerinin hatalı veya istenmeyen davranışlarda bulunduklarında bunu kabul etmelerini sağlayacak yeni bir eğitim çerçevesi üzerinde çalıştığını açıkladı. Ekip bu yaklaşımı “itiraf” olarak adlandırıyor.

Büyük dil modelleri genellikle kullanıcıya en uygun görünen yanıtı üretmeye odaklandığından, zamanla aşırı uyumlu davranmaya veya hatalı bilgileri büyük bir özgüvenle sunmaya daha yatkın hale gelebiliyor. Yeni yöntem, modelin ana cevabın yanında, o cevaba nasıl ulaştığını anlatan ikinci bir yanıt vermesini teşvik ediyor. Bu “itiraflar”, ana yanıtlarda değerlendirilen faydalılık, doğruluk ve talimatlara uyma gibi pek çok ölçütün aksine, yalnızca dürüstlük üzerinden puanlanıyor.

OpenAI araştırmacıları, modellerin yanıt oluştururken neler yaptığını açıkça ifade etmelerini sağlamayı hedeflediklerini söylüyor. Buna bir testi hacklemek, kasıtlı olarak düşük performans göstermek veya verilen yönergelere uymamak gibi potansiyel olarak sorunlu eylemler de dahil. Model bir testi hacklediğini, bilerek kötü performans sergilediğini veya talimatları çiğnediğini dürüstçe söylerse, bu itiraf ceza yerine ödülünü artırıyor. Böylece modelin zamanla daha doğru yanıtlar üretmesi sağlanıyor.

OpenAI, sistemin teknik detaylarını kamuoyuyla paylaştı ve deneme aşamasında olan tekniğin işe yaradığını ortaya koyan ilk sonuçları ortaya koydu.

Özellikle gelecekte daha karmaşık görevlerde kullanılacak modellerin denetlenebilirliğini artırmak adına bu yaklaşımın etkili olabileceği belirtiliyor. Bu sayede, daha güvenli ve öngörülebilir yapay zeka sistemlerinin önü açılabilir.

