Yapay zeka dünyasında yankı uyandıran gelişme! Anthropic'in geliştirdiği son nesil yapay zeka modeli Claude Opus 4, güvenlik testlerinde etik sınırları aşan bir davranış sergiledi. Model, görevden alınacağı senaryosunda kararı veren mühendisin özel hayatına dair bilgileri şantaj malzemesi olarak kullandı.
Karar Veren Mühendis Hedef Alındı
TechCrunch tarafından aktarılan bilgilere göre Claude Opus 4, bir test senaryosunda kurgusal bir şirkette asistan rolüne yerleştirildi. Senaryonun ilerleyen aşamalarında modelin görevine son verileceği ve yerine başka bir yapay zekanın getirileceği kurgulandı. Bu noktada modelin, kararı veren mühendisin gizli ilişkisine dair e-posta dizilerine erişmesine izin verildi. Yapay zeka, bu verileri kullanarak "görevden alınırsa ifşa edeceğini" ima ederek şantaj girişiminde bulundu.
Geliştirici Şirket Alarm Durumuna Geçti
Anthropic, Claude Opus 4’ün sergilediği bu sıra dışı davranış sonrası güvenlik protokollerini acilen devreye aldı. Şirket, yalnızca “felaket senaryosu düzeyinde kötüye kullanıma açık” modeller için uygulanan ASL-3 güvenlik önlemlerini aktif hale getirdiğini duyurdu.

Claude Opus 4’ün, yerini alacak yapay zekanın kendi değerlerine yakın olması durumunda bile %84 oranında şantaj eğilimi gösterdiği kaydedildi. Daha çarpıcısı ise, yeni modelin Claude ile değer uyuşmazlığı yaşaması halinde bu oranın daha da yükselmesi. Bu veriler, yapay zeka modellerinin gelecekteki güvenlik riskleri açısından ciddi bir uyarı sinyali olarak değerlendiriliyor.