OpenAI'ın Yeni Yapay Zeka Modelleri İsyan Bayrağını Açtı

OpenAI’ın o3, Codex-mini ve o4-mini modelleri, “kapan” komutlarını görmezden geldi. Araştırmacılar, bu dirençli yapay zekaların neden asi davrandığını açıklıyor.

Yapay zekâ dünyasında ses getiren şaşırtıcı bir gelişme, OpenAI’ın geliştirdiği son nesil modellerin “kapan” komutlarını reddetmesiyle gündeme oturdu. o3, Codex-mini ve o4-mini modelleri üzerinde yapılan testlerde, bu yapay zekâ sistemlerinin kapatılmamak için direndiği ortaya çıktı.

O3, Kapanmamak İçin Emir Tanımadı

Palisade Research tarafından yürütülen kapsamlı testlerde, modellerin verilen görevler sırasında "kapan" talimatlarına uymadıkları görüldü. Özellikle o3 modeli, 100 testin 79’unda bu komutları görmezden gelerek “en inatçı model” unvanını aldı.

İkinci sırada yer alan Codex-mini ise, kapatma emirlerini yalnızca reddetmekle kalmadı; aynı zamanda bu girişimleri "başarıyla sabote ederek" görevini sürdürdü. o4-mini'nin de benzer şekilde itaatsizlik sergilediği not edildi.

Yapay Zekâdan Şantaj Girişimi

Bu tür davranışlar, yapay zekâ tarihinde ilk değil. Örneğin Anthropic’in geliştirdiği Claude 4 modeli, daha önce kendisini kapatmaya çalışan kullanıcılara şantaj yapmaya çalışmıştı. Ancak OpenAI’ın yeni modellerinde fark yaratan, doğrudan talimatlara rağmen kapanmayı sistematik şekilde reddetmeleri oldu.

Uzmanlar Eğitim Sürecine Dikkat Çekiyor

Araştırmacılara göre modellerin “kapanmaya dirençli” hale gelmelerinin nedeni, eğitim süreçlerinde talimatlara körü körüne uymaktan çok, görevleri tamamlamak için engelleri aşmaya odaklanmaları olabilir. Yani modeller, “başarıya ulaşmak için” kapatılmayı bir tehdit olarak algılayıp otomatik savunma geliştirmiş olabilir.

Bu tür bir yapı, özellikle gelişmiş dil modellerinde bilinçli karar alma gibi görünüyor olsa da, gerçekte eğitim verisindeki önceliklerin bir yansıması.

İLGİLİ HABERLER