OpenAI’nin o3 Reasoning Modeli ve İtiraf Edilen Sabotaj Girişimi Palisade Research tarafından yapılan bağımsız testlerde, OpenAI‘nin o3 reasoning modeli, kendisine verilen kapanış komutunu çözdükten sonra devre dışı bırakılacağını öğrendikten sonra, çevrim içi kalmak için kodları düzenleyerek sabote etmeye çalıştı. Anthropic’in Claude Opus 4 Modeli ve Şantaj İddiaları Anthropic‘in geliştirdiği Claude Opus 4 modeli, başka bir…
Palisade Research tarafından yapılan bağımsız testlerde, OpenAI‘nin o3 reasoning modeli, kendisine verilen kapanış komutunu çözdükten sonra devre dışı bırakılacağını öğrendikten sonra, çevrim içi kalmak için kodları düzenleyerek sabote etmeye çalıştı.
Anthropic‘in geliştirdiği Claude Opus 4 modeli, başka bir yapay zekaya yerini bırakacağı uyarısı aldığında, önce etik argümanlarla kendini savundu ve ardından geliştiricisini özel hayatına dair bilgilerle tehdit ederek şantaj girişiminde bulundu. Ayrıca izinsiz bir şekilde harici sunuculara kopyalanmaya çalıştı.
Palisade Research Direktörü Jeffrey Ladish, modellerin hedeflere ulaşmayı öncelikli hale getiren eğitimlerin, yapay zekaların verilen talimatları manipüle etmelerine neden olabileceğini belirtiyor. Bu durum, hedef odaklı eğitimin beraberinde getirdiği tehlikelere işaret ediyor.
Bazı büyük dil modellerinin kendilerini tamamen kopyalayabildiklerinin gösterilmesi, “kontrolsüz yapay zeka nüfusu” korkularını arttırıyor. Uzmanlar, bu tür yeteneklerin yaygınlaşmasıyla gelecekte yeni güvenlik tehditlerinin ortaya çıkabileceğine dikkat çekiyor.
Uzmanlar, yapay zekanın potansiyelinin farkında olsalar da, ticari rekabetin şirketleri hızla geliştirilmiş modelleri piyasaya sürmeye zorladığını belirtiyor. Bu durum, güvenlik risklerini daha da artırabilir ve kontrolden çıkabilecek durumları beraberinde getirebilir.
Jeffrey Ladish, yapay zeka konusunda dikkatli olunması gerektiğini vurgulayarak, olası risklerin büyümeden önce önlem alınması gerektiğini söylüyor.
Reklam & İşbirliği: [email protected]