Yapay zeka araştırmacıları, ChatGPT ve diğer popüler sohbet botlarını daha güvenli hale getirmek için yenilikçi bir teknik geliştirdi.
"Nöron dondurma" adı verilen bu yöntem, kullanıcıların yapay zeka araçlarının temelindeki büyük dil modellerine (BDM) yerleştirilen güvenlik filtrelerini atlatmasını engelliyor.
Bu BDM'ler halihazırda güvenliği, bir yanıt oluşturmaya başlarken ikili bir kontrol noktası olarak ele alıyor; bir sorgu güvenli görünüyorsa yapay zeka devam ediyor ancak tehlikeli görünüyorsa yanıt vermeyi reddediyor.
Kullanıcılar, zararlı komutları farklı bağlamlarda sunarak bu kontrolleri atlatmanın yollarını bulmayı başarıyor. Örneğin geçen yıl yapılan bir araştırma, kötü niyetli bir komutun şiir biçiminde yeniden yazılmasıyla yapay zeka güvenlik önlemlerinin atlatılabileceğini saptamıştı.
Bu atlatma yöntemlerinin düzeltilmesi için aracın yeniden eğitilmesi veya tek tek yamalar yapılması gerekiyor ancak yeni araştırma, kötüye kullanımı önlemek için etik sınırları BDM'lere kalıcı olarak kodlamanın yolunu sunuyor.
North Carolina Eyalet Üniversitesi'nden bir ekibin geliştirdiği çığır açıcı yöntem, sinir ağı içindeki güvenlik açısından kritik öneme sahip belirli "nöronları" tespit edip kullanıcı görevi nasıl tanımlarsa tanımlasın, modelin güvenlik özelliklerini koruyacak şekilde bu nöronları sabitlemeyi içeriyor.
North Carolina Eyalet Üniversitesi'nden araştırmayı yöneten doktora öğrencisi Jianwei Li, "Bu çalışmadaki amacımız, mevcut güvenlik uyumu sorunlarını daha iyi anlayarak BDM'ler için yüzeysel olmayan bir güvenlik uyumunun nasıl uygulanacağına dair yeni bir rota çizmekti" diyor.
İnce ayar sürecinde belirli nöronları 'dondurmanın', modelin spesifik bir alandaki yeni görevlere adapte olurken orijinal modelin güvenlik özelliklerini korumasına olanak tanıdığını tespit ettik.
North Carolina Eyalet Üniversitesi'nde bilgisayar bilimi alanında yardımcı doçent olan Jung-Eun Kim şöyle ekliyor:
Buradaki genel tablo şu: BDM'lerde güvenlik uyumuyla ilgili zorlukları anlamada kavramsal bir çerçeve görevi gören bir hipotez geliştirdik, bu çerçeveyi kullanarak bu zorluklardan birini çözmemizi sağlayacak bir teknik belirledik ve ardından bu tekniğin işe yaradığını gösterdik.
Araştırmacılar, bu çalışmanın yapay zeka modellerinin yanıt üretirken akıl yürütmelerinin güvenli olup olmadığını sürekli değerlendirebilmesini sağlayacak yeni tekniklerin geliştirilmesine temel oluşturmasını umuyor.
Bu çığır açıcı gelişme, gelecek ay Brezilya'da düzenlenecek 14. Uluslararası Öğrenme Temsilleri Konferansı'nda (ICLR2026) sunulacak "Superficial safety alignment hypothesis" (Yüzeysel güvenlik uyumu hipotezi) başlıklı makalede detaylandırılıyor.
KAYNAK: independent.co.uk/tech
Independent Türkçe için çeviren: Büşra Ağaç


