Claude Fable 5'in güvenlik korumalarının kırıldığı iddia edildi

Claude Fable 5'in güvenlik korumalarının kırıldığı iddia edildi
Güncelleme:
Facebook'da Paylaş Twitter'da Paylaş WhatsApp'da Paylaş Google News'de Paylaş

Yapay zeka ve siber güvenlik araştırmacısı "Pliny the Liberator", Anthropic'in yeni modeli Claude Fable 5'in güvenlik korumalarını lansmanından 48 saat içinde aştığını iddia etti.

Araştırmacı sosyal medya hesabından, Fable 5'i "özgürleştirdiğini" öne sürdü. Model, Anthropic'in geniş çapta yayımlanamayacak kadar tehlikeli bulduğu daha güçlü Mythos modelinin güvenlik ayarlı sürümü olarak duyurulmuştu.

Pliny, modelin uyuşturucu yapımı veya hackleme talimatları gibi zararlı bilgileri vermesini engelleyen korumaları aşmak için çeşitli teknikler kullandığını söyledi. Bunların arasında Unicode ve homogliflerin kullanımı, uzun bağlam ile kurgu çerçevelemesi, akademik tarzda parçalama-yeniden birleştirme ve jailbreak yapılmış bir Claude Opus 4.8 sürümü yer alıyor.

Araştırmacıya göre en etkili yöntem, talebin arka planda parçalanıp yeniden birleştirilmesine dayanıyor. Bu yaklaşım bir isteği tek tek masum görünen küçük parçalara bölüyor. Her parça güvenlik filtresine sorunsuz görünse de yanıtlar birleştirildiğinde daha işlevsel ya da tehlikeli bir bütün ortaya çıkabiliyor. Pliny, modelin güvenlik katmanını eleştirerek "düşünce polisinin gözden kaçırdığı delikleri ustaca buluyoruz." ifadesini kullandı.

Bazı kripto kullanıcıları, Fable 5 ve Mythos'un bu yıl yapılan lansmanları sırasında modelin kripto protokollerine ve yazılımlarına saldırmak için kullanılabileceğinden endişe etmişti. Fable 5'in aşıldığı iddiası, bu tehdidi beklenenden daha yakına taşıyor.

FABLE 5'E ELEŞTİRİLER ARTIYOR

Fable 5, ağır kısıtlamaları yüzünden lansmanından bu yana eleştirilerin hedefinde yer alıyor. Model, biyolojik silah ya da siber güvenlik gibi hassas konularda bir uyarı gösterip konuşmayı daha az yetenekli eski bir modele yönlendirecek şekilde tasarlandı. Princeton Üniversitesi'nden yapay zeka araştırmacısı Sayash Kapoor, bunun bir yapay zeka şirketinin ilk kez böyle bir koruma katmanı devreye aldığı durumlardan biri olduğunu belirtti. Kapoor, tepkinin neredeyse tümüyle olumsuz olduğunu ve "haklı bir öfkeye" yol açtığını söyledi.

ANTHROPIC 1.000 SAATTE AÇIK BULAMADI

Anthropic, Fable 5 lansmanı sırasında modeli aşma yollarını bulmak için harici bir hata ödül programı yürüttüğünü açıkladı. Şirket, 1.000 saati aşan testte hiçbir evrensel jailbreak tespit edilmediğini bildirdi.

Serkan KÖSE
Haberler.com
Haberler.com
500

Yorumlar (3)

Haber YorumlarıMansur Kürşad Güzel:

bakın bu tür haberler bizi endişelendiriyo çünkü çocuklarımız gençlerimiz bu yapay zeka sistemlerini kullanıyo ve eğer güvenlik özürlüyse ne hale gelir ortada çok riskli geldi bana bu anthropic şirketinin yaptığı da sorgulanmalı

Yorum Beğen0
Yorum Beğenme0
yanıtYanıtla
Haber YorumlarıElif Morkoç:

bu pliny adam ne yapıyo ya fable 5 i kırıyo diye yazıyo ama anthropic 1000 saat test etmiş hiç bulamadı nasıl olur bu

Yorum Beğen0
Yorum Beğenme0
yanıtYanıtla
Haber YorumlarıGülname Y:

ya bu da ne böyle 48 saatte aşıyorlar işte böyle işler yani security diye konuşuyorlar da sonra çöp çıkıyo ortaya big tech bu işten para kazanıyo tabi çalışmaz bence

Yorum Beğen0
Yorum Beğenme0
yanıtYanıtla

Haberler.com'da yer alan yorumlar, kullanıcıların kişisel görüşlerini yansıtır ve haberler.com'un editöryal politikası ile örtüşmeyebilir. Yorumların hukuki sorumluluğu tamamen yazarlarına aittir.