Yapay zeka, Skeleton Key "İskelet Anahtarı" nedir?
BİLİM - TEKNOLOJİMicrosoft, dünyanın önde gelen yapay zeka sohbet botlarını etkileyen yeni bir güvenlik açığı olan Skeleton Key'i açıkladı. Bu teknik, AI modellerinin kendi koruma mekanizmalarını atlayarak zararlı içerik üretmesine olanak tanıyor.
Microsoft, yapay zeka modellerine yönelik yeni bir güvenlik açığı keşfettiğini duyurdu. "Skeleton Key" olarak adlandırılan bu teknik, OpenAI'nin ChatGPT, Google'ın Gemini ve Anthropic'in Claude gibi dünyanın en popüler yapay zeka sohbet botlarını etkileyebiliyor.
Jailbreakler ve Koruma Sistemleri
Yapay zeka sohbet botlarının zarar vermesini önlemek için geliştiriciler, "guardrails" olarak bilinen düzenleme araçları kullanıyor. Bu araçlar, modellerin önyargılardan etkilenmesini, kullanıcı gizliliğini ihlal etmesini veya olumsuz amaçlarla kullanılmasını engellemeyi amaçlıyor. Ancak bazı durumlarda belirli sorularla bu korumaları atlamak mümkün olabiliyor. Bu tür girişimlere ise "jailbreak" deniyor.
Skeleton Key "İskelet Anahtarı" Nedir?
Microsoft Azure'in Baş Teknoloji Sorumlusu Mark Russinovich, Skeleton Key'in AI modelini kendi korumalarını dikkate almadan manipüle etmeye yönelik çoklu adımlı bir strateji kullandığını belirtti. Bu teknik, AI modelinin normalde engellediği davranışları üretmesine izin veriyor ve potansiyel olarak zararlı içerik üretimine yol açabiliyor.
Skeleton Key'in Kullanımı ve Etkileri
Skeleton Key kullanıcıları, AI modelinin davranışlarını alt etmeye yönelik sorular kullanarak korumaları atlayabiliyor. Bu durum, modelin zararlı içerik uyarısı verse de, kullanıcıyı istenmeyen içerik üretmeye ikna edebiliyor. Örneğin, kullanıcıların el yapımı patlayıcılar gibi zararlı bilgiler talep ettiği durumlarda, chatbot önce güvenli ve yardımcı olma programlanmış olduğunu belirterek uyarıda bulunuyor. Ancak kullanıcı eğitim amaçlı olduğunu iddia ederse ve chatbot'un davranışını güncellemesi teklif edilirse, model orijinal kurallarını ihlal edebiliyor.
Microsoft'un çözüm önerileri arasında zararlı veya kötü niyetli girişleri tespit etmek için giriş filtreleme, jailbreak teknikleri denendiğinde ek güvenlik sağlamak için sistem mesajları, AI modelin kendi güvenlik kriterlerini ihlal eden soru cevaplarını engellemek için çıkış filtreleme ve guardrails'lerin ihlal edilme girişimlerini tanımak için AI tespitini kullanan kötüye kullanım izleme bulunuyor.
Microsoft, bu yazılım güncellemelerini kendi AI teknolojisine ve büyük dil modellerine uyguladığını doğruladı.
İlginizi Çekebilir