Claude Mythos, Uzman Siber Görevlerin %73’ünü Çözerek Yapay Zeka Sınırını Aşıyor

  • Claude Mythos Preview, simüle edilen bir kurumsal siber saldırıyı tamamlayan ilk yapay zeka oldu.
  • 2025’ten önce hiçbir yapay zekanın başaramadığı üst düzey hacker’lık zorluklarının %73’ünü çözdü.
  • Anthropic, 7 Nisan’da Claude Mythos Preview’u duyurdu.
Promo

Anthropic’in Claude Mythos Preview modeli, Birleşik Krallık Yapay Zeka Güvenlik Enstitüsü (AI Security Institute – AISI) tarafından yapılan yeni değerlendirmelere göre, simüle edilen bir kurumsal ağ saldırısını başarıyla gerçekleştiren ilk yapay zeka modeli oldu.

7 Nisan’da modelin duyurulmasının üzerinden sadece birkaç gün geçmişken paylaşılan bu bulgular, yapay zekanın siber kapasitesinin artık dünya genelinde güvenlik ekiplerinin bir an önce harekete geçmesini gerektiren seviyeye ulaştığına işaret ediyor.

Claude Mythos Nedir?

Anthropic, 7 Nisan’da Claude Mythos Preview modelini tanıttı ancak geniş kapsamlı bir halka açık lansman yapmadı. Ekip, bunun yerine modelin gelişmiş yeteneklerini analiz edip buna hazırlık yapılabilmesi için sınırlı erişimi güvenlik araştırmacılarına sağlıyor.

‘Bu model genel olarak çok güçlü bir performans sergiliyor, fakat özellikle bilgisayar güvenliği görevlerinde dikkat çekici derecede yetenekli. Buna yanıt olarak, Mythos Preview’u dünyanın en kritik yazılımlarını korumak ve sektör genelinde siber saldırganların bir adım önünde olabilmek için hepimizin uygulaması gerekecek yeni güvenlik pratiklerine hazırlık yapmak amacıyla Project Glasswing’i başlattık.’ açıklamasına yer verildi. Ayrıntılı bilgiye buradan ulaşabilirsiniz.

Bizi X’te takip edin — Gelişmeleri anında öğrenin

Sponsorlu
Sponsorlu

Bu gelişme şimdiden hem teknoloji hem politika çevrelerinde büyük ilgi topladı. Reuters’ın haberine göre konuyla ilgili bilgi sahibi kaynaklara dayanılarak, ABD Hazine Bakanı Scott Bessent ve ABD Merkez Bankası (Fed) Başkanı Jerome Powell, büyük banka CEO’larıyla acil bir toplantı yaptı. Toplantıda, modelin yaratabileceği olası siber riskler konusunda uyarıda bulundular.

Claude Mythos Preview Nasıl Bir Performans Gösterdi?

Birleşik Krallık Bilim, İnovasyon ve Teknoloji Bakanlığı’na bağlı olarak faaliyet gösteren AI Security Institute (AISI), Anthropic’in Claude Mythos Preview modelinin siber güvenlik yeteneklerini test etmek için çeşitli analizler yaptı.

İlk aşamada, güvenlik açıklarını tespit edip gizlenmiş “flag”leri bulmakla görevlendirilen “capture-the-flag” (CTF) testleri uygulandı. Mythos, uzman seviyesindeki görevlerde %73 oranında başarı elde etti. Daha önce hiçbir model bu başarı oranına Nisan 2025’ten önce ulaşamamıştı.

Claude Mythos Siber Saldırı Yetenekleri
Claude Mythos Siber Saldırı Yetenekleri. Kaynak: AISI

Ayrıca AISI, 32 adımlık bir kurumsal ağ saldırısı simülasyonu olan “The Last Ones” (TLO) senaryosunu oluşturdu. İnsan siber güvenlik uzmanlarının bu testte başarılı olabilmesi için ortalama 20 saat gerekiyor.

Mythos Preview, bu simülasyonun tamamını 10 denemenin 3’ünde başarıyla tamamladı. Ortalama olarak ise 32 saldırı adımından 22’sini geçebildi. Bir sonraki en başarılı model olan Claude Opus 4.6 ise ortalama yalnızca 16 adımı geçebildi.

Mythos Preview’ın bir siber ortamdaki başarısı, en azından o ortama giriş sağlandığında, küçük ve zayıf şekilde korunan şirket sistemlerine otonom saldırı düzenleyebilecek kapasitede olduğunu gösteriyor. Ancak test ortamlarımız gerçek dünyadaki ortamlara göre bazı farklılıklara sahip, bu da onları daha kolay hedefler haline getiriyor dedi ekip.

Anthropic’in kendi ‘red team’ testlerinde de Claude Mythos Preview’ın, kullanıcıdan açıkça talimat aldığı durumda, tüm büyük işletim sistemlerinde ve önde gelen internet tarayıcılarında ‘zero-day’ adı verilen keşfedilmemiş güvenlik açıklarını tespit edip istismar edebildiği görüldü.

Burada paylaşabileceklerimiz sınırlı. Bulduğumuz güvenlik açıklarının %99’undan fazlası henüz yamalanmadı, bu yüzden bunların detaylarını açıklamamız sorumsuzluk olur dedi ekip.

AISI, kurumların temel siber güvenlik önlemlerine öncelik vermesi gerektiğini vurguladı. Bunlar arasında düzenli yazılım güncellemeleri, katı erişim kontrolleri, güçlü güvenlik yapılandırmaları ve kapsamlı kayıt tutma yer alıyor.

YouTube kanalımıza abone olun — Liderler ve gazetecilerden piyasa analizleri izleyin


BeInCrypto'nun en güncel kripto para piyasası analizlerini okumak için buraya tıklayın.

Feragatname

Sorumluluk Reddi: Trust Project yönergelerine uygun olarak BeInCrypto, haberlerde tarafsız ve şeffaf raporları garanti eder. Bu haber makalesi doğru ve güncel bilgi vermeyi amaçlamaktadır. Ancak okuyucuların bu içeriğe dayalı herhangi bir karar vermeden önce tüm bilgileri bağımsız olarak doğrulamaları ve bir profesyonele danışmaları tavsiye edilir.

Sponsorlu
Sponsorlu