Viral BridgeBench Paylaşımı: Claude Opus 4.6 İçin ‘Zayıflatıldı’ İddiası, Eleştirmenler Bilim Dışı Diyor

  • Viral bir X paylaşımı Claude Opus 4.6 halüsinasyonlarında %98 artış olduğunu iddia etti.
  • Eleştirmenler kullanılan karşılaştırmada farklı test boyutları ve eşit olmayan kriterler buldu.
  • Aynı görev analizinde anlamlı bir değişiklik yok. Bu durum normal AI değişkenliği içinde.
Promo

BridgeMind AI, Claude Opus 4.6 modelinin halüsinasyon testinde yeniden değerlendirilmesinin ardından gizlice işlevlerinin azaltıldığını iddia etti. Ancak viral paylaşım yöntemindeki hatalar nedeniyle ciddi eleştiriler aldı.

Bu iddia, kripto para topluluğunda yapay zeka şirketlerinin ücretli modelleri gizlice zayıflatıp maliyet düşürdüğü tartışmasını alevlendirdi.

BridgeMind’dan Halüsinasyonlarda %98’lik Artış İddiası!

BridgeBench kodlama benchmark’ının arkasındaki ekip olan BridgeMind, Claude Opus 4.6’nın halüsinasyon sıralamasında ikinci sıradan onuncu sıraya gerilediğini duyurdu. İddiaya göre modelin doğruluk oranı da %83,3’ten %68,3’e düştü.

‘CLAUDE OPUS 4.6 GÜNCELLEME İLE ZAYIFLADI. BridgeBench bunu kanıtladı. Geçen hafta Claude Opus 4.6, Halüsinasyon benchmark’ında %83,3 doğrulukla ikinci olmuştu. Bugün yeniden test edildi ve liderlik tablosunda sadece %68,3 doğrulukla onuncu sıraya geriledi,’ diye yazdılar.

Paylaşım, bunu ‘azalan akıl yürütme seviyesi’ olarak yorumladı. Fakat veriye daha yakından bakınca tablo farklı görünüyor.

Eleştirmenler İddianın Temelden Hatalı Olduğunu Söylüyor

Bilgisayar bilimci Paul Calcraft’a göre iddia ‘oldukça kötü bir bilim örneği’ ve metodolojide temel bir sorun var.

‘Çok kötü bir bilimsel yöntem Bugün Opus’u 30 görevde test ettiniz, önceki skor yalnızca *6* görevdeydi. Ortak 6 görevde sonuç: bugün %85,4, önce ise %87,6. Fark neredeyse tamamen *tek* bir yanlış üretimden kaynaklanıyor, yinelenmeyen – ve bu da istatistiksel oynaklıkta normal,’ diye yorumladı Calcraft.

Aslında en yüksek skor yalnızca altı benchmark görevinde elde edilmişti. Yeni testte benchmark 30 göreve çıkarıldı.

Ortak 6 görevde başarı neredeyse aynı kaldı: %87,6’dan %85,4’e hafif bir düşüş oldu.

Bu küçük fark da neredeyse tamamen tek bir yanlış üretimden kaynaklandı. Üstelik test tekrar edilmediği için, böyle bir değişim yapay zeka modellerinde istatistiksel olarak çok normal kabul ediliyor.

Büyük dil modelleri deterministik değildir. Küçük bir örneklemde bir olumsuz çıktı bile sonucu anlamlı şekilde değiştirebilir.

Ses Getiren Paylaşımın Altında Yatan Sebepler Neler?

Yine de bu paylaşım birçok kullanıcıda yankı buldu. Claude Opus 4.6, şubat 2026’daki lansmanından bu yana sürekli kalite kaybı şikayetleriyle anılıyor.

Geliştiriciler, yoğun saatlerde yanıtların kısaldığını, talimatların daha az takip edildiğini ve akıl yürütme derinliğinin azaldığını aktarıyor.

Bunun bir kısmı, kasıtlı olarak yapılan ürün değişikliklerinden kaynaklanıyor. Anthropic adaptif düşünme kontrolleri sayesinde modelin kendi düşünme bütçesini otomatik ayarlamasına imkan tanıdı. Daha sonra ise varsayılan çaba seviyesi orta düzeye çekildi ve maksimum derinlik yerine verimlilik önceliklendirildi.

Bağımsız bir analize göre 6.800’den fazla Claude Code oturumu incelendiğinde akıl yürütme derinliğinin şubat sonuna kadar yaklaşık %67 azaldığı görüldü.

Kod düzenlemeden önce modelin dosya okuma oranı 6,6’dan 2,0’ye düştü. Bu da modelin önceki kadar incelemeden kod üzerinde düzeltme girişiminde bulunduğunu gösteriyor.

AI Kullanıcıları İçin Tablo Ne Anlama Geliyor?

Bu tablo, yapay zeka sektöründeki büyüyen bir gerilimi yansıtıyor. Şirketler ürünlerini piyasaya sürdükten sonra modeli maliyet ve ölçek optimizasyonu için sürekli güncelliyor. Ancak yoğun kullanıcılar her zaman aynı zirve performansı bekliyor. İşte bu öncelik farkı zamanla güveni sarsıyor.

Elde mevcut bulgulara göre BridgeBench verileri, kasıtlı bir zayıflatma yapıldığını kesin olarak göstermiyor. Benchmark karşılaştırmasında elma ile armutlar kıyaslanmış; ortak sonuçlar ise neredeyse aynı.

Ancak temelindeki rahatsızlık tamamen yersiz değil. Çünkü adaptif compute kontrolleri ve hizmet düzeyi optimizasyonları, Claude Opus 4.6’nın günlük kullanımda davranışını değiştirdi. Tutarlı çıktı bekleyenler için bu detaylar önemli.

Anthropic, 13 nisan itibarıyla BridgeBench’teki iddialarla ilgili kamuya açık bir açıklama yapmadı.


BeInCrypto'nun en güncel kripto para piyasası analizlerini okumak için buraya tıklayın.

Feragatname

Sorumluluk Reddi: Trust Project yönergelerine uygun olarak BeInCrypto, haberlerde tarafsız ve şeffaf raporları garanti eder. Bu haber makalesi doğru ve güncel bilgi vermeyi amaçlamaktadır. Ancak okuyucuların bu içeriğe dayalı herhangi bir karar vermeden önce tüm bilgileri bağımsız olarak doğrulamaları ve bir profesyonele danışmaları tavsiye edilir.

Sponsorlu
Sponsorlu