Paylaş

Viral BridgeBench Paylaşımı: Claude Opus 4.6 İçin ‘Zayıflatıldı’ İddiası, Eleştirmenler Bilim Dışı Diyor

Google’da bizi tercih edin

Yazan ve Düzenleyen

Lockridge Okoth

Yayınlandı:13 Nisan 2026, 16:13 TRT

Viral bir X paylaşımı Claude Opus 4.6 halüsinasyonlarında %98 artış olduğunu iddia etti.
Eleştirmenler kullanılan karşılaştırmada farklı test boyutları ve eşit olmayan kriterler buldu.
Aynı görev analizinde anlamlı bir değişiklik yok. Bu durum normal AI değişkenliği içinde.

#Yapay Zeka Şirketleri

#Yapay Zeka Haberleri

#Yapay Zeka Değerlendirmeleri

BridgeMind AI, Claude Opus 4.6 modelinin halüsinasyon testinde yeniden değerlendirilmesinin ardından gizlice işlevlerinin azaltıldığını iddia etti. Ancak viral paylaşım yöntemindeki hatalar nedeniyle ciddi eleştiriler aldı.

Bu iddia, kripto para topluluğunda yapay zeka şirketlerinin ücretli modelleri gizlice zayıflatıp maliyet düşürdüğü tartışmasını alevlendirdi.

BridgeMind’dan Halüsinasyonlarda %98’lik Artış İddiası!

BridgeBench kodlama benchmark’ının arkasındaki ekip olan BridgeMind, Claude Opus 4.6’nın halüsinasyon sıralamasında ikinci sıradan onuncu sıraya gerilediğini duyurdu. İddiaya göre modelin doğruluk oranı da %83,3’ten %68,3’e düştü.

‘CLAUDE OPUS 4.6 GÜNCELLEME İLE ZAYIFLADI. BridgeBench bunu kanıtladı. Geçen hafta Claude Opus 4.6, Halüsinasyon benchmark’ında %83,3 doğrulukla ikinci olmuştu. Bugün yeniden test edildi ve liderlik tablosunda sadece %68,3 doğrulukla onuncu sıraya geriledi,’ diye yazdılar.

Paylaşım, bunu ‘azalan akıl yürütme seviyesi’ olarak yorumladı. Fakat veriye daha yakından bakınca tablo farklı görünüyor.

Eleştirmenler İddianın Temelden Hatalı Olduğunu Söylüyor

Bilgisayar bilimci Paul Calcraft’a göre iddia ‘oldukça kötü bir bilim örneği’ ve metodolojide temel bir sorun var.

‘Çok kötü bir bilimsel yöntem Bugün Opus’u 30 görevde test ettiniz, önceki skor yalnızca *6* görevdeydi. Ortak 6 görevde sonuç: bugün %85,4, önce ise %87,6. Fark neredeyse tamamen *tek* bir yanlış üretimden kaynaklanıyor, yinelenmeyen – ve bu da istatistiksel oynaklıkta normal,’ diye yorumladı Calcraft.

Aslında en yüksek skor yalnızca altı benchmark görevinde elde edilmişti. Yeni testte benchmark 30 göreve çıkarıldı.

Ortak 6 görevde başarı neredeyse aynı kaldı: %87,6’dan %85,4’e hafif bir düşüş oldu.

Despicable clout chasing. They tested Opus today on 30 tasks, previous Opus 4.6 score was on just *6* tasks. DIFFERENT BENCHMARK

6 tasks in common results: 85.4% score today vs. 87.6% prev. Swing is mostly from a *single* fabrication without repeats – easily statistical noise https://t.co/wmFfAfNmEW pic.twitter.com/opUxoVevpP
— Paul Calcraft (@paul_cal) April 12, 2026

Bu küçük fark da neredeyse tamamen tek bir yanlış üretimden kaynaklandı. Üstelik test tekrar edilmediği için, böyle bir değişim yapay zeka modellerinde istatistiksel olarak çok normal kabul ediliyor.

Büyük dil modelleri deterministik değildir. Küçük bir örneklemde bir olumsuz çıktı bile sonucu anlamlı şekilde değiştirebilir.

Ses Getiren Paylaşımın Altında Yatan Sebepler Neler?

Yine de bu paylaşım birçok kullanıcıda yankı buldu. Claude Opus 4.6, şubat 2026’daki lansmanından bu yana sürekli kalite kaybı şikayetleriyle anılıyor.

Geliştiriciler, yoğun saatlerde yanıtların kısaldığını, talimatların daha az takip edildiğini ve akıl yürütme derinliğinin azaldığını aktarıyor.

Bunun bir kısmı, kasıtlı olarak yapılan ürün değişikliklerinden kaynaklanıyor. Anthropic adaptif düşünme kontrolleri sayesinde modelin kendi düşünme bütçesini otomatik ayarlamasına imkan tanıdı. Daha sonra ise varsayılan çaba seviyesi orta düzeye çekildi ve maksimum derinlik yerine verimlilik önceliklendirildi.

New on the API: we're giving developers better control over model effort and more flexibility for long-running agents.

Adaptive thinking lets Claude calibrate its reasoning depth to each task, and context compaction keeps long-running tasks from hitting limits.
— Claude (@claudeai) February 5, 2026

Bağımsız bir analize göre 6.800’den fazla Claude Code oturumu incelendiğinde akıl yürütme derinliğinin şubat sonuna kadar yaklaşık %67 azaldığı görüldü.

Kod düzenlemeden önce modelin dosya okuma oranı 6,6’dan 2,0’ye düştü. Bu da modelin önceki kadar incelemeden kod üzerinde düzeltme girişiminde bulunduğunu gösteriyor.

AI Kullanıcıları İçin Tablo Ne Anlama Geliyor?

Bu tablo, yapay zeka sektöründeki büyüyen bir gerilimi yansıtıyor. Şirketler ürünlerini piyasaya sürdükten sonra modeli maliyet ve ölçek optimizasyonu için sürekli güncelliyor. Ancak yoğun kullanıcılar her zaman aynı zirve performansı bekliyor. İşte bu öncelik farkı zamanla güveni sarsıyor.

Elde mevcut bulgulara göre BridgeBench verileri, kasıtlı bir zayıflatma yapıldığını kesin olarak göstermiyor. Benchmark karşılaştırmasında elma ile armutlar kıyaslanmış; ortak sonuçlar ise neredeyse aynı.

Ancak temelindeki rahatsızlık tamamen yersiz değil. Çünkü adaptif compute kontrolleri ve hizmet düzeyi optimizasyonları, Claude Opus 4.6’nın günlük kullanımda davranışını değiştirdi. Tutarlı çıktı bekleyenler için bu detaylar önemli.

Anthropic, 13 nisan itibarıyla BridgeBench’teki iddialarla ilgili kamuya açık bir açıklama yapmadı.

BeInCrypto'nun en güncel kripto para piyasası analizlerini okumak için buraya tıklayın .

Feragatname

Sorumluluk Reddi: Trust Project yönergelerine uygun olarak BeInCrypto, haberlerde tarafsız ve şeffaf raporları garanti eder. Bu haber makalesi doğru ve güncel bilgi vermeyi amaçlamaktadır. Ancak okuyucuların bu içeriğe dayalı herhangi bir karar vermeden önce tüm bilgileri bağımsız olarak doğrulamaları ve bir profesyonele danışmaları tavsiye edilir.

Sponsorlu

Sonrakini oku

Charles Hoskinson’a Göre BIP-361 Satoshi’nin Bitcoin’ini Kurtaramaz

Haberler

Teknoloji

11 saat önce

Charles Hoskinson’a Göre BIP-361 Satoshi’nin Bitcoin’ini Kurtaramaz