Viral BridgeBench-opslag hævder, at Claude Opus 4.6 blev 'nerfed', kritikere kalder det dårlig videnskab

Viral BridgeBench-opslag hævder, at Claude Opus 4.6 blev ‘nerfed’, kritikere kalder det dårlig videnskab

Skrevet og redigeret af

Udgivet:13. april 2026, 13.13 UTC

Et viralt X-opslag påstod, at Claude Opus 4.6-hallucinationer steg med 98%.
Kritikere fandt, at sammenligningen brugte forskellige teststørrelser, ikke ens benchmarks.
Samme-opgave analyse viser minimal ændring, inden for normal AI-varians.

BridgeMind AI hævdede, at Anthropic’s Claude Opus 4.6 i al hemmelighed blev forringet efter en gentest af hallucinations-benchmarket. Det virale opslag har siden mødt skarp kritik for mangelfuld målemetode.

Påstanden satte gang i en bred debat om, hvorvidt AI-selskaber i det skjulte nedgraderer betalte modeller for at reducere omkostningerne.

BridgeMind hævder en 98% stigning i hallucinationer

BridgeMind, holdet bag BridgeBench-kodebenchmarket, postede at Claude Opus 4.6 var faldet fra anden- til tiendepladsen på deres hallucinations-rangliste. Nøjagtigheden var ifølge dem faldet fra 83,3% til 68,3%.

“CLAUDE OPUS 4.6 ER NERFET. BridgeBench har lige bevist det. I sidste uge var Claude Opus 4.6 nummer 2 på Hallucination-benchmarket med en nøjagtighed på 83,3%. I dag blev Claude Opus 4.6 gentestet og røg ned som nummer 10 på listen med kun 68,3% nøjagtighed,” skrev de.

Opslaget fremstillede det som bevis på “reduceret ræsonnementsniveau”. Men et nærmere kig på dataene viser et andet billede.

Kritikere kalder sammenligningen grundlæggende mangelfuld

Ifølge datalog Paul Calcraft er påstanden “utrolig dårlig videnskab” og fremhæver et alvorligt problem med metoden.

“Utrolig dårlig videnskab. I dag testede I Opus på 30 opgaver, og den tidligere score var kun på *6* opgaver. Resultater for de 6 samme opgaver: 85,4% score i dag mod 87,6% tidligere. Svaret skyldes primært *en enkelt* fejl uden gentagelse – nemt statistikstøj,” kommenterede Calcraft.

Den høje oprindelige score kom kun fra seks benchmark-opgaver. Den nye gentest udvidede testen til 30 opgaver.

På de seks opgaver, der gik igen, var præstationen næsten den samme — faldt kun fra 87,6% til 85,4%.

Despicable clout chasing. They tested Opus today on 30 tasks, previous Opus 4.6 score was on just *6* tasks. DIFFERENT BENCHMARK

6 tasks in common results: 85.4% score today vs. 87.6% prev. Swing is mostly from a *single* fabrication without repeats – easily statistical noise https://t.co/wmFfAfNmEW pic.twitter.com/opUxoVevpP
— Paul Calcraft (@paul_cal) April 12, 2026

Det lille udsving skyldtes primært en enkelt ekstra fejl i én opgave. Uden gentagne test ligger det inden for den normale statistiske variation, man ser for AI-modeller.

Store sprogmodeller er ikke deterministiske, og ét dårligt output på et lille datasæt kan påvirke resultatet betydeligt.

Større frustrationer forstærker fortællingen

Alligevel ramte opslaget en nerve. Siden lanceringen af Claude Opus 4.6 i februar 2026 har den modtaget vedvarende klager over faldende kvalitet.

Udviklere oplever kortere svar, svagere instruktionsevne og lavere dybde i ræsonnementet især i travle perioder.

Noget af det skyldes bevidste produktjusteringer. Anthropic introducerede fleksible tænkningsindstillinger, hvor modellen selv kan tilpasse sin ressourceanvendelse. Standardniveauet for indsats blev senere sat til mellem, hvor effektivitet blev prioriteret over maksimal dybde.

New on the API: we're giving developers better control over model effort and more flexibility for long-running agents.

Adaptive thinking lets Claude calibrate its reasoning depth to each task, and context compaction keeps long-running tasks from hitting limits.
— Claude (@claudeai) February 5, 2026

En uafhængig analyse af mere end 6.800 Claude Code-sessioner viste, at ræsonnementsdybden faldt med omkring 67% i slutningen af februar.

Modellens forhold mellem fil-læsning før redigering af kode faldt fra 6,6 til 2,0. Det tyder på, at den forsøgte at rette kode, den knap nok havde gennemgået.

Hvad det betyder for AI-brugere

Det afspejler en voksende spænding i AI-branchen. Selskaber optimerer modellerne for omkostninger og skalerbarhed efter lancering, mens tunge brugere forventer konsekvent maksimal præstation. Forskellen i prioriteter svækker tilliden.

Ud fra de tilgængelige beviser kan BridgeBench-dataene ikke bevise en bevidst nedgradering. Sammenligningen mellem benchmarkene var usammenlignelig, og resultaterne på de overlappende opgaver var stort set ens.

Men den bagvedliggende frustration er ikke helt grundløs. Fleksible computer-indstillinger og ændringer i serviceniveau har i praksis ændret, hvordan Claude Opus 4.6 opfører sig. For udviklere, der er afhængige af ensartede resultater, har det betydning.

Anthropic har ikke udsendt en offentlig udtalelse om de specifikke BridgeBench-påstande pr. 13. april.