Viral BridgeBench-opslag hævder, at Claude Opus 4.6 blev ‘nerfed’, kritikere kalder det dårlig videnskab

  • Et viralt X-opslag påstod, at Claude Opus 4.6-hallucinationer steg med 98%.
  • Kritikere fandt, at sammenligningen brugte forskellige teststørrelser, ikke ens benchmarks.
  • Samme-opgave analyse viser minimal ændring, inden for normal AI-varians.

BridgeMind AI hævdede, at Anthropic’s Claude Opus 4.6 i al hemmelighed blev forringet efter en gentest af hallucinations-benchmarket. Det virale opslag har siden mødt skarp kritik for mangelfuld målemetode.

Påstanden satte gang i en bred debat om, hvorvidt AI-selskaber i det skjulte nedgraderer betalte modeller for at reducere omkostningerne.

BridgeMind hævder en 98% stigning i hallucinationer

BridgeMind, holdet bag BridgeBench-kodebenchmarket, postede at Claude Opus 4.6 var faldet fra anden- til tiendepladsen på deres hallucinations-rangliste. Nøjagtigheden var ifølge dem faldet fra 83,3% til 68,3%.

“CLAUDE OPUS 4.6 ER NERFET. BridgeBench har lige bevist det. I sidste uge var Claude Opus 4.6 nummer 2 på Hallucination-benchmarket med en nøjagtighed på 83,3%. I dag blev Claude Opus 4.6 gentestet og røg ned som nummer 10 på listen med kun 68,3% nøjagtighed,” skrev de.

Opslaget fremstillede det som bevis på “reduceret ræsonnementsniveau”. Men et nærmere kig på dataene viser et andet billede.

Kritikere kalder sammenligningen grundlæggende mangelfuld

Ifølge datalog Paul Calcraft er påstanden “utrolig dårlig videnskab” og fremhæver et alvorligt problem med metoden.

“Utrolig dårlig videnskab. I dag testede I Opus på 30 opgaver, og den tidligere score var kun på *6* opgaver. Resultater for de 6 samme opgaver: 85,4% score i dag mod 87,6% tidligere. Svaret skyldes primært *en enkelt* fejl uden gentagelse – nemt statistikstøj,” kommenterede Calcraft.

Den høje oprindelige score kom kun fra seks benchmark-opgaver. Den nye gentest udvidede testen til 30 opgaver.

På de seks opgaver, der gik igen, var præstationen næsten den samme — faldt kun fra 87,6% til 85,4%.

Det lille udsving skyldtes primært en enkelt ekstra fejl i én opgave. Uden gentagne test ligger det inden for den normale statistiske variation, man ser for AI-modeller.

Store sprogmodeller er ikke deterministiske, og ét dårligt output på et lille datasæt kan påvirke resultatet betydeligt.

Større frustrationer forstærker fortællingen

Alligevel ramte opslaget en nerve. Siden lanceringen af Claude Opus 4.6 i februar 2026 har den modtaget vedvarende klager over faldende kvalitet.

Udviklere oplever kortere svar, svagere instruktionsevne og lavere dybde i ræsonnementet især i travle perioder.

Noget af det skyldes bevidste produktjusteringer. Anthropic introducerede fleksible tænkningsindstillinger, hvor modellen selv kan tilpasse sin ressourceanvendelse. Standardniveauet for indsats blev senere sat til mellem, hvor effektivitet blev prioriteret over maksimal dybde.

En uafhængig analyse af mere end 6.800 Claude Code-sessioner viste, at ræsonnementsdybden faldt med omkring 67% i slutningen af februar.

Modellens forhold mellem fil-læsning før redigering af kode faldt fra 6,6 til 2,0. Det tyder på, at den forsøgte at rette kode, den knap nok havde gennemgået.

Hvad det betyder for AI-brugere

Det afspejler en voksende spænding i AI-branchen. Selskaber optimerer modellerne for omkostninger og skalerbarhed efter lancering, mens tunge brugere forventer konsekvent maksimal præstation. Forskellen i prioriteter svækker tilliden.

Ud fra de tilgængelige beviser kan BridgeBench-dataene ikke bevise en bevidst nedgradering. Sammenligningen mellem benchmarkene var usammenlignelig, og resultaterne på de overlappende opgaver var stort set ens.

Men den bagvedliggende frustration er ikke helt grundløs. Fleksible computer-indstillinger og ændringer i serviceniveau har i praksis ændret, hvordan Claude Opus 4.6 opfører sig. For udviklere, der er afhængige af ensartede resultater, har det betydning.

Anthropic har ikke udsendt en offentlig udtalelse om de specifikke BridgeBench-påstande pr. 13. april.

For at læse den seneste analyse af kryptovalutamarkedet fra BeInCrypto, klik her.

Ansvarsfraskrivelse

Alle oplysninger på vores hjemmeside offentliggøres i god tro og kun til generelle informationsformål. Enhver handling, der foretages af læserne på grundlag af oplysningerne på vores hjemmeside, er udelukkende på egen risiko.