Tehnologie

Claude Opus 4.8 prinde de patru ori mai multe erori în propriul cod

Susan Hill

Anthropic și-a actualizat cel mai capabil model la Claude Opus 4.8, iar schimbarea principală nu e un creier mai mare, ci unul mai prudent. Compania spune că modelul are de aproximativ patru ori mai puține șanse decât predecesorul să lase necomentate defecte în codul pe care îl scrie și că semnalează mai des părțile unei sarcini de care nu e sigur. Pentru cine dă o muncă reală unei IA, fie că e vorba de programare, de o analiză sau de operarea unui computer, această fiabilitate e caracteristica ce contează cu adevărat.

Slăbiciunea agenților de IA de azi nu e prostia, ci încrederea. Produc rezultate care par finalizate și se citesc lin, în timp ce cară erori în tăcere, iar un sistem lăsat singur tinde să clădească pasul următor pe greșeala anterioară. Dă-i unui agent o sarcină în mai mulți pași și o singură presupunere greșită la început se poate propaga în tot ce urmează, așa că munca ajunge cu aer de gata și se dovedește stricată fără să se observe. Un model care își arată propriile îndoieli, în loc să le ascundă, e mai ușor de supravegheat, fiindcă omul știe unde să se uite.

Dovada cea mai clară e în cod. Anthropic raportează că Opus 4.8 lasă să treacă mult mai puține defecte în codul pe care îl produce fără să le marcheze, acel bug tăcut care apare în producție, nu la revizuire. Firma de investiții Bridgewater Associates, printre primele care l-au testat, a spus că modelul semnala din proprie inițiativă probleme atât la intrările, cât și la rezultatele unei analize, ceva ce alte sisteme ratau în mod obișnuit. În munca de cunoaștere și în finanțe, eroarea periculoasă e tocmai cea pe care nimeni nu o prinde la timp.

Cifrele din benchmarkuri susțin încadrarea fără a fi miezul. Opus 4.8 ar fi obținut 69,2 la sută la SWE-Bench Pro, un test construit pe sarcini reale de inginerie software, înaintea lui GPT-5.5 de la OpenAI și a lui Gemini 3.1 Pro de la Google. În măsurătorile proprii ale Anthropic, întrece orice model Opus anterior la un test de programare pe fiecare nivel de efort și a stabilit cel mai bun rezultat înregistrat vreodată de companie la un examen de raționament juridic. Avansurile sunt reale, dar înguste, iar victoriile la benchmark prevăd prost cum se poartă un model când face muncă măruntă toată ziua.

Modelul vine cu unelte noi. O funcție în previzualizare de cercetare în Claude Code, numită dynamic workflows, îi permite lui Opus să planifice o lucrare mare și apoi să ruleze sute de subagenți în paralel într-o singură sesiune, gândită pentru migrări ce acoperă sute de mii de linii de cod și folosind ca etalon suita de teste pe care proiectul o are deja. În plus, un nou control în Claude.ai și în mediul Cowork al companiei permite reglarea cât efort, și câte tokenuri, alocă modelul unui răspuns.

Rezervele stau lipite de promisiuni. Câștigurile de fiabilitate se sprijină în mare parte pe testele interne ale Anthropic, iar o cifră precum de patru ori mai puțin e o măsurătoare proprie, nu una auditată independent. Onestitatea e și ea greu de verificat din afară, fiindcă un model poate să-și anunțe incertitudinea și totuși să greșească, sau să ridice steagul la lucrul nepotrivit. Dynamic workflows vine doar ca previzualizare, nu ca funcție finită, iar povestea vitezei e mai puțin generoasă decât sună, pentru că modul rapid costă dublul tarifului standard și e numit mai ieftin doar față de prețuri premium anterioare.

Pentru cine se uită la cost, accesul standard rămâne la cinci dolari pe milionul de tokenuri de intrare și douăzeci și cinci pe milionul de ieșire, la fel ca Opus-ul anterior. Modul rapid merge la aproximativ de două ori și jumătate viteza pentru zece și cincizeci de dolari pe milion, ceea ce face din noul control al efortului deopotrivă o unealtă de buget și un buton de calitate. Claude Opus 4.8 e disponibil de pe acum prin API-ul pentru dezvoltatori al Anthropic sub numele claude-opus-4-8, iar compania spune că îl lansează peste tot în aceeași zi. A apărut joi, la circa șase săptămâni după Opus 4.7, un interval neobișnuit de scurt care a urmat unei primiri călduțe a acelei versiuni și unei serii de lansări rivale de la OpenAI și Google. Adevărata probă e dacă un model antrenat să se îndoiască de sine se dovedește mai util în munca zilnică decât unul antrenat să strălucească într-un clasament, iar verdictul va veni de la agenții pe care oamenii chiar îi lasă să ruleze.

Discuție

Există 0 comentarii.