Două puncte sub Opus 4.6, de cinci ori mai ieftin: Gemini 3.5 Flash rescrie socoteala

Google a livrat Gemini 3.5 Flash luni la 1,50 dolari pe milionul de token-uri de intrare şi 9 dolari pe milionul de ieşire. Noul model susţine peste 280 de token-uri de ieşire pe secundă, păstrează aceeaşi fereastră de context de un milion de token-uri ca predecesorul şi se aşază pe Artificial Analysis Intelligence Index la 55 de puncte, cu nouă peste Gemini 3 Flash. Marţi dimineaţă, un fir r/Anthropic deja punea graficul lângă cel al Claude Opus 4.6 şi întreba ce piaţa ocoleşte de şase luni: de la ce punct două puncte de avantaj pe un benchmark încetează să mai justifice un preţ de cinci ori mai mare?

Intelligence Index agregă un set de evaluări publice — raţionament, cunoaştere, programare, matematică şi rezolvare de sarcini agenţiate — într-o singură notă de la 1 la 100. Claude Opus 4.6, în mod de raţionament adaptiv, stă la 57. Gemini 3.5 Flash, lansat pe 19 mai, stă la 55. Saltul de nouă puncte de la o versiune la alta este cel mai mare pe care Flash l-a înregistrat vreodată dintr-o singură generaţie în alta, suficient pentru ca modelul nou să egaleze precedentul Sonnet al Anthropic la inteligenţă brută la o fracţiune din costul lui Sonnet.

Încadrarea „mai deştept” folosită de firul de pe Reddit exagerează diferenţa în favoarea lui Flash. Pe Intelligence Index pur, Opus 4.6 rămâne înainte cu două puncte. Graficul care a rupt firul nu este Intelligence Index în sine. Este vederea eficienţă-inteligenţă faţă de cost, în care axa face altă treabă şi în care Flash 3.5 nu doar îl bate pe Opus 4.6. Stă într-o categorie în care nimeni altcineva nu e prin apropiere.

Opus 4.6 cere în jur de 6,25 de dolari pe milionul de token-uri de intrare şi 25 pe milionul de ieşire. Flash cere 1,50 şi 9. Pentru o sarcină de chat cu greutate de doi la unu în favoarea ieşirii, raportul efectiv stă mai aproape de 4,5x decât de „cinci ori” rotund din titlul firului. Rotunjirea este onestă. Viteza înrăutăţeşte tabloul pentru nava-amiral: Flash 3.5 ţine peste 280 de token-uri de ieşire pe secundă, iar Opus 4.6 în modul de raţionament cu efort maxim merge la aproximativ o zecime din ritmul acesta pe aceeaşi suită de teste. Pentru produse în care un utilizator se uită fix la un cursor — asistenţi de cod, agenţi de suport, orice flux interactiv —, latenţa este o caracteristică pe care preţul nu o răscumpără.

Acum un an, argumentul pentru cumpărarea celui mai scump model încăpea pe o linie. Saltul de calitate la nivelul următor era suficient de larg încât diferenţa de preţ să fie o eroare de rotunjire faţă de valoarea livrată. Graficul pe care firul l-a postat este alt grafic. Costul marginal al ultimelor două puncte de inteligenţă a devenit întreaga decizie de preţ pentru sarcinile de producţie, iar eroarea de rotunjire aterizează acum mai aproape de 4,75 de dolari din fiecare şase cheltuiţi.

Există un argument curat pentru a păstra Opus 4.6 în stack. Raţionament cu context lung pe sute de pagini, bucle de agent în care erorile se acumulează la fiecare pas, analiză de documente în care o diferenţă de două puncte pe o notă agregată ascunde avantaje specifice mult mai mari. Opus rămâne modelul la care un inginer apelează atunci când modul de eşec este „răspunsul a fost greşit”, nu „răspunsul a venit târziu”. Cota de sarcini de producţie care arată aşa scade. Nu este zero, şi este exact felia în care cei 25 de dolari pe milion îşi câştigă salariul.

Turele de chat care mişcă majoritatea token-urilor facturabile — redactare, rezumare, clasificare, traducere, autocompletare de cod, raţionament către client — încap toate în raza lui Flash. Întrebarea pe care echipele de inginerie şi-o pun în fiecare trimestru nu mai este „care model este cel mai bun”. Este „care model dă mai mult pe dolar la latenţă acceptabilă”. La a doua întrebare, Flash câştigă acum cu o marjă care nu cere subtilităţi de interpretare.

Încadrarea secundară a firului, anume că peste tot consensul este că Opus 4.6 e mai bun decât 4.7, merită o tratare mai blândă. Este anecdotică. Ultimele două versiuni de Opus de la Anthropic au primit recenzii împărţite la evaluări de cod şi la rigoarea folosirii de unelte, cu echipe care raportează regresii pe bucle de agent lungi în 4.7 şi altele care raportează victorii clare pe sarcini identice. Ambele observaţii pot fi adevărate în acelaşi timp atunci când comportamentul este ajustat pe mai multe axe între versiuni minore. Cele două modele stau, în plus, la mai puţin de un punct unul de altul pe indexul public, aşa că ruptura comunităţii seamănă mai mult cu o ceartă de gust decât cu una de capacitate. Ce nu este în discuţie este că preţul niciunuia dintre cei doi Opus nu se clinteşte.

Semnalul mai profund din conversaţia de pe Reddit este ce nu discutau utilizatorii. Nimeni în fir nu a apărat preţul lui Opus pe principii generale. Apărările apărute erau specifice pe sarcină. „Opus mă bate în continuare pe această buclă de agent.” „Opus rămâne în pipeline-ul nostru de revizuire de documente.” Sunt reale, dar sunt apărări de sarcină, nu apărări de navă-amiral. O navă-amiral ar trebui să câştige pe ansamblu, nu pe o pistă anume.

Două puncte diferenţă de inteligenţă. De cinci ori preţul. De şase ori avantajul de viteză în sens invers. O fereastră de context de un milion de token-uri la 1,50 dolari milionul de intrare. Intrare multimodală, Elo pe sarcini agenţiate peste 1650, reducere de nouăzeci la sută pe intrarea pusă în cache. Răspunsul Anthropic în trimestrul următor îşi va spune propria poveste. Argumentul mai greu de scris, în mai 2026, este cel pe care un vânzător trebuie să-l ducă cu el într-o întâlnire cu un client.

Etichete: tech-en1, Anthropic, Google, AI, Artificial Analysis, benchmark-uri LLM