Tehnologie

Noul model vocal al OpenAI gândește în interiorul aceluiași loop audio, iar tăcerea care dădea IA de gol dispare

Pauza e cea care te trădează. Până acum, IA prin voce funcționa așa — transcria vorbirea, trimitea textul către un model de limbaj, primea răspunsul și îl sintetiza înapoi în audio. Fiecare pas costă timp. Utilizatorul aude tăcere, intuiește că ceva se procesează în partea cealaltă și simte îmbinarea. Noul GPT-Realtime-2 de la OpenAI prăbușește acel pipeline într-un singur model în care raționamentul are loc în interiorul loop-ului audio însuși, iar îmbinarea dispare.
Susan Hill

OpenAI a lansat săptămâna aceasta trei modele audio noi în Realtime API — GPT-Realtime-2, GPT-Realtime-Translate și GPT-Realtime-Whisper. Capul de afiș e primul. Compania îl descrie ca primul model vocal cu „raționament de clasă GPT-5″, construit astfel încât un singur model să se ocupe de audio la intrare și la ieșire, cu gândirea țesută în conversație, nu strivită între pașii de transcriere și sinteză. Cifrele care îl susțin sunt concrete. Scorul la Big Bench Audio a sărit de la 81,4 la sută la 96,6 la sută față de modelul de referință anterior. Audio MultiChallenge a urcat de la 34,7 la sută la 48,5 la sută. Fereastra de context a crescut de la 32.000 de tokeni la 128.000 — destul spațiu cât să țină istoricul complet al unui client în timpul unui apel.

Mutarea structurală se vede mai greu în benchmark-uri. Trei ani la rând, oricine ridica un agent vocal pentru producție trebuia să coasă singur stack-ul — Whisper sau Deepgram pentru transcriere, un LLM pentru raționament, ElevenLabs sau Cartesia pentru voce, și prompting pentru a masca latența. Fiecare salt între componente costa milisecunde și claritate. Utilizatorul auzea un „lasă-mă să verific” introdus de un script, apoi nimic cât gândea modelul, și abia apoi răspunsul. GPT-Realtime-2 livrează acele schele drept comportament nativ. Preambulele permit agentului să spună „lasă-mă să verific” în timp ce apelează unelte, ca utilizatorul să nu rămână în tăcere. Apelurile paralele către unelte îi permit modelului să tragă mai multe cereri către backend simultan și să povestească pe care o execută. Comportamentul de recuperare prinde eșecurile și le scoate la suprafață în loc să înghețe conversația.

Suprafața de control care se deschide pentru dezvoltatori e partea cea mai interesantă. „Efortul de raționament” e configurabil — minimal, low, medium, high și xhigh — cu low ca implicit pentru a păstra latența mică la întrebările simple. Un agent care răspunde „la ce oră închideți?” nu are nevoie de raționament de clasă GPT-5. Un agent care duce un client printr-o dispută de rambursare are. Același model poate primi instrucțiuni cât de tare să gândească de la o tură la alta, ceea ce e o schimbare reală față de modelul anterior, unde adâncimea raționamentului era fixă, iar dezvoltatorul alegea între rapid și inteligent la deploy.

Scepticismul își are locul. „Raționament de clasă GPT-5″ e o linie de marketing, nu o afirmație verificabilă — fără benchmark-uri independente pe dialog realist, comparația rămâne în casă. Agenții vocali au un mod de eșec separat pe care benchmark-urile îl prind prost — momentul în care agentul spune ceva greșit cu voce calmă și firească. Mai bine raționament ajută, dar nu elimină problema. Și prețul cântărește. GPT-Realtime-2 costă 32 de dolari per milionul de tokeni audio la intrare și 64 per milion la ieșire. GPT-Realtime-Translate merge la 0,034 dolari pe minut, GPT-Realtime-Whisper la 0,017 pe minut. Suficient de ieftin pentru servicii pentru clienți de mare volum. Nu suficient de ieftin cât să-l folosești în produse de consum conversaționale fără a chibzui durata fiecărei sesiuni.

Contextul de deployment spune restul. Zillow a pornit căutarea de locuință prin voce în aceeași zi. Deutsche Telekom a desfășurat suport vocal tradus în direct pe paisprezece piețe europene. Cele două sunt exact cazul de utilizare pentru care OpenAI fixează prețul — conversații lungi, tranzacționale, dense în context, în care utilizatorul beneficiază de un agent care chiar gândește, nu doar caută. Priceline construiește sisteme care permit călătorilor să gestioneze rezervări de hotel și să urmărească întârzieri de zbor în întregime prin voce. Modelul din spatele numelor pe care OpenAI le scoate primele e limpede — clienții citați sunt cei ale căror sisteme vocale anterioare funcționau cel mai prost — call center-uri, linii de suport, călătorii tranzacționale. Locurile în care utilizatorul țipă astăzi „operator” în telefon.

Modelele sunt disponibile în Realtime API de acum. Îmbunătățirile vocale pentru ChatGPT rămân în așteptare — „Stați pe fază, gătim”, a spus OpenAI. Sam Altman a încadrat lansarea în jurul unei deplasări de comportament — utilizatorii apelează tot mai des la voce cu IA când au nevoie să „descarce” mult context. Dacă tiparul se ține, distanța între IA prin voce și IA prin text începe să se închidă — iar îmbinarea care trăda IA la telefon devine mai greu de auzit.

Discuție

Există 0 comentarii.