OpenAI revolucija: GPT-Realtime-2 razmišlja dok pričate s njim, GPT-Realtime-Translate prevodi u hodu na 70 jezika, a GPT-Realtime-Whisper piše dok vi govorite — sve to živo, bez pauze, bez čekanja.
Negde u serverskoj sali OpenAI-a aktivirana su tri nova modela koja tiho, ali sigurno, pomeraju granicu između razgovora s čovekom i razgovora s mašinom. Nisu ovo novi chatbotovi. Ovo su glasovni agenti koji — po prvi put — zaista slušaju, razmišljaju i reaguju dok vi još govorite.
Zvuči kao reklama? Razumemo skepticizam. Ali brojevi i kompanije koje stoje iza testiranja govore drugačije.
GPT-Realtime-2: Kada mašina kaže „daj mi sekund"
Zamislite da zovete korisničku podršku i agent vam kaže: „Trenutak, proveravam vaš nalog." Ništa neobično — osim što taj agent nije čovek. To je GPT-Realtime-2, i ta mala fraza nije slučajna. OpenAI ju je svesno ugradio u model.
Zovu ih preambles — kratke rečenice koje model izgovara pre nego što završi zadatak, samo da korisnik zna da agent radi, a ne da je zamrzao. Detalj koji deluje trivijalno, a u praksi menja ceo osećaj razgovora.
Iza toga stoji ozbiljna tehnologija. Model je postigao 96,6% tačnosti na Big Bench Audio testu za rezonovanje — prethodna generacija stala je na 81,4%. Kontekstualni prozor skočio je sa 32.000 na 128.000 tokena, što znači da model pamti i prati znatno duže razgovore. Uz to, developeri mogu da biraju između pet nivoa dubine razmišljanja — od brzog i površnog do sporog i temeljnog, zavisno od toga šta konkretna situacija zahteva.
Može istovremeno da poziva više alata odjednom i da korisniku kaže šta upravo radi — „proveravam vaš kalendar", „tražim dostupne termine". Ako nešto pođe po zlu, neće samo utihnuti. Reći će: „Imam problem s tim, pokušajmo drugačije."
GPT-Realtime-Translate: Prevodilac koji ne čeka kraj rečenice
Klasični prevodilački sistemi rade ovako: čekaju da osoba završi misao, obrade je, pa isporuče prevod. To unosi kašnjenje koje razgovor čini nespretnim i veštačkim.
GPT-Realtime-Translate funkcioniše drugačije — prevodi kontinuirano, dok govornik još govori. Podržava više od 70 ulaznih jezika i 13 izlaznih, a kvalitet nije samo na papiru. Kompanija BolnaAI testirala ga je na hindskom, tamilskom i teluguškom — jezicima poznatim po regionalnim dijalektima i fonetskim varijacijama — i zabeležila 12,5% manje grešaka nego kod bilo kog drugog rešenja koje su do tada koristili. Kašnjenje? Odgovaralo je tempu normalnog razgovora.
Za kompanije koje vode korisničku podršku na više tržišta ili organizuju međunarodne pozive, ovo nije luksuz — ovo je infrastruktura.
GPT-Realtime-Whisper: Tekst koji nastaje dok pričate
Treći model u ovoj grupi radi nešto naizgled jednostavno, ali tehnički zahtevno: pretvara govor u tekst u realnom vremenu, dok osoba još govori. Ne čeka kraj rečenice. Ne obrađuje snimak nakon sastanka. Piše dok vi pričate.
Primene su široke: titlovi na predavanjima i televizijskim prenosima koji ne zaostaju za govornikom, beleške sa sastanaka koje su gotove kad se sastanak završi, medicinska dokumentacija koja se popunjava tokom pregleda, automatski sažeci prodajnih poziva. Svuda gde se danas angažuje čovek samo da bi nešto zapisao — Whisper može da preuzme taj posao.
Ko je već testirao i šta kaže?
OpenAI nije pustio modele u vakuumu. Pre zvaničnog lansiranja, pristup su dobili Zillow, Priceline i Deutsche Telekom. Zillow je prijavio merljivo poboljšanje u stopi uspešno završenih glasovnih interakcija s korisnicima — konkretno, više razgovora koji su doveli do ishoda, a manje onih koji su prekinuti ili prosleđeni čoveku.
Svi modeli su od srede dostupni kroz OpenAI Realtime API i mogu se odmah testirati u Playgroundu.
Koliko košta?
GPT-Realtime-2 se naplaćuje 32 dolara po milion audio ulaznih tokena, s tim da keširani ulazni tokeni idu na svega 0,40 dolara. Audio izlaz košta 64 dolara po milion tokena. GPT-Realtime-Translate naplaćuje se 0,034 dolara po minuti, a GPT-Realtime-Whisper 0,017 dolara po minuti.
Za sada, ovo su alati za developere. Obični korisnici ChatGPT-a neće videti ove modele direktno — OpenAI još uvek radi na unapređenju glasovnog iskustva za širu publiku.
Šta se zapravo menja?
Godinama smo razgovarali s glasovnim asistentima kao s mašinama — kratke komande, jasne instrukcije, nula konteksta. Jer svaki korak dalje od toga sistem nije podnosio.
Ono što OpenAI sada uvodi nije samo tehnički napredak. To je promena u tome kako razgovor uopšte funkcioniše — model koji ne čeka vaš kraj rečenice, koji ne gubi nit posle trećeg pitanja, koji prevodi pre nego što ste završili misao.
Da li ćemo za pet godina razgovarati s AI agentima kao s kolegama? Pitanje ostaje otvoreno. Ali jedno je sigurno — sledeći put kad vas neko pita „da li je to pravi čovek ili bot?", odgovor će biti znatno teže dati nego danas. I to se dešava upravo sada, kroz API koji developeri već ugrađuju u aplikacije koje svakodnevno koristite.
Korisni linkovi
- OpenAI: Spaljuje dve milijarde mesečno — bankrot kuca na vrata već 2027.
- Mask protiv Altmana: Počelo suđenje koje će možda uticati na budućnost veštačke inteligencije
- Pentagon i upotreba AI u ratu: moralna dilema, odgovornost kreatora i civilne žrtve u Iranu
- Amerika je moćna onoliko koliko je moćna njena kontrola nad informacijama: društvene mreže u skladu sa interesima
