OpenAI rozšiřuje Realtime API o tři nové hlasové modely, které umí reasoning, překlad i přepis za běhu. Pro uživatele to znamená rychlejší, přirozenější a užitečnější hlasové aplikace.
OpenAI právě přidává do svého Realtime API trojici nových hlasových modelů, které posouvají hlasové aplikace zase o krok dál. Nejde jen o diktování nebo překlad v přímém přenosu, ale o modely, které dokážou reagovat, překládat i přepisovat řeč téměř okamžitě a v mnohem přirozenějším tempu.

Tři modely, tři různé úkoly
Nejzajímavější novinkou je GPT-Realtime-2, který je určený pro živé hlasové konverzace. OpenAI u něj zdůrazňuje, že zvládá průběžně udržovat dialog, pracovat s nástroji, reagovat na opravy i přerušení a přitom odpovídat tak, aby kontext dával smysl v daný okamžik.
Druhý model je zaměřený na překlad hlasu a podle OpenAI podporuje 70 vstupních jazyků a 13 výstupních. To je důležité hlavně pro aplikace, které chtějí nabídnout živý překlad bez zdlouhavého čekání, ať už při cestování, zákaznické podpoře nebo třeba v mezinárodních hovorech.
Třetí model, GPT-Realtime-Whisper, se soustředí na rychlý přepis řeči do textu. OpenAI ho popisuje jako streamingový model s nízkou latencí, takže text vzniká prakticky současně s mluveným slovem. To může zrychlit titulky v reálném čase, poznámky ze schůzek i další funkce, které stojí na okamžitém převodu řeči do textu.
Co to znamená pro uživatele a vývojáře
V praxi z toho těží hlavně aplikace, které mají být víc než jen obyčejný diktovací nástroj. Když model zvládne přemýšlet během hovoru, lépe zvládá opravy, doplnění i přirozené pauzy, takže výsledná zkušenost působí méně roboticky. To je přesně ten rozdíl, který uživatel pozná během pár sekund používání.
Pro vývojáře je podstatné i to, že všechny tři modely jsou součástí Realtime API. OpenAI navíc umožňuje jejich testování v Playground a zmiňuje i napojení přes Codex, takže nasazení do nové nebo existující aplikace má být jednodušší. Dává to smysl hlavně pro produkty, které chtějí nabídnout živý překlad, hlasového asistenta nebo rychlé zápisy ze schůzek.
Pro Apple uživatele je zajímavé především to, že podobné technologie časem končí i v aplikacích pro iPhone, iPad nebo Mac. Jakmile se podobné modely dostanou do běžných nástrojů, začne být hlasové ovládání výrazně použitelnější než dnes — a právě rychlost, přesnost a schopnost reagovat v reálném čase budou rozhodovat o tom, která appka uspěje.
Pokud vás téma zajímá víc, přečtěte si také Apple chce Siri vylepšit pomocí ChatGPT nebo Claude a iOS 18.2 bude vydáno dnes večer! Jaké novinky nabídne?.
Podrobnosti přinesl také 9to5mac.

Chcete k tomu něco dodat? Napište krátce proč.