Společnost OpenAI oznámila v pondělí příchod svého nového vlajkového generativního modelu umělé inteligence, který byl pojmenován GPT-4o, přičemž „o“ znamená „omni“. „Omni“ znamená z latiny doslova „všechno“. Tento název tak odkazuje na vše-schopnost modelu, který dokáže zpracovávat nejenom text, ale i řeč a video. Kromě toho dochází k dramatickému zlepšení ve hlasové komunikaci, v níž bude chatbot schopen lépe projevovat emoce, reagovat na tón uživatelovo hlasu a další. GPT-4o bude postupně implementováno do produktů určených jak pro vývojáře, tak pro koncové uživatele v nadcházejících týdnech.
Přidané možnosti práce s videem, zvukem i řečí
CTO společnosti OpenAI, Mira Murati, uvedla, že GPT-4o přináší „novou úroveň inteligence GPT-4“ a současně rozšiřuje schopnosti napříč různými modality a médii. „GPT-4o umožňuje práci s hlasem, textem a obrazem,“ prohlásila Murati během prezentace v kancelářích OpenAI v San Francisku. „Je to zásadní, jelikož to zcela mění pohled budoucí interakce mezi lidmi a stroji.“
Předchozí model OpenAI, GPT-4 Turbo, byl totiž trénován na kombinaci obrovského datasetu obrázků a textu, což mu umožňovalo analyzovat oba formáty pro úkoly jako extrakce textu z obrázků nebo popisování obsahu obrázků. Vcelku užitečné, ale schopnost zpracovávat video či audio soubory tam pořád jaksi nebyla. Právě GPT-4o by mělo tyto nedostatky nahradit tím, že do svého repertoáru přidává i řeč. Co to ale znamená? Velké věci…
GPT-4o jako asistent v reálném čase s impozantními hlasovými funkcemi
Tak za prvé GPT-4o významně zlepšuje zážitek z používání chatbotu ChatGPT, který je poháněn umělou inteligencí od OpenAI. Platforma sice již nabízela hlasový režim, který přepisoval odpovědi chatbota pomocí modelu text-to-speech a naopak. GPT-4o tuto funkci ale drasticky vylepšuje tím, že umožňuje uživatelům interakci s ChatGPT spíše jako s osobním asistentem.
Uživatelé tak budou moci chatbotovi pokládat otázky a přerušovat jej během odpovědi. Model poskytuje „reálnou časovou“ odezvu a dokáže zachytit nuance v hlase uživatele, díky čemuž dokáže generovat odpovědi v různých emotivních stylech. Když budete hodní, tak vám možná i zazpívá.
Kromě toho GPT-4o také vylepšuje vizuální schopnosti ChatGPT. Při zadání fotografie nebo snímku obrazovky nyní ChatGPT dokáže rychle odpovídat na související otázky, od analýzy softwarového kódu až po identifikaci značky oblečení. V praxi tak GPT-4o dokáže v reálném čase reagovat na obraz vašeho monitoru nebo obraz vaší kamery. Jako kdybyste dělali live call – volání se zapnutou kamerou, kdy druhá osoba přímo vidí to, co je na kameře a dokáže na to ihned reagovat.
Velký krok vpřed zdaleka není posledný
Podle Murati se tyto funkce budou nadále rozvíjet. Zatímco dnes GPT-4o dokáže přeložit obrázek menu v jiném jazyce, v budoucnu by model mohl umožnit ChatGPT například sledovat živý sportovní zápas, vysvětlovat pravidla hry a případně i dělat komentář v reálném čase.
„Víme, že tyto modely jsou stále složitější, ale chceme, aby zážitek z interakce byl co nejpřirozenější a nejjednodušší, abyste se nemuseli tolik soustředit na uživatelské rozhraní, ale mohli se více zaměřit na spolupráci s ChatGPT,“ řekla Murati. „Posledních několik let jsme se velmi zaměřovali na zlepšování inteligence těchto modelů, ale toto je poprvé, kdy skutečně děláme velký krok vpřed, pokud jde o snadnost použití.“
Obrázek 1 – Lidé z OpenAI testující GPT-4o
Vylepšený výkon u až 50 jazyků
GPT-4o je také více multilingvální. To znamená, že nyní přichází s vylepšeným výkonem v téměř až 50 jazycích. V OpenAI API a Microsoft Azure OpenAI Service je GPT-4o dvakrát rychlejší, s polovičními náklady a vyššími generovacími limity než GPT-4 Turbo. V praxi tak dostáváte dvakrát tolik rychlý model s možností generování více textu za dvojnásobně menší cenu. A to se vyplatí!
Je ale důležité zmínit, že v současné době není vylepšená hlasová část GPT-4o API dostupná pro všechny zákazníky. OpenAI, odkazující se na riziko zneužití, plánuje nejprve spustit podporu nových audio schopností GPT-4o pro „malou skupinu důvěryhodných partnerů“ v nadcházejících týdnech. Vylepšená hlasová zkušenost ChatGPT podporovaná GPT-4o by tak měla být k dispozici v alfaverzi pro uživatele Plus během příštího měsíce spolu s možnostmi zaměřenými na podniky.
GPT-4o zdarma pro všechny uživatele
Další velmi překvapivá zpráva je, že GPT-4o by se měl stát dostupným pro všechny uživatele v bezplatné verzi ChatGPT. Předplatitele prémiových plánů ChatGPT Plus a Team budou mít ale pořád až „5x vyšší“ limity zpráv.
Nové uživatelské rozhraní a další aktualizace
V souvisejících zprávách OpenAI oznámila obnovené uživatelské rozhraní ChatGPT na webu s novou, „více konverzační“ domovskou stránkou a rozložením zpráv, a také desktopovou verzi ChatGPT pro macOS, která uživatelům umožňuje klást otázky pomocí klávesové zkratky nebo pořizovat a diskutovat s chatbotem o snímcích obrazovky Uživatelé ChatGPT Plus budou mít k aplikaci přístup jako první, od dnešního dne, a verze pro Windows bude k dispozici později v tomto roce.
Obrázek 2 – GPT-4o v reálném čase nahlíží na kód na obrazovce počítače
Dále by nyní GPT Store, knihovna s nástroji pro vytváření chatbotů třetích stran postavených na modelech AI od OpenAI, měla být dostupná uživatelům bezplatné verze ChatGPT. Bezplatní uživatelé by měli být schopni využívat funkce ChatGPT, které byly dříve zpoplatněné, jako je schopnost pamatovat si preference pro budoucí interakce, nahrávat soubory a fotografie a hledat odpovědi na aktuální otázky na webu.
Shrnutí
- OpenAI představila nový model GPT-4o, který pracuje s textem, řečí a videem.
- GPT-4o výrazně vylepšuje zážitek z používání ChatGPT, umožňuje interakce v reálném čase a rozpoznává nuance v hlase uživatele. Dokonce i zazpívá.
- Model také rozšiřuje vizuální schopnosti ChatGPT a zlepšuje podporu u více než 50 jazyků.
- GPT-4o by měl být postupně dostoupný v bezplatné verzi ChatGPT. Hlasové funkce by se měli objevit u Plus uživatelů v následujícím měsíci.
Zdroj:
- Wiggers, K. (2024, May 13). OpenAI debuts GPT-4O “Omni” model now powering chatgpt. TechCrunch. https://techcrunch.com/2024/05/13/openais-newest-model-is-gpt-4o/?guccounter=1&guce_referrer=aHR0cHM6Ly93d3cuYmluZy5jb20v&guce_referrer_sig=AQAAAL7LO558cKzBvNw287WIVLmd1_Ga86JadOe6Eld5naUBZW5F2gbaDADHBd7-gqapmrGPeSClI-22xS4BCsnWB8QX9atzSaJoOzFl5xZGKq7vF-cJiNfR1OS6HKb0Mhfxt8FAiINZUKARZnf-vUHP2IMVzq543h7yoWqMdYvaFkoV
