Ha még nem tetted meg egy tanú A tegnapi OpenAI eseményen erősen ajánlottam ezt. A hír főcíme az volt, hogy a legújabb GPT-4o zökkenőmentesen működik a szöveg, hang és videó bármilyen kombinációjával.
Ez magában foglalja azt a képességet is, hogy egy GPT-4o alkalmazásnak „megmutassa” a rögzített képernyőfelvételt egy másik alkalmazásnak – és ezt a képességet a cég egy lenyűgöző iPad AI guru bemutatóval demonstrálta…
GPT-4o
Az OpenAI azt mondta, hogy az „o” az „omni”-t jelenti.
A GPT-4o („o” az „omni” helyett) egy lépés a természetesebb ember-számítógép interakció felé – bemenetként elfogadja a szöveg, hang és kép bármilyen kombinációját, és kimenetként szöveg, hang és kép bármilyen kombinációját generálja.
Akár 232 ezredmásodperc alatt is képes reagálni a hangbevitelre, átlagosan 320 ezredmásodperc alatt, ami hasonló az emberi válaszidőhöz (új ablakban nyílik meg) a beszélgetés során. […] A GPT-4o különösen jobban megérti a látást és a hangot, mint a jelenlegi modellek.
Ennek még az audio aspektusa is nagy dolog. Korábban a ChatGPT fogadta a hangbevitelt, de szöveggé alakította, mielőtt dolgozott volna vele. Ezzel szemben a GPT-4o valóban megérti a beszédet, így teljesen kihagyja a konverziós szakaszt.
Amint azt tegnap megjegyeztük, az ingyenes felhasználók sok olyan funkciót is kapnak, amelyek korábban a fizető előfizetőkre korlátozódtak.
iPad AI tanári bemutató
Az OpenAI által bemutatott képességek egyike az, hogy a GPT-4o képes látni, hogy mit csinálsz az iPad képernyőjén (osztott képernyős módban).
A példa egy MI-t mutat be, aki egy matematikai problémával küzdő diákot tanít. Hallható, hogy a GPT-4o először megértette a problémát, és azonnal meg akarta oldani. De előfordulhat, hogy az új űrlap megszakad, ebben az esetben megkérik, hogy segítsen a tanulónak saját maga megoldani.
Egy másik lehetőség, amely itt felbukkan, az, hogy a modell azt állítja, hogy érzékeli az érzelmeket a beszédben, és magát az érzelmeket is képes kifejezni. Az én ízlésem szerint ezt kicsit túlzásba vitték a béta verzióban, és ez itt is megmutatkozik – az AI talán egy kicsit a lekezelő oldalon van. De ez mind állítható.
Valójában a világon minden diáknak lehet ilyen képességű magánoktatója.
Ebből mennyit fog integrálni az Apple?
Tudjuk, hogy az iOS 18 elsődleges fókusza a mesterséges intelligencia, és folyamatban van egy megállapodás az OpenAI-funkciók Apple-eszközökre való eljuttatásáról. Míg akkoriban a ChatGPT-nek írták le, most nagyon valószínűnek tűnik, hogy a tényleges üzlet a GPT-4o-hoz való hozzáférésről szól.
De azt is tudjuk, hogy az Apple saját mesterséges intelligencia modelljein dolgozik, saját adatközpontjai pedig saját chipjeit futtatják. Például az Apple fejlesztette király Egy módja annak, hogy a Siri megértse az alkalmazások képernyőit.
Nem tudjuk tehát, hogy a cég pontosan milyen GPT-4o képességeket hoz majd készülékeibe, de ez a funkció annyira tökéletesnek tűnik az Apple számára, hogy el kell hinnem, hogy bekerül. Ez valóban a technológiát használja az emberek megerősítésére.
kép: OpenAI. Benjamin Mayo hozzájárult ehhez a jelentéshez.
FTC: Automatikus kapcsolt linkeket használunk a bevételszerzéshez. több.
More Stories
Fekete mítosz: A Wukong 1.0.8.14860 frissítés néhány fontos javítást tartalmaz, és különösen egy főnököt gyengít
A Castlevania Dominus Collection fizikai megjelenése megerősítve, az előrendelések a következő hónapban indulnak
Az iPhone 16 még nem jelent meg, és valójában van miért várni az iPhone 17 megjelenéséig