Akárcsak Henry Higgins, George Bernard Shaw Pygmalion című darabjának énekese, Marius Kotescu és Georgy Tenchev a közelmúltban megmutatta, hogyan próbálja leküzdeni tanítványa artikulációs nehézségeit.
A két adattudós, akik mindketten az Amazonnál dolgoznak Európában, Alexát, a cég digitális asszisztensét tanították. Küldetésük: mesterséges intelligencia és anyanyelvi hangfelvételek segítségével segíteni Alexának ír akcentussal elsajátítani az angol nyelvet.
A bemutató alatt Alexa egy emlékezetes éjszakáról beszélt. „A tegnap esti buli olyan őrült volt” – mondta Alexa hosszan, szórakozásból használva az ír szót. – Hazafelé fagyit kaptunk, és örültünk, hogy kiszálltunk.
Tencsev úr megrázta a fejét. Alexa bedobta az „r” betűt a „Party” szóba, így a szó laposan hangzik, mint a pah-tee. Arra a következtetésre jutott, hogy nagyon brit.
A technológusok az Amazon csapatának tagjai, amely az adattudomány kihívásokkal teli területén, az audiodekódolás néven dolgozik. Ez egy kihívást jelentő probléma, amely a mesterséges intelligencia fejlesztési hulláma közepette új jelentőséget kapott, mivel a kutatók úgy vélik, hogy a beszéd és a technológia rejtvénye segíthet abban, hogy a mesterséges intelligenciával hajtott eszközök, botok és beszédszintetizátorok sokkal beszélgetőbbek legyenek – vagyis sokakat vonzóbbá tegyenek. regionális szereplők. ékezetek.
A fonetikus kibontás kezelése többet jelent, mint a szókincs és a nyelvtan megértését. A beszélő hangmagassága, hangszíne és akcentusa gyakran pontos jelentést ad a szavaknak és érzelmi súlyt. A nyelvészek ezt a nyelvi jellemzőt „kijelzőnek” nevezik, és ezt a gépek nehezen tudják elsajátítani.
Csak az utóbbi években, a mesterséges intelligencia, a számítógépes chipek és más eszközök fejlődésének köszönhetően, a kutatók tettek lépéseket a hangdekódolás problémájának megoldásában, és a számítógéppel generált beszédet valami kellemesebb fülre varázsolták.
A kutatók szerint az ilyen munka végül a „generatív AI” robbanásszerű terjedésével járhat, amely technológia lehetővé teszi a chatbotok számára, hogy saját válaszaikat generálják. Az olyan chatbotok, mint a ChatGPT és a Bard, egy napon teljes egészében a felhasználók hangparancsai alapján működhetnek, és szóban válaszolhatnak. Ugyanakkor az olyan hangasszisztensek, mint az Alexa és az Apple Siri, sokkal beszélgetőbbek lesznek, ami felélesztheti a fogyasztók érdeklődését egy olyan technológiai szektor iránt, amely úgy tűnik, hogy megrekedt, mondták el elemzők.
A hangasszisztensek, például az Alexa, a Siri és a Google Asszisztens több nyelven való megszólaltatása költséges és időigényes folyamat volt. A technológiai cégek hangszínészeket béreltek fel több száz órányi beszéd rögzítésére, ami segített mesterséges hangok létrehozásában a digitális asszisztensek számára. Fejlett mesterséges intelligencia rendszerek, amelyeket „szövegfelolvasó modelleknek” neveznek – mivel a szöveget természetes hangzású szintetikus beszéddé alakítják át – Most kezdek egyszerűsíteni ez a folyamat.
A technológia „most már képes emberi hangot és szintetikus hangot létrehozni különböző nyelveken, dialektusokon és dialektusokon alapuló szövegbevitel alapján” – mondta Marion Laborie, a Deutsche Bank Research vezető stratégája.
Az Amazonra nyomás nehezedett, hogy utolérje a versenytársakat, mint a Microsoft és a Google a mesterséges intelligencia versenyében. Áprilisban Andy Jassy, az Amazon vezérigazgatója azt mondta: a Wall Street elemzői számára Rohit Prasad, az Amazon Alexa vezető tudósa elmondta, hogy a vállalat azt tervezi, hogy az Alexát „aktívabbá és beszélőbbé” tegye az élvonalbeli generatív mesterséges intelligencia segítségével. – mondta a CNBC-nek Májusban a hangasszisztenst egy hangalapú „azonnal elérhető személyes AI-nak” tekintette.
Az ír Alexa novemberben debütált a kereskedelmi forgalomban, kilenc hónapos képzés után, hogy megértse, majd beszéljen egy ír akcentust.
„Az akcentus különbözik a nyelvtől” – mondta Mr. Prasad egy interjúban. Az AI-technikáknak meg kell tanulniuk kivonni a hangsúlyt a beszéd más részeiből, például az intonációból és a frekvenciából, mielőtt megismételhetik a helyi dialektusok jellemzőit – például előfordulhat, hogy az „a” laposabb, a „t” pedig erősebben ejtik.
Ezeknek a rendszereknek észlelniük kell ezeket a mintákat, mondta, „hogy egy teljesen új akcentust alkossanak”. „ez bonyolult.”
A Harder still megpróbálja rávenni a technológiát, hogy nagyjából magától tanuljon meg egy új akcentust, egy eltérő hangzású beszédformából. Ez az, amit Cotescu úr csapata megpróbált megépíteni az ír Alexát. Nagymértékben támaszkodtak a meglévő beszédmodellre, amely főként angol brit akcentusokat tartalmaz – az amerikai, kanadai és ausztrál akcentusok sokkal kisebb választékával –, hogy megtanítsák őket az ír angol beszédre.
A csapat az angol-ír nyelv különböző nyelvi kihívásaival szembesült. Az írek hajlamosak a „h” betűt a „th”-be ejteni, például „t”-nek vagy „d”-nek ejtik a betűket, így a „fürdő” „bat”-nek vagy akár „rossznak” hangzik. Az ír angol nyelv is rhotic, ami azt jelenti, hogy az „r” betűt túlságosan ejtik. Ez azt jelenti, hogy az „r” a „buliban” hangsúlyosabb lesz, mint amit egy londoni szájából hallhat. Alexának meg kellett tanulnia és elsajátítania a beszéd ezen jellemzőit.
Az ír angol nyelv „nehéz” – mondta Kotescu úr, aki román, és az Alexa ír csapatának vezető nyomozója volt.
Az Alexa verbális készségeit támogató beszédmodellek az elmúlt években fejlettebbek lettek. 2020-ban az Amazon kutatói megtanították Alexát Folyékonyan beszél spanyolul Egy angolul beszélő modelltől.
Mr. Cotescu és a csapat a dialektusokat tekintette Alexa beszédképességének következő határának. Úgy tervezték meg az ír Alexát, hogy inkább támaszkodjon a mesterséges intelligenciára, mint a színészekre a beszédmodelljének kialakításában. Ennek eredményeként az ír Alexát egy viszonylag kis csoportban képezték ki – körülbelül 24 órányi felvételt szinkronszínészek, akik 2000 beszédet adtak elő ír angolul.
Először, amikor az Amazon kutatói bemutatták az ír felvételeket a még tanuló ír Alexának, furcsa dolgok történtek.
Néha betűk és szótagok szivárogtak ki a válaszból. Néha az „S” összeragad. Egy-két szó, olykor meghatározó, megmagyarázhatatlanul elmotyogott és érthetetlen volt. Legalább egy esetben Alexa női hangja néhány oktávot visszaesett, és férfiasabban hangzott. Ami még rosszabb, a férfias hang kifejezetten britnek tűnt, olyan ostobaságnak, amely egyes ír otthonokban felhúzhatja a szemöldökét.
„Nagy fekete dobozok” – mondta Tencsev, a projekt bolgár és Amazon vezető tudósa a beszédmodellekről. – Biztosan sok tapasztalatod van, amire rá kell hangolódnod.
Ezt tették a technikusok, hogy kijavítsák Alexa „pártfogó” csúszását. A beszédet szóról szóra, hangot (a szó legkisebb hallható darabját) hanggal kibontották, hogy pontosan meghatározzák és finomhangolják, hol csúszik Alexa. Ezután több rögzített hangadatot adtak az Alexa ír beszédmodelljének, hogy kijavítsák a szóbeli hibát.
Eredmény: „r” a „party” mezőben. De aztán a „p” eltűnt.
Tehát az adattudósok újra elvégezték ugyanazt a folyamatot. Végül a hiányzó „p”-t tartalmazó hangra összpontosítanak. Aztán tovább finomították a modellt, hogy a „p” hang visszatérjen, és az „r” ne tűnjön el. Alexa végre megtanult úgy beszélni, mint egy dublini.
Azóta két ír nyelvész – Eileen Vaughan, aki a Limericki Egyetemen tanít, és Kate Tallon, a Trinity College dublini fonetikai és beszédlaboratóriumában dolgozó doktorandusz – magas pontszámot adott Alexának az ír akcentusra. Azt mondták, ahogy az ír Alexa hangsúlyozta az „r”-t és lágyította a „t”-t, megállt, és az Amazon pontosan megkapta az ékezetet.
– Nekem valóságosnak tűnik – mondta Ms. Tallon.
Az Amazon kutatói elmondták, hogy elégedettek a nagyrészt pozitív visszajelzésekkel. Beszédmodelljeik olyan gyorsan feloldották az ír akcentust, reményt adva nekik, hogy az akcentusokat máshol is meg lehet ismételni.
És A nyelvén írtak januári kutatási cikk Az ír Alexa Projectről.
„Odaadó úttörő az utazásokban. Szabadúszó sörtudós. Szenvedélyes elemző. Kemény twitter-fanatikus.”
More Stories
Fekete mítosz: A Wukong 1.0.8.14860 frissítés néhány fontos javítást tartalmaz, és különösen egy főnököt gyengít
A Castlevania Dominus Collection fizikai megjelenése megerősítve, az előrendelések a következő hónapban indulnak
Az iPhone 16 még nem jelent meg, és valójában van miért várni az iPhone 17 megjelenéséig