NC AI iškodavo automatinę veido animaciją: NDC26 pristatytas technologinis proveržis
Kiekvienas žaidėjas yra patyręs tą nemalonų jausmą, kai stambiu planu rodomo veikėjo lūpų judesiai visiškai nesutampa su tariamais žodžiais. Šią amžiną lokalizacijos ir gamybos sąnaudų problemą pasiryžo išspręsti Pietų Korėjos milžinė „NCSoft“. Metinėje žaidimų kūrėjų konferencijoje NDC26 įmonės dirbtinio intelekto padalinys „NC AI“ pristatė technologiją, kuri gali visam laikui pakeisti vaizdo žaidimų ir skaitmeninio turinio industriją. Jų sukurtas įrankis geba visiškai automatiškai sugeneruoti itin tikroviškas trimates veido animacijas tiesiai iš balso įrašo.
Iki šiol žaidimų kūrėjai turėjo rinktis tarp brangaus, daug laiko reikalaujančio judesio fiksavimo (angl. motion capture) ir automatizuotų rinkos sprendimų, kurie dažnai kenčia nuo specifinių klaidų. Kaip konferencijoje pastebėjo „NC AI“ Fizinio AI laboratorijos direktorius Jang Han-yong, populiarūs konkurentų įrankiai susiduria su rimtais iššūkiais: vieni nesugeba susitvarkyti su ekspresyviu, stipriai emocišku žaidimų įgarsinimu ir pradeda „virpinti“ personažų lūpas, o kiti judesius paverčia pernelyg glotniais, todėl veikėjų artikuliacija tiesiog išsilieja. Naujasis korėjiečių požiūris demonstruoja, kad šias vaikiškas AI ligas jau galima išgydyti.
Nuo sudėtingos architektūros iki preciziškų judesių
Šio technologinio šuolio šerdis – specializuota „VARCO Face Sync“ sistema, kurios veikimas grįstas pažangiais difuzijos modeliais ir transformatorių (angl. transformer) architektūra. Siekdama įveikti netikslių pradinių duomenų problemą, „NC AI“ komanda žengė netradicinį žingsnį ir pati sukonstravo unikalią veido fiksavimo įrangą. Tai leido surinkti milžinišką kiekį itin kokybiškų duomenų, fiksuojančių sudėtingiausius lūpų judesius (pavyzdžiui, abiejų lūpų sąlyčio reikalaujančius garsus), ir tiesiogiai pamaitinti jais neuroninį tinklą. Galutinis rezultatas importuojamas tiesiai į „Unreal Engine“ aplinką kaip paruošti sekvencijų resursai.
Vystant masinius daugelio žaidėjų vaidmenų žaidimus (MMORPG), kur ekrane pasirodo šimtai veikėjų, kūrėjai dažnai atsimuša į identiteto praradimo sieną – naudojant standartinius AI modelius, skirtingų personažų veido bruožų unikalumas tiesiog ištirpsta. „NC AI“ šį barjerą peršoko pritaikydama paieška grįstą balso konvertavimo technologiją (angl. retrieval-based voice conversion) ir gilųjį identiteto kodavimą. Sistema sugeba bet kurio aktoriaus balsą susieti su vidiniu švariu etalonu, efektyviai išfiltruoti foninį triukšmą ir išlaikyti unikalią personažo mimikos specifiką, net jei keli skirtingi veikėjai taria tą pačią eilutę. Kaip teigia technologijų portalas GameMeca, toks sprendimas visiškai eliminuoja riziką įkristi į „šiurpumo slėnį“ (angl. uncanny valley), kuomet viršutinė lūpų dalis juda pagal vieno modelio logiką, o apatinė – pagal kito.
Automatinis gamybos konvejeris ir ateities ambicijos
Efektyvumo metrikos, kurias demonstruoja naujasis konvejeris, jau dabar verčia žaidimų prodiuserius trinti rankomis. Kai kuriuose vidiniuose „NCSoft“ projektuose pasiektas toks automatizacijos lygis, kai dizaineriui pakanka į sistemą įkelti tekstinį scenarijų: jei nėra gyvo aktoriaus įrašo, sistema naudoja teksto pavertimo balsu (TTS) technologiją, o AI automatiškai sugeneruoja ir pritaiko veido animaciją žaidime be jokio papildomo 3D dailininkų įsikišimo. Tai leidžia drastiškai sumažinti lokalizacijos kaštus, nes keičiant kalbą animacija perskaičiuojama akimirksniu, o kokybė iškart atitinka galutinius kokybės kontrolės standartus.
Žvelgiant į ateitį, „NC AI“ neketina sustoti ties lūpų sinchronizacija ir standartinėmis bazinėmis emocijomis, tokiomis kaip džiaugsmas ar pyktis. Kitas jų tikslas – išmokyti algoritmą suprasti ir perteikti itin subtilius emocinius pustonius, pavyzdžiui, tuštumos persmelktą karčią šypseną. Komanda jau dabar dirba prie sekančios kartos iššūkių: duomenų generavimo naudojant vaizdo įrašų AI, automatinio karkasų kūrimo (angl. auto-rigging) bei integruoto veido mimikų, akių žvilgsnio ir kūno gestų valdymo, kad veikėjai pagaliau prarastų bet kokį dirbtinumą.
Behind the Scenes: Žvelgiant giliau į sistemos variklį, didžiausias „NC AI“ inžinerinis pasiekimas yra ne pats difuzijos algoritmas, o radikalus duomenų srauto optimizavimas (angl. pipeline optimization), paverčiantis masinį skaičiavimą realaus laiko procesu. Tradiciniai generatyvinio AI modeliai, dirbantys su trimačiais tinklais (angl. 3D meshes), dažnai užstringa dėl milžiniško parametrų skaičiaus, nes kiekvienas veido taškas (angl. vertex) reikalauja atskiro padėties skaičiavimo laiko ašyje. Korėjiečių sistemų inžinieriai šį barjerą apėjo perkeldami skaičiavimus į žemo matavimo latentinę erdvę, kurioje veido geometrija yra suspaudžiama į efektyvų matricos kodą (angl. identity embedding), o galutinis dekompresavimas vykdomas tiesiogiai vaizdo plokštės atmintyje, naudojant optimizuotus „Unreal Engine“ šešėliuotojus.
Esminis architektūrinis mazgas remiasi į patobulintą transformatoriaus dėmesio (angl. attention mechanism) bloką, kuris sinchronizuoja garso dažnių spektrą su veido kaulų rigingo (angl. blendshapes) svoriais. Kadangi žmogaus kalboje garsas aplanko milisekundėmis anksčiau, nei fiziškai pasikeičia lūpų forma, inžinieriams teko sukurti asimetrinį laiko lango algoritmą (angl. look-ahead buffer). Šis buferis analizuoja ateities garso rėmelius ir leidžia modeliui iš anksto paruošti virtualaus personažo veido raumenų įtempimą, todėl visiškai išnyksta vėlavimo efektas, kuris dažniausiai ir išduoda tradicinę, šablonišką kompiuterinę animaciją.
Kitas kritinis sisteminio lygio iššūkis – atminties pralaidumas vykdant paieška grįstą balso konvertavimą (RVC). Kad sistema gebėtų realiu laiku išvalyti triukšmą ir pritaikyti unikalius veikėjo bruožus, „NC AI“ pritaikė dinaminį duomenų filtravimą per GPU registrų lygio instrukcijas. Užuot siuntusi visą audio spektrą per lėtą sisteminę magistralę, architektūra naudoja spartųjį CUDA branduolių kachavimą, kuris apdoroja balso dažnius lokaliai. Tai leidžia pasiekti stulbinantį našumą, kai net sudėtingiausios mimikos generuojamos su mažesne nei 10 milisekundžių delsa, o tai atveria duris technologiją naudoti ne tik iš anksto įrašytiems vaizdo siužetams, bet ir gyvam NPC (angl. non-player character) reagavimui į žaidėjo balsą realiu laiku.
Galiausiai, siekiant užtikrinti sklandų integravimą į gamybos konvejerį, visi gauti duomenys yra koduojami naudojant pritaikytą binarinį formatą, suderinamą su populiariomis versijavimo sistemomis. Tai reiškia, kad automatizuotai sugeneruoti animacijos failai užima iki 80 % mažiau vietos diske nei standartiniai FBX failai, o jų atnaujinimas žaidimo daryklėje vyksta be papildomo perkompiliavimo. Toks gilus žemo lygio optimizavimo ir aukšto lygio AI architektūros sujungimas rodo, kad „NC AI“ komanda kūrė ne teorinį mokslinį modelį, o praktišką, gamybai paruoštą ginklą, keičiantį žaidimų industrijos taisykles.
Reading Between the Lines: Nors „NCSoft“ pristatytas technologinis šuolis žaidimų prodiuserių Excel lentelėse atrodo kaip išganymas, pramonės veteranai šį entuziazmą vertina su sveika skepsio doze. Pagrindinis prieštaravimas slypi pačioje generatyvinio AI prigimtyje – optimizuojant gamybos kaštus, dažnai paaukojama kūrybinė kontrolė. Kai žaidimo veido animacijas kuria žmogus-animatorius, kiekvienas lūpų virptelėjimas ar akimirksnio žvilgsnis yra sąmoningas dramatinis sprendimas. Patikėjus šį procesą algoritmams, net ir patiems pažangiausiems difuzijos modeliams, kyla rizika sulaukti techniškai nepriekaištingo, tačiau emociškai plokščio rezultato, kur visi personažai pyksta ar liūdi pagal tą pačią matematiškai apskaičiuotą kreivę.
Kitas nepatogus klausimas, kurį technikos gigantai linkę nutylėti, yra sistemos universalumas už laboratorijos ribų. „NC AI“ pasiekė stulbinamų rezultatų, nes turėjo prieigą prie idealiai nušlifuotų, pačių surinktų duomenų bazių ir specifinės „Unreal Engine“ integracijos. Tačiau tikrajame žaidimų kūrimo pasaulyje, kur projektai dažnai naudoja modifikuotus, dešimtmečių senumo variklius ir chaotiškus įgarsinimo failus su foniniu triukšmu, ši sistema gali susidurti su rimtais suderinamumo barjerais. Istorija rodo, kad tokie įrankiai puikiai veikia kontroliuojamose demonstracinėse versijose, tačiau pradeda strigti, kai į juos suleidžiami realaus pasaulio gamybos konvejerio likučiai.
Galiausiai, negalima ignoruoti ir platesnio socio-ekonominio konteksto poveikio industrijai. Visiškas veido animacijos automatizavimas neišvengiamai susiaurins pradedančiųjų 3D dailininkų ir jaunesniųjų animatorių darbo rinką, o tai ilgalaikėje perspektyvoje gali lemti talentų deficitą aukštesnėse pozicijose. Jei pramonė atsisakys rankų darbo lokalizacijos procesuose, mes galime sulaukti eros, kai žaidimai bus leidžiami tris kartus greičiau, tačiau jų personažai atrodys kaip štampuoti iš tos pačios skaitmeninės formos. Technologinis proveržis neabejotinas, tačiau tikrasis jo egzaminas įvyks tada, kai žaidėjai nustos vertinti technologiją ir tiesiog pradės vertinti pasakojamos istorijos nuoširdumą.
Galbūt dirbtinis intelektas jau netrukus sutaupys milijonus dolerių ir išmokys virtualius orkus idealiai artikuliuoti prancūziškus balsius, tačiau tikrasis inžinerinis stebuklas įvyks tada, kai modelis sugebės suprasti, kodėl po dešimtojo žaidimo atidėjimo programuotojo veide atsiranda ta specifinė, jokioms formulėms nepaklūstanti grimasa.
Vyr. redaktorius Artūras Malašauskas, DI sistemų integratorius, sukaupęs daugiau nei 20 metų patirties kuriant gamybinio lygio žiniatinklio inžinerijos sprendimus. Jis projektavo, diegė ir plėtė verslo klasės „Python“/„PHP“ sistemas logistikos, SaaS bei viešojo sektoriaus klientams. Pastaruosius metus jis specializuojasi išskirtinai DI integracijų srityje: diegia atvirojo kodo didžiuosius kalbos modelius (LLM), kuria generatyvinių medijų (vaizdo, garso, video) srautus bei projektuoja daugiagentines darbo eigas realioms gamybinėms aplinkoms. Jo standartas: atkuriamumas, saugumas ir ekonomiškai efektyvi išvestis – jokio „vaporware“. Artūras dokumentuoja bei vertina naujus DI įrankius, atskirdamas patvirtintas galimybes nuo rinkodarinio triukšmo. Techninis redaktorius svetainėse: ai-naujienos.lt, ai-verslas.lt, muza-ai.eu. Susisiekite per „LinkedIn“.
Vyr. redaktorius Artūras Malašauskas, DI sistemų integratorius, sukaupęs daugiau nei 20 metų patirties kuriant gamybinio lygio žiniatinklio inžinerijos sprendimus. Jis projektavo, diegė ir plėtė verslo klasės „Python“/„PHP“ sistemas logistikos, SaaS bei viešojo sektoriaus klientams. Pastaruosius metus jis specializuojasi išskirtinai DI integracijų srityje: diegia atvirojo kodo didžiuosius kalbos modelius (LLM), kuria generatyvinių medijų (vaizdo, garso, video) srautus bei projektuoja daugiagentines darbo eigas realioms gamybinėms aplinkoms. Jo standartas: atkuriamumas, saugumas ir ekonomiškai efektyvi išvestis – jokio „vaporware“. Artūras dokumentuoja bei vertina naujus DI įrankius, atskirdamas patvirtintas galimybes nuo rinkodarinio triukšmo. Techninis redaktorius svetainėse: ai-naujienos.lt, ai-verslas.lt, muza-ai.eu. Susisiekite per
Komentarai