Ang paggawa ng isang digital na character na nakapagsasalita tulad ng isang tunay na tao ay nananatiling isang tinik sa panig ng maraming 3D na laro at app. Sa pagbubukas ng Audio2Mukha, binibigyan ng NVIDIA ang mga developer at studio ng direktang landas upang mapagkakatiwalaang i-synchronize ang boses at mga galaw sa mukha, parehong sa real time at sa offline na produksyon.
Ang bagong bagay ay hindi ang pag-synchronize mismo, ngunit ang access mode: ang tool ay nagiging open source (Apache 2.0), upang masuri, maisama, at maiangkop ng sinuman ang mga bahagi nang walang mga hadlang sa paglilisensya. Ginagawa nitong madali para sa malalaki at maliliit na koponan na magmaneho mas nagpapahayag ng mga avatar nang walang nakakapagod na manu-manong proseso ng animation.
Ano ang Audio2Face at anong mga pagbabago ang ginagawa nito dahil open source ito?

Ginagamit ng Audio2Face Generative AI upang pag-aralan ang mga feature ng pagsasalita—mga ponema, intonasyon, at maging ang mga emosyonal na nuances—at i-convert ang mga ito sa data ng facial animation. Ang sistema i-sync ang mga labi, pisngi at kilay tumpak, para sa mga live stream man o pre-render na mga eksena.
Kapag binubuksan ang proyekto sa Lisensya ng Apache 2.0, binibigyang-daan ng kumpanya ang libreng pag-access sa code, mga modelo at mga kasangkapan, na nagpapabilis sa pag-eeksperimento, nagbibigay-daan sa mga teknikal na pag-audit, at hinihikayat ang mga kontribusyon mula sa akademikong at industriyal na komunidad. Sa madaling salita, mas kaunting alitan sa pagsubok, pag-ulit, at pag-deploy.
Ang layunin ay malinaw: upang dalhin ang kalidad ng facial animation sa higit pa mga video game, 3D application at digital na karanasan, binabawasan ang mga gastos at oras ng produksyon nang hindi sinasakripisyo ang nagpapahayag na detalye.
Lahat ng inilabas ng NVIDIA: SDK, mga modelo, at pagsasanay

Inilathala ng kumpanya ang Audio2Face SDK na may mga aklatan at dokumentasyon para sa pagpapatakbo ng animation sa device o sa cloud. Mayroon ding mga reference na plugin na nagpapasimple sa pipeline para sa mga makina at software na malawakang ginagamit sa industriya.
Kasama sa package ang mga modelo ng regression (v2.2) at pagsasabog (v3.0) nakatuon sa lip-syncBilang karagdagan sa mga modelo Audio2Emosyon (produksyon v2.2 at pang-eksperimentong v3.0) na may kakayahang magpahiwatig ng mga emosyonal na estado mula sa audio.
Para sa mga kailangang dalhin ito sa kanilang larangan, ang Framework ng Pagsasanay (v1.0) at sample na data. Nagbibigay-daan ito sa mga modelo na maisaayos mga wika, accent o mga istilo ng interpretasyon tiyak, at maging sa iba't ibang «rigs» mga facial.
Ang alok ay nakumpleto na may mga opisyal na plugin para sa Autodesk Maya (v2.0) y Unreal Engine 5 (v2.5, tugma sa UE 5.5 at 5.6), na idinisenyo upang maisama sa mga propesyonal na daloy ng trabaho nang hindi muling iniimbento ang gulong.
Pagsasama sa UE5 at Maya, pagganap at mga kinakailangan

Ang diskarte ng NVIDIA ay handa na mga plugin at mga halimbawa upang makapagsimula nang mabilis sa Unreal Engine 5 at Maya, na may mga eksena sa pagsubok at gabay na makakatulong sa pag-validate ng mga resulta mula sa unang araw.
Ang pagpapatupad ay maaaring gawin sa real time o sa loob mode sa labas, depende sa proyekto. Bagama't inirerekomenda ang pagpabilis ng GPU, maaaring isaalang-alang ng mga developer ang iba't ibang configuration, na inuuna ang kalidad, latency, o gastos depende sa sitwasyon ng paggamit.
Salamat sa balangkas ng pagsasanay, ang mga teknikal na koponan ay maaaring magpakadalubhasa sa system karagdagang mga wika at mga variant ng pagsasalita, na susi kung naghahanap ka ng mapagkakatiwalaang lip-sync sa maraming market.
Sa pagiging bahagi ng AI ecosystem ng brand —na may mga solusyon tulad ng ACE, Edify at ang mga RTX NIM—, Ang Audio2Face ay umaangkop sa mga modernong pipeline na pinagsasama ang henerasyon, pakikipag-ugnayan at animation.
Mga kaso ng pag-ampon at totoong buhay sa industriya

Ang teknolohiya ay naroroon na sa mga komersyal na proyekto at mga tool ng third-party. Ang Farm 51 ay Ginagamit niya ito sa Chernobylite 2: Exclusion Zone, at Survios ay na-optimize ang facial pipeline nito sa Alien: Rogue Incursion Evolved Edition para makamit ang mas nakaka-engganyong mga eksena.
Sa larangan ng creative software, Reallusion isinama ang Audio2Face sa iClone at Character Creator, pinagsama ito sa AccuLip at face puppeteering function para sa advanced na pag-edit.
Bilang karagdagan, ang mga pag-aaral at provider tulad ng Codemasters, NetEase, Perfect World Games, GSC Game World, Convai, Inworld AI, Streamlabs y UneeQ Digital Humans ay kabilang sa mga gumagamit o nagsasama ng solusyon na ito.
Ang saklaw nito ay hindi limitado sa tradisyonal na paglalaro: may mga kaso sa media, entertainment at serbisyo sa customer, kung saan ang mga nagpapahayag na avatar at real-time na pakikipag-ugnayan ay nagdaragdag ng halaga at suporta.
Mga alternatibo, komunidad at mga susunod na hakbang

Ang Audio2Face ay hindi lamang ang opsyon sa merkado. Sa Unreal ecosystem, OVR Lip Sync at ang pagsasama nito sa MetaHuman Creator ay nag-aalok ng mga wastong landas, bagama't hindi sila open source at karaniwang nangangailangan manu-manong mga setting para sa magandang akma sa bawat proyekto.
Ang pangunahing pagkakaiba ay nasa pambungad: may magagamit ang code, mga modelo at pagsasanay, pinapadali ng alok ng NVIDIA ang mga kontribusyon, pag-audit, at pagpapasadya, bilang karagdagan sa isang roadmap na hinimok ng komunidad.
Hinihikayat ng kumpanya ang mga developer, mag-aaral at mananaliksik na magtulungan sa pamamagitan ng Server ng Audio2Face Discord, magbahagi ng pag-unlad at magmungkahi ng mga pagpapabuti para sa mga bagong kaso ng paggamit.
Para sa mga koponan na nag-aalangan pa rin, ang entry point ay malinaw: subukan ang Mga plugin ng UE5 at Maya, tasahin ang latency at kalidad, at, kung kinakailangan, sanayin gamit ang iyong sariling data sa pag-sync ng labi sa mga wika at istilo na kinakailangan ng bawat produksyon.
Sa paglipat sa open source, mas umaangkop ang teknolohiyang ito sa masikip na badyet at nagbibigay-daan sa mas maraming studio na dalhin ang kanilang mga karakter sa isang antas ng pagpapahayag at synchrony na dati ay nangangailangan ng mas maraming mapagkukunan. Isang pragmatic na hakbang na maaaring mapabilis ang paggamit ng AI lip-syncing sa lahat ng uri ng interactive na karanasan.