王者荣耀语音包在哪里设置(王者荣耀语音包在哪里设置李小龙)

2023-08-09 19:09 来源:战歌公会 作者:战歌公会 浏览:170

1. 名词概览:计算机技术打造虚拟数字人

1.1. 定义:数字人、虚拟人、虚拟数字人被赋予特定人物身份

虚拟人、数字人、虚拟数字人的目标是通过计算机图形学技术(Computer Graphic,CG)创造出与人类形象接近的数字化形象,并赋予其特定的人物身份设定,在视觉上拉近和人的心理距离,为人类带来更加真实的情感互动。按照各定义特征的要求,数字人的范畴包含虚拟人,虚拟人的范畴包含虚拟数字人。

对于不要求必须具备交流互动能力时,数字人、虚拟人、虚拟数字人这三者概念可以认为是等同的。但在严格意义下它们又有细微的差别。虚拟人的身份是虚构的,现实世界中不存在的。数字人强调角色存在于数字世界。虚拟数字人强调虚拟身份和数字化制作特性。

虚拟数字人具有形象能力、表达能力和感知互动能力三大特征。

1.2.划分:人格象征和图形维度是虚拟数字人常见的分类依据

根据人格象征,虚拟数字人可分为虚拟IP和虚拟世界第二分身。

根据人物图形维度,虚拟数字人可分为2D和3D两大类,从外形上可分为卡通、写实等风格,综合来看可分为二次元、3D卡通、3D超写实、真人形象四种类型。

1.3.框架:五大模块构成虚拟数字人通用系统框架

人物形象根据人物图形资源的维度,可分为2D和3D两大类;语音和动画生成模块可分别基于文本生成对应的人物语音以及人物动画;音视频合成显示模块将语音和动画合成视频;交互模块根据语音语义识别用户的意图,并决定数字人后续的语音和动作。

交互模块为扩展项,根据其有无,可将数字人分为交互型数字人和非交互型数字人。

非交互型虚拟数字人系统依据目标文本生成对应的人物语音及动画,并合成音视频呈现给用户。

交互型数字人根据驱动方式的不同可分为智能驱动型和真人驱动型。

1)智能驱动型数字人可通过智能系统自动读取并解析识别外界输入信息,根据解析结果决策数字人后续的输出文本,然后驱动人物模型生成相应的语音与动作来使数字人跟用户互动。该人物模型是预先通过AI技术训练得到的,可通过文本驱动生成语音和对应动画,业内将此模型称为TTSA(Text To Speech & Animation)人物模型。

2)真人驱动型数字人则是通过真人来驱动数字人,主要原理是真人根据视频监控系统传来的用户视频,与用户实时语音,同时通过动作捕捉采集系统将真人的表情、动作呈现在虚拟数字人形象上,从而与用户进行交互。

2.行业情况分析:虚拟数字人市场广阔,应用领域不断拓展

2.1.行业沿革:虚拟数字人已处高速成长阶段

虚拟数字人从最早的手工绘制到现在的CG(Computer Graphics,电脑绘图)、人工智能合成,虚拟数字人大致经历了萌芽、探索、初级和成长四个阶段:

2.2.产业链:随理论技术日益成熟,商业模式持续演进丰富产业链

当前虚拟数字人理论和技术日益成熟,应用范围不断扩大,产业正在逐步形成、不断丰富,相应的商业模式也在持续演进和多元化。

2.2.1.基础层:厂商深耕软硬件行业,具有深厚技术壁垒

基础层为虚拟数字人提供基础软硬件支撑,硬件包括显示设备、光学器件、传感器、芯片等,基础软件包括建模软件、渲染引擎。显示设备是数字人的载体,既包括手机、电视、投影、LED显示等2D显示设备,也包括裸眼立体、AR、VR等3D显示设备。光学器件用于视觉传感器、用户显示器的制作。传感器用于数字人原始数据及用户数据的采集。芯片用于传感器数据预处理和数字人模型渲染、AI计算。建模软件能够对虚拟数字人的人体、衣物进行三维建模。渲染引擎能够对灯光、毛发、衣物等进行渲染,主流引擎包括Unity Technologies公司的Unity 3D、Epic Games公司的Unreal Engine等。总体来看,处于基础层的厂商已经深耕行业多年,已经形成了较为深厚的技术壁垒。

2.2.2.平台层:提供多元技术支持,赋予虚拟数字人真实及灵动感

平台层包括软硬件系统、生产技术服务平台、AI能力平台,为虚拟数字人的制作及开发提供技术能力。建模系统和动作捕捉系统通过产业链上游的传感器、光学器件等硬件获取真人/实物的各类信息,利用软件算法实现对人物的建模、动作的重现;渲染平台用于模型的云端渲染。解决方案平台基于自身技术能力为广大客户提供数字人解决方案。AI能力平台提供计算机视觉、智能语音、自然语言处理技术能力。平台层汇聚的企业较多,腾讯、百度、搜狗、魔珐科技、相芯科技均有提供相应数字人技术服务平台。

2.2.3.应用层:带领虚拟数字人切入商业化赛道

应用层是指虚拟数字人技术结合实际应用场景领域,切入各类,形成行业应用解决方案,赋能行业领域。按照应用场景或行业的不同,已经出现了娱乐型数字人(如虚拟主播、虚拟偶像)、教育型数字人(如虚拟教师)、助手型数字人(如虚拟客服、虚拟导游、智能助手)、影视数字人(如替身演员或虚拟演员)等。不同外形、不同功能的虚拟数字人赋能影视、传媒、游戏、金融、文旅等领域,根据需求为用户提供定制化服务。

2.3.政策:近期多项政策推动虚拟数字人新兴科技产业发展

2.4.行业趋势:优质技术仍待普及,受众群体仍待拓展

虚拟数字人产业生产及运营成本高,优劣差异化显著,受众群体不断拓展,因而虚拟数字人价值凸显,应用领域不断拓展,未来有望加速商业化进程。

采集制作流程简单化、一体化,迭代式提升真实感

未来虚拟数字人制作技术将更加简单,更加一体化、自动化设备同步获取模型、身体、表情等所有数据,无需穿戴专业传感设备。

交互方式衍变,智能化程度不断加深

全双工技术将推进数字人交互方式的演变,使得数字人拥有一次唤醒、多次交互能力﹐具备实时智能响应、智能打断、智能纠错、多轮对话等功能。

实现多场景、多领域的融合、应用及落地

目前虚拟数字人发展环境整体情况还处于未成熟的起步阶段,随着虚拟数字人技术的精进和市场价值的释放,将更深入地融入影视、金融、文旅等各个领域。

虚拟数字人目前仍处于孵化培育阶段,以企业服务为形式的2B2C服务为重点。未来驱动力包括代际变化、技术门槛降低、虚拟化趋势、VR设备回暖等原因。在各行业逐渐意识到其技术可行性和商业价值后,虚拟数字人行业将有望快速进入高速发展期。

3.技术架构:建模、驱动、渲染三大关键技术构成底层架构

虚拟数字人基础技术架构包括“五横两纵”。“五横”是指用于数字人制作、交互的五大技术模块,即人物生成、人物表达、合成显示、识别感知、分析决策等模块。其中,人物生成,即人物建模方面2D数字人较为简单,3D数字人需要额外使用三维建模技术。人物表达包括语音生成和动画生成。动画生成则包含驱动和渲染两大部分。“两纵”是指2D、3D数字人,2D数字人和3D数字人在技术架构方面基本一致。3D数字人需要额外使用三维建模技术生成数字形象,信息维度增加,所需的计算量更大。

3.1.建模:主流技术仍为静态扫描,动态光场成为未来重点发展方向

建模技术分为静态扫描建模和动态光场重建,目前主流技术仍为静态扫描,相比静态重建技术,具有高视觉保真度的动态光场三维重建技术不仅可以重建人物的几何模型,还可一次性获取动态的人物模型数据,并高品质重现不同视角下观看人体的光影效果,成为数字人建模重点发展方向。

静态扫描建模技术

静态扫描建模技术可分为结构光扫描重建和相机阵列扫描重建,结构光扫描重建扫描时间长,对于人体这类运动目标在友好度和适应性方面都差强人意,更多的应用于工业生产、检测领域。相机阵列扫描重建替代结构光扫描重建克服了以上问题成为人物建模主流方式。随着拍照式相机阵列扫描重建得到飞速发展,目前可实现毫秒级高速拍照扫描(高性能的相机阵列精度可达到亚毫米级),并成功应用于游戏、电影、传媒等行业。

国际上IR、Ten24等公司将静态重建技术完全商业化,服务于好莱坞大型影视数字人制作。凌云光近年来大力发展立体视觉并研发了高精度人体3D建模系统——Human3D+,其中核心的三维几何和彩色数据采集部分均使用了以佳能专业镜头,配合佳能SDK软件开发包及凌云光专用3D建模软件能快速、清晰成像并高速储存,自动完成高精度人体全身或局部重建,再利用三维动画制作软件对重建结果进行处理,得到高真实度数字人物。

动态光场重建技术

动态光场重建是目前世界上最新的深度扫描技术,此技术可忽略材质,直接采集三维世界的光线,然后实时渲染出真实的动态表演者模型,为3D建模提供更加丰富的图像信息,它主要包含人体动态三维重建和光场成像两部分:

3.2.驱动:智能合成,动作捕捉迁移成为主流动作生产方式

3.2.1.智能合成:2D、3D数字人均已实现嘴型动作的智能合成,其他部位仅支持录播

2D、3D数字人嘴型动作智能合成的底层逻辑类似,均建立在输入文本到输出音频与输出视觉信息的关联映射。

其中3D视频驱动方式为以下三个步骤:

1)视频算法训练:对已采集到的文本到语音和嘴型视频的数据进行模型训练,得到一个输入任意文本均可驱动嘴型的模型。

2)语音自动识别:对语音进行标注,绑定数据与动作,使得虚拟数字人对特定词语或语境做出相应动作。

3)动捕设备采集:需真人穿戴动捕设备,动捕设备与真人肢体动作相绑定,可实时传递到虚拟数字人身上。

3.2.2.动作捕捉:动作捕捉方案最高可实现毫米级误差

通过将捕捉采集的动作迁移至数字人是目前3D数字人动作生成的主要方式,核心技术是动作捕捉。动作捕捉是指通过数字手段记录现实人们的运动过程。同时,动作捕捉系统根据实现原理的不同,可以分成光学动作捕捉、惯性动作捕捉、Track设备+IK算法的动作捕捉、以人工智能为主的动作捕捉方案。现阶段,光学式和惯性式动作捕捉占据主导地位,基于计算机视觉的动作捕捉成为聚焦热点。

光学动作捕捉

光学动作捕捉是在演员身上粘贴能够反射红外光的Marker(马克点),摄像机通过反光来捕捉这些马克点的位置变化,从而完成对演员的动作捕捉。目前,光学动作捕捉方案能通过高帧率的捕捉,实现毫米级误差精度,能对人物动作还原最为精细,但这类捕捉方案对于背景环境的要求较高,技术门槛也同样较高。

受到光线传播的限制,数据采集难免有丢失的情况发生,在相对较大的拍摄空间中,需要同时修正几十个摄像机的参数,稍微移动一下就需要对摄像机参数进行重新标定,想做到电影级别的精确捕捉,还是很耗时费力的。对于大范围的行走和奔跑等日常活动,需要精心控制的移动摄像机来记录足够的运动信息,这也很难实现的。在光学动作捕捉设备和方案上,国内外都涌现出一些较为优秀的公司代表,比如英国的Vicon,美国的Opti Track和魔神(Motion Analysis),国内的Nokov、uSens、青瞳视觉等。

惯性动作捕捉

主要是基于惯性测量单元(Inertial MeasurementUnit,IMU)来完成对人体动作的捕捉,即把集成了加速度计、陀螺仪和磁力计的IMU绑在人体的特定骨骼节点上,通过算法对测量数值进行计算,从而完成动作捕捉。这种惯性动作捕捉方案价格相对低廉且精度较低,会随着使用时间的增加产生累积误差,发生位置漂移。这类捕捉方案需要大量复杂的硬件设备和严格的影棚环境,技术门槛也同样较高,并不适合大众消费者使用。

我们常见的动作捕捉服、手套等设备都是属于这类惯性动作捕捉范围内。

在惯性动作捕捉技术的赛道里,代表性企业有荷兰的Xsens,以及国内的诺亦腾(Noitom)、幻境、国承万通等。国内厂商诺亦腾、国外厂商XSens都拥有比较成熟的产品。其中,诺亦腾通过全身17节点惯性传感器、全身绑带、传感器充电盒以及EVA便携箱等组成部分打造了入门级无线动作捕捉系统Perception Neuron3。

计算机视觉的动作捕捉

视觉的动作捕捉主要是通过采集及计算深度信息来完成对动作的捕捉,是近些年才兴起的技术。这种视觉动捕方式因其简单、易用、低价,已成为目前使用的频率较高的动作捕捉方案。视觉动作捕捉主要有两种:

1)Track设备+IK算法的动作捕捉方案,主要通过Track设备以及IK算法相结合,模拟出一定的动作姿态。这种动作捕捉方案在一些消费级的产品上运用较多,也颇受硬核技术流玩家们的喜爱,他们可以搭建自己的动作捕捉设备方案。

2)以人工智能为核心的动作捕捉方案,借助设备上自带的摄像头,如iPhone里搭载的深感摄像头实现面部捕捉功能,并且通过深度学习,训练算法将2D图像转换成3D图像,从而让一些坐着的主播可以拥有一个活灵活现的虚拟形象。

由于这种动作捕捉方案对硬件要求较低,多数依靠软件层的算法,因此具有较为广泛的应用空间和利润空间。代表性产品有Leap Motion、微软Kinect等。以上动捕方案的性能对比如下图所示。

3.3.渲染:主打Unreal和Unity渲染引擎,真实性和实时性均大幅提升

当通过不同的设备记录下动作方案之后,还需通过渲染引擎,对毛发、衣物等细节尽量还原。从引擎性能上来说,游戏领域的渲染引擎达到最好的渲染效果。

PBR(Physically Based Rendering,基于物理的渲染技术)渲染技术的进步以及重光照等新型渲染技术的出现使数字人皮肤纹理变得真实,突破了恐怖谷效应。

恐怖谷效应由日本机器人专家森政弘提出,认为人们对机器人的亲和度随着仿真程度增加而增高,但当达到一个较高的临界点时,亲和度会突然跌入谷底,产生排斥、恐惧和困惑等负面心理。数字人恐怖谷效应主要由数字人外表、表情动作上与真人的差异带来,其中外表真实感的关键就是皮肤材质的真实感,无论是塑料感还是蜡像感都会给人类带来不适。

PBR(Physically Based Rendering)

PBR是基于真实物理世界的成像规律模拟的一类渲染技术的集合,它的关键在于微表面模型和能量守恒计算,通过更真实的反映模型表面反射光线和折射光线的强弱,使得渲染效果突破了塑料感。

常见的几款3D引擎,如Unreal Engine4、Cry Engine3、Unity 3D5,均有了各自的PBR实现。

重光照技术

重光照技术通过采集模拟多种光照条件的图像数据,测算数字人表面光照反射特性,并合成出数字人模型在新的光照下的渲染结果,使计算机中的虚拟数字人在任意虚拟环境下都可以呈现近乎真实的效果,它彻底改变了传统渲染方式通过模拟皮肤复杂的透射反射来计算渲染总会带来误差的局面。

该技术在2000年初由南加州大学实验室创建Light Stage平台时提出,并开始了相关研究,目前已经经过7代的迭代发展,已被成功应用到《阿凡达》、《复仇者联盟》等众多经典影片的角色制作中。

渲染技术也可分为实时渲染技术和离线渲染技术,二者在渲染时长、计算资源计算量等方面存在差异,所对应应用场景亦有所不同。

近些年来,尤其是随着NVIDIA GeForce RTX显卡的发布与扩张,GPU并行计算的加速性能逐渐走向了台前。对经常使用MAYA、3DSMax、BlenderCycles、Resolve、PremierePro等CG、视频创作软件的用户来说,GPU加速已经成为了比CPU加速更为优秀的渲染解决方案。NVIDIA Studio组件的核心就是NVIDIA RTX GPU(Quadro、GeForce等)。RTX GPU里不只有渲染的核心、光线追踪的核心,还有基于人工智能运算的加速引擎,可以确保RTXG PU有最高的性能。

4.应用场景:虚拟数字人落地场景丰富,偶像营销或为先发赛道

虚拟人及数字人应用领域多元,主力文娱及服务行业。在画面呈现方式日渐成熟的的基础下,叠加5G、算力、AI等技术能力的提升,其落地场景日渐丰富。如今不再限于传统文娱如影视、动画在人物建模、CG等方面在虚拟形象塑造的应用,还在社交、游戏、办公等场景实现了真实人类虚拟化身的身份职能,并逐渐于直播电商、偶像造星、陪伴服务等AI虚拟数字人领域实现商业变现。

4.1.游戏:玩家数字化身需求日益提升,头部游戏厂商具有数字人技术积累

王者荣耀语音包在哪里设置(王者荣耀语音包在哪里设置李小龙)

用户接受度低于预期

用户接受度逐渐提高但低于预期,用户对于虚拟偶像的定位不准确表示质疑。例如国风虚拟偶像翎带货唇膏。用户对于文案中的“滋润不干”等推荐语提出质疑,且推荐的品牌Gucci与翎的国风人设并不相符。

行业政策监管风险

虚拟世界里面的虚拟数字人物所有权、犯罪行为尚没有法律上的界定。目前针对虚拟数字人行业的政策较少,行业内缺乏统一技术标准和体系,产品质量良莠不齐。虚拟数字人技术在发展中会引发一些法律问题和伦理风险,需要提前建立相关制度进行防范。

版权管理及保护风险

虚拟数字人目前在IP版权保护上的政策不够完善,尤其在已故艺人的形象使用上尚未有完善的版权保护,一般都是由已故艺人的家人或生前签约演艺公司取得形象使用权。一旦该行业发展到一定规模,已故艺人形象使用权的争执也有可能随之增多。

用户隐私风险

在元宇宙中,每天有大量的用户隐私数据被收集,谁拥有这些数据、谁来管控这些数据是数字虚拟数字人中潜藏着的风险。因此需要一个高度可靠的系统来进行监管。