基于三维姿态估计的虚拟角色运动控制方法

日期：2023-02-12 17:48:13 / 人气：315

杜昊昊韩菲琳北京电影学院影视技术系硕士生导师，次要研讨方向：数字电影技术、虚拟理想。摘要随着虚拟制造在电影、游戏、直播等各个范畴的普遍使用，虚拟角色控制办法成爲目前研讨热点之一。本文将人工智能举措提取与游戏引擎实时交相互结合，研讨一种愈加高效的虚拟角色运动控制办法，借助三维姿势估量算法，基于视频影像提取举措数据，将其与虚拟角色绑定，完成实时举措驱动，并经过实验梳理了运用流程及操作要点。该办法不依赖于价钱昂扬的举措捕获设备，操作便捷、本钱昂贵，可以无效效劳于虚拟预演等使用场景。虚拟角色运动控制三维姿势估量举措捕获1引言虚拟角色运动控制在动画、电影、电视剧、舞台扮演等方面发扬着重要作用。近年来，虚拟角色在演唱会、直播、社交媒体等范畴的普遍使用，也爲其发明了挪动互联网等众多新的使用场景和需求。后疫情时代线上社交、XR演唱会、VR、AR、元宇宙等产业飞速开展，虚拟人的使用场景日益丰厚。虚拟角色运动控制触及虚拟角色建模、举措捕获、三维扫描、计算机视觉等，效劳于展示流利、自然的虚拟人举措，制造丰厚、多样的虚拟人动画，具有非常重要的研讨意义。图1 举措捕获在影视制造中的使用示例传统的举措捕获零碎在电影、游戏、舞台直播等各方面均有较爲成熟的运用，合适举措精度要求高、扮演细节丰厚的使用场景。图1（1）爲2009年上映的电影《阿凡达》，经过在演员、马匹及道具上粘贴标志点，完成虚拟角色的举措捕获，并结合虚拟拍摄零碎完成虚拟角色的实时监看；图1（2）爲游戏《英雄联盟》的衍生虚拟女团K/DA，在英雄联盟2018年赛季全球总决赛开幕式舞台上，以AR方式与真人歌手同场登台演唱歌曲POP STAR，图1（3）爲真人替身演员爲POP STAR的现场扮演进举动作捕获数据采集；图1（4）爲游戏《生化危机·村庄》，借助真人扮演捕获来制造游戏过场动画，以期到达恐惧逼真的视觉效果。当虚拟角色造型或扮演需求夸大时，也常由动画师在三维软件中制造动画，如游戏《马里奥的折纸王国》中玩家控制的虚拟角色，其举措来自动画师制造的角色举措库，再借助引擎完成玩家交互式运动控制等。影视级举措捕获零碎通常需求演员在举措捕获摄影棚中扮演并穿戴专业设备，价钱非常昂贵，而且空间受限。当影视作品触及少量虚拟角色群戏场景时，如举措类似且规模庞大的战役局面，其群演群体举措的获取，若采用举措捕获方案，消耗人力物力；若由动画师制造，则需较长工期；若采用顺序化举措生成，其生成后果往往不够真实自然。随着元宇宙产业的开展，虚拟角色举措驱动的需求也下沉到更多挪动端用户，常可见于QQ秀、淘宝虚拟客服等功用，在挪动端开放用户可自选的举措库。因而提出本钱更爲昂贵、数据取得更爲便捷但异样可以到达效果需求的举措捕获方案具有宽广的使用空间。随着计算机图形学、深度学习的开展，从图像或视频中获取可以驱动虚拟角色数据信息的技术办法越来越丰厚，三维姿势估量作爲一种更爲高效、易操作、本钱昂贵的举措捕获方案，使得上述想象成爲能够。本文基于上述的行业需求以及目前虚拟人建模、举措捕获的技术现状提出了一种基于三维姿势估量的虚拟角色运动控制办法。2相关打工2.1 虚拟角色建模办法虚拟角色的驱动实验首先需求获取虚拟角色模型，目前关于虚拟人的建模制造有多种方式，较爲常用的建模类型有：基于三维软件的创作型建模；基于三维扫描设备的捕捉型建模；基于二维图像的拟合型建模；基于数据库及数字人编辑器的参数化建模。［1］本实验中采用的虚拟角色建模方式，是基于数据库和数字编辑器的参数化建模。此办法需树立一个包括各团体体部位的数据库，包括不同形体的人体模型和各类人体部位。经过查找最近似的人体模型预设，编辑、调整和修正各部位参数，从而失掉一个定制化三维人体模型。目前此类办法最常用的工具有MetaHuman Creator、Character Creator 3、Daz 3D等。此类办法依赖于用户的察看力和经历，以及工具的参数化水平，参数化水平低会影响用户修正人体模型的自在度，参数化水平高会需求少量工夫修正参数且依赖用户的制造经历。MetaHuman Creator爲目前较爲普遍运用的工具之一。首先经过扫描失掉少量的真实人类面部信息，经过人工智能和机器学习处置数据，提取出每个角色的特征点信息，以DNA数据格式存储，用于描绘角色的外表、骨骼绑定。借助Unreal Engine（UE）的GenePool数据库，将用户的捏脸交互操作，转换爲在GenePool数据库中停止检索与混合，防止了传统捏脸算法的几何约束计算，可以在较短的工夫内制造出更真实自然的人脸模型，大大降低用户操作门槛。基于用户捏好的数字角色，也会生成一份无独有偶的DNA数据。该工具采用像素流送(Pixel Streaming)技术在云端效劳器上运转UE使用顺序，经过WebRTC将渲染的帧和音频流送到阅读器和挪动设备，在云端UE中制造的数字人也可以导出到本地UE中运用，大大降低了用户的硬件门槛，真正完成所见即所得［2］。2.2 虚拟角色举措捕获办法举措捕获技术最早来源于动画范畴，随着科技的开展，举措捕获的技术手腕越来越丰厚且在电影、游戏、VR等各行各业均有非常普遍的使用。目前已开展出多种多样举措捕获处理方案，依据输出方式的不同，可以分爲基于外设捕捉运动数据的方式，如运用视觉传感器和惯性传感器的办法，以及基于内在生理视觉数据的时序性辨认方案。在运用外设的举措捕获技术中，依据设备检测方式的不同，可以分爲光学式和惯性式；在可穿戴式人体举措捕获办法中，依据传感器的不同，可以分爲基于IMU（Inertial Measurement Unit）惯性传感器、RGB摄像头、深度摄像头或红外传感器等［3］的举措捕获办法。本实验中运用的虚拟角色三维姿势估量的办法则是基于计算机视觉的举措捕获办法。依据数据来源不同可分爲：基于深度图像的办法、基于红外图像的办法、基于RGB黑色图像的办法以及基于多模态数据交融的办法。依据图像采集方式可分爲：基于单目视觉、基于双目视觉和基于多视图交融。关于单目视觉人体举措数据获取办法，依照算法处置进程可分爲：二步法、间接法、端到端等［4］。随着挪动端的开展和短视频时代的到来，完成了不受场地和设备限制的举措捕获方式。基于单目图像的二维姿势估量技术绝对成熟，关于三维姿势估量而言，短少深度信息，从单目视觉信息恢复人体三维姿势具有不确定性和恣意性，较难间接失掉关节之间的转换矩阵等运动信息，人体骨骼关节点解算需停止一定的假定和逆向运动学求解。同时关于举措数据的提取，需求完成举措的时序性建模与辨认，才干提取出连接的举措信息。本文选取DeepMotion办法参与三维人体姿势估量，用于从视频数据中获取三维举措数据。3实验办法该实验流程次要包括：二维举措视频挑选、三维举措数据提取、虚拟角色制造、虚拟角色驱动，如图2所示。首先挑选视频源，选取明晰且包括人体运动的片段，用于三维举措数据提取，然后借助三维姿势估量工具停止剖析解算，将失掉的三维举措数据映射到目的虚拟角色已绑定的骨骼构造，以完成虚拟角色的举措驱动。在此理论方案中我们采取DeepMotion作爲三维姿势估量工具，采用MetaHuman Creator生成目的虚拟角色，最初在UE5中完成举措的重定向完成虚拟角色的举措驱动。图2 基于视频的虚拟角色举措驱动办法3.1 三维举措数据提取工具目前，基于视频的举措提取工具次要有DeepMotion的Animate 3D、PixCap、Plask、RADICA、ThreeDPoseUnityBarracuda、CMU OpenPose、Vibe等，本文获取三维举措数据次要采用DeepMotion的Animate 3D功用。DeepMotion基于AI技术，完成从二维视频获取BVH/FBX格式的三维举措数据，可用于虚拟角色模型运动重定向并生成三维虚拟角色动画，可以完成物理模仿、足部固定、变速控制、全身举措及面部手部举措追踪等功用。DeepMotion提出了一种基于轨迹优化、深度加强学习的高效处置流程，可以对包括胯下运球、穿插运球等各类运球方式停止鲁棒性较高的学习和举措控制［5］。目前在DeepMotion平台上也开放了手部举措数据的检测提取功用。图3 DeepMotion操作界面关于DeepMotion而言，想要失掉最优的举措质量，对人体举措视频源素材有以下几点要求：（1）视频拍摄机位需固定且平行于拍摄人物；（2）全身或从头部至腰部的上半身应明晰可见，在距摄影机2~6米的间隔最佳；（3）与背景有强比照的中性光照条件爲佳；（4）被摄人物应不被任何物体遮挡，同时应在视频片段中只要一名人物；（5）不要穿着会遮挡膝盖、手肘等关键关节的宽松衣物；（6）关于脸部、手部的追踪在仅有上半身的形式最佳。因而在停止视频信息的输出时，便需求停止一定的挑选。如图3所示，挑选后的视频上传后依据输入需求停止处置方式的选择，最初停止三维举措生成。如图3爲DeepMotion的操作界面，可依据举措数据提取的需求停止相应的设置，包括输入格式的设置（选定BVH、FBX、MP4等），骨骼根节点设置（确保在UE5中骨骼的复用），物理过滤设置（使运动解析后果愈加平滑波动），面部、手部的举措捕获，能否只要上半身等。在本次实验中我们采取如图3所示的参数设置，在停止对视频举措的解析前，会停止参数设置确实认。爲验证本文办法的无效性，我们设计了虚拟角色运动控制实验，采用了经典电影的举措片段、团体拍摄举措片段、先生电影短片举措片段等作爲视频源进举动作提取。在实验后期获取视频素材时，团体拍摄的举措片段较爲容易满足上述条件。成片电影中，往往需求经过非线性编辑展示丰厚的拍摄手法，借助视听言语表达其视觉艺术特性，只要较大批视频素材满足上述要求，若需使用在电影拍摄中，该当架设专门的机位用于举措捕获。关于舞台扮演来说，通常有记载单人舞台的直拍素材，十分合适运用此类举措捕获流程。3.2 虚拟角色制造本实验的虚拟角色运用MetaHuman Creator停止制造。在MetaHuman Creator中创立虚拟角色，既可以间接采用预设对虚拟角色停止面部修正，也可以采取本实验使用的Mesh to MetaHuman办法失掉自定义的虚拟角色。头部网格体借助Polycam照片采集办法，取得真实人物的头部模型。本文采用的虚拟角色制造流程如图4所示。首先，经过Polycam采集真实人物照片，并失掉人物头部模型的初步后果。在停止照片扫描时需留意以下事项：（1）保证五官明晰可见，无芜杂的毛发遮挡，额头的碎发会影响后续MetaHuman面部网格体的生成；（2）选择光线平均柔和的光源环境；（3）每张相邻的照片保证有50%以上相反的特征点；（4）Polycam至多需求采集20张才可停止处置。Polycam处置照片失掉的模型如图4中第二步，系多个网格体的拼接后果，存在局部芜杂的背景网格体，会对后续的数据解析形成搅扰。因而，在第二步，需求将失掉的网格体运用Blender停止预处置。第三步，将处置后的头部网格体导入UE5中，运用插件对其停止MetaHuman的本体解算和Mesh转MetaHuman。第四步，在MetaHuman Creator中预览MetaHuman的自定义网格体，并对面部细节进一步伐整。最初，运用MetaHuman Creator指定虚拟角色的发型、皮肤、服装等纹理和材质，生成完好的虚拟角色模型，其自带的骨骼绑定可以间接用于举措重定向。图4 虚拟角色制造表示图3.3 虚拟角色运动控制经过在UE5中重定向的方式，将DeepMotion提取出的三维举措数据映射到MetaHuman骨骼，完成完好的虚拟角色驱动流程。该重定向步骤如图5、图6所示，在UE5中由IK绑定（IK Rig）和IK重定向器（IK RTG）来完成。图5 虚拟角色IK Rig骨骼序列完成举措重定向，设置DeepMotion提获得到的举措骨骼作爲源IK Rig，以及MetaHuman的骨骼链作爲目的IK Rig，需保证两者IK Rig的骨骼链完全分歧，完成关节点的逐个对应，如图5所示。本实验中使用的IK Rig以骨盆处的关节点爲根节点，包括root、Head、Spine、ArmLeft、ArmRight、LegRight、LegLeft共7条重定向链，18个关节点。在重定向器中（图6）指定源IK Rig和目的IK Rig。由于MetaHuman的初始姿势爲A-pose，需在映射前将其调整爲与源骨骼分歧的T-pose，在资产阅读器中将源IK Rig的动画序列导出爲目的IK Rig的动画序列，即可失掉MetaHuman的动画序列资产。在UE5中有多种驱动虚拟角色运动的方式，如动画蓝图、形态机等，本实验运用Sequencer给虚拟角色添加动画轨道，以完成虚拟角色的举措控制。图6 虚拟角色IK重定向器界面本实验选取12段时长在5~20s的视频，共4024帧举措数据，用作三维举措数据提取。在视频的选取时，应尽量遵照3.1所述的要求。视频来源包括：经典电影作品《爱乐之城》《芳华》《低俗小说》等呈现的舞蹈举措、网络视频以及实验拍摄的固定镜头视频。视频素材运用分辨率爲1920×1080，电影素材帧率24FPS，实验拍摄及网络视频素材帧率爲30FPS，对虚拟角色的驱动效果如图7所示。图7 虚拟角色运动控制后果表示图实验后果标明运用此办法可以满足绝大少数状况下在虚拟角色上复现视频举措的需求，但也存在一定成绩。测试标明，相较于一段20s舞蹈举措片段，将其联系爲短举措片段（如5s左右），会具有更好的举措辨认效果。经过剖析虚拟角色运动控制实验后果，本文发现，舞蹈举措中裙摆的摆动对举措辨认有一定搅扰。在存在两团体物的视频中，当人体举措没有被遮挡且镜头较爲波动时，异样可以辨认失掉较优的举措效果，但只能辨认单人人物举措，被辨认的人物是随机的。由于实验拍摄和网络视频，较容易满足镜头波动、全身、与背景比照度绝对较高、关节明晰等要求，因而选取了几段高难度舞蹈举措片段，实验后果标明，夸大四肢举措辨认效果较好。关于触及灵敏的伎俩和脚踝部分举措，辨认效果较差，容易呈现部分扭动等违背运动规律的变形，在举措平滑度和延续性方面，也会存在关节跳变。运动进程中若存在肢体穿插，容易呈现前后关系的误判，人体旋转时也会偶有漂移和颤动，若将视频源帧率降低会失掉更精确的辨认后果。4总结与瞻望本文提出了一种基于三维姿势估量的举措数据提取办法，并完成虚拟角色的运动控制，从举措视频挑选、三维举措数据提取、虚拟角色制造、虚拟角色举措控制等方面，论述了技术流程及操作办法。本文设计了虚拟角色运动控制实验，选取12组测试举措样片的4024帧人物运动帧，提取举措数据，并对虚拟角色运动控制办法停止验证。实验后果标明，该办法可以一定水平满足使用需求，相较于传统的运动捕获技术具有操作便捷、本钱昂贵、对空间不设限等优点，非常合适在挪动端和预演场景的使用。目前此办法仍存在缺乏，获取的举措在精度、自然度、流利度、波动性都有待进一步进步，仍无法满足影视级虚拟替身举措控制的需求。将来，随着基于单目图像的三维姿势估量办法的才能提升，精度更高、速度更快的举措捕获办法，将会大幅拓宽该办法的使用场景，在直播、影视、游戏、交互、VR等更多范畴到达降本增效的效果。参考文献（向下滑动阅读）［1］任利锋. 虚拟环境中的虚拟人技术研讨［D］.浙江大学,2008.［2］腾讯游戏学堂. Metahuman原理及流程浅析［EB/OL］. http∶//zhuanlan.zhihu.com/p/445646111.2022.［3］周瑞文. 基于惯性测量单元的三维举措捕获零碎关键技术研讨［D］.哈尔滨工业大学,2020.［4］李超. 基于卷积神经网络的人体行爲剖析与步态辨认研讨［D］.浙江大学,2019.［5］Liu L, Hodgins J. Learning basketball dribbling skills using trajectory optimization and deep reinforcement learning［J］.ACM Transactions on Graphics (TOG), 2018, 37(4): 1-14.

作者：杏运娱乐

基于三维姿态估计的虚拟角色运动控制方法

新闻资讯 News

案例展示 Case

现在致电 5243865 OR 查看更多联系方式 →

现在致电 5243865 OR 查看更多联系方式 →