浅谈数字人仿真的渲染技术(一)

前言

在2022年12月,我受邀在OGEEK上做过一次关于数字人渲染技术的分享,名为《浅谈数字人仿真的渲染技术》。为了这次分享我查阅了大量资料做了很多准备,但是很不幸的是在分享的前两天我便感染了新冠,身体开始发烧外加喉咙开始隐隐作痛。为了不影响OGEEK的流程我便在病情还未恶化的时候将分享提前录了下来,以播片的形式参加。

这段经历确实还挺难忘,近期又翻到了这篇准备的PPT,和演讲的录屏,于是想将这部分内容做个记录,整理成文章分享出来。

由于PPT内容还是比较多的,哪怕是精简后的版本也还有50多页,于是乎会准备做成一个系列,当初精简掉的部分可能也会想办法补充回来,让内容尽量的充分。

数字人简介

数字人的定义

目前数字人缺乏一个统一的标准定义,我们从它的发展起源,从技术角度上选择一个最宽泛最简洁的标准:由计算机生成的人类。

中国人工智能产业发展联盟发布的《2020年虚拟数字人发展白皮书》中给了一个更加详细的定义:虚拟数字人意指具有数字化外形的虚拟人物,除了拥有人的外观、人的行为之外、还有拥有人的思想,具有识别外界环境、并能与人交流互动的能力。

那其实这个定义里面,也描述了数字人相关的几个关键技术方向,包括:渲染-外观,行为-驱动算法,思想-AI,识别外接环境-感知,与人交流互动-表达

数字人的发展历史

在上世纪80年代,其实就有虚拟形象引入到现实世界的想法。
1982 年,动画片《太空堡垒》中的女角色林明美作为虚拟歌姬出道,其专辑也成功打入当时的知名音乐排行榜。日本媒体率先提出了“虚拟偶像”的称号。1984 年,世界首位虚拟电影演员“Max Headroom”诞生,出演电影,并拍摄数支广告,在英国家喻户晓。

林明美

此时,虚拟人概念先行,给予虚拟形象以立体化人设,并带入大众视野。但受制于技术发展,“数字化”在这个阶段并不明显。打造虚拟人的技术以手工绘制为主,人物形象以 2 D 卡通的形式展现,展现方式以事先完成的音频和视频为主,并不具备实时交互功能。

进入 21 世纪,虚拟人的 数字化特征逐渐明显。形象创建上,虚拟数字人开始从手绘转向 CG和动捕等计算机技术。

2007 年,日本虚拟歌手“初音未来”的诞生与流行。初音未来的虚拟形象采用 CG 和动作捕捉技术。在动作捕捉技术的助力下,初音未来可以直接采用人类的表情和动作,并借助 CG 技术真实的360度渲染出来。作为虚拟歌姬,初音未来的歌喉基于 VOCALOID(电子音乐制作 的 语音合成软件)。采样于日本声优藤田咲,创作者只需要输入歌词和旋律,就能够自动形成歌曲。

初音未来

近年来,由于各项技术的不断发展,出现了越来越多高真实度的数字人形象。

比如说2016年出现的miquela,她在ins上的出现引发了一场“真假辩论”。许多粉丝相信她是真实存在的人物,只是修图“狠”了点。直到黑客们入侵了她的账号,才最终确定了她是由 3 D 电脑动画公司制作的虚拟人。她甚至在2018年一起被美国《时代》周刊列为“25 位最有影响力的互联网人物”

同样是在2018年,由腾讯、Epic Games推出了Siren项目。Siren 的所有动作表情都由实时捕捉以及实时渲染形成,并且整个过程只有15毫秒,60帧。Siren在渲染的真实性和交互性之间找到平衡,打造了具备实时交互能力的数字虚拟人。

siren

数字人的分类

数字人可以按照不同维度进行分类。

按照美术风格:

  • 2D、3D
  • 写实、卡通、风格化

按照驱动方式:

  • 真人驱动
  • AI驱动

按照商业和功能维度:

  • 内容/IP型
  • 功能服务型
  • 虚拟分身

数字人的发展

近几年,虚拟数字人在电商、金融、影视、游戏和金融等行业都拥有不同大小的市场规模。
我们拿虚拟偶像的市场作为例子。虚拟偶像行业2020年中国的市场规模为34.6亿元,预计2023年将达到205.2亿元。带动的市场从2020的645.6亿元,预计2023年增长到3334.7亿元,是一个指数级的增长。

当然除了虚拟偶像数字人还有很多其他方面的应用,所以市场前景是非常可观的。下面是一个虚拟偶像市场规模及预测的分析。

虚拟偶像市场规模

数字人的制作流程简介

数字人制作大致分4个阶段:

  1. 第一阶段(形象设计):明确形象设计方向。

  2. 第二阶段(模型制作):根据平面形象,进行模型搭建。
    这里我们以可能是最为复杂的超写实数字人的制作流程进行举例,首先在lightstage里面扫描模型(扫描仪,360度单反相机阵列,300多个相机组成)。扫描出来的模型是一个点云,需要模型师去调整,抚平一些瑕疵。去除扫描的毛刺。有些部位可能拍照的时候出现遮挡(比如耳后),需要在模型软件工具中处理好。
    老黄扫描
    老黄建模

  3. 第三阶段(驱动绑定):
    面部动画face rig绑定驱动,通过动画,人脸识别,或者AI去驱动。或者使用blendshape等技术。
    身体躯干使用骨骼绑定,辅以动作捕捉等等。
    metahuman(UE)面部驱动
    老黄驱动

  4. 第四阶段(渲染):将场景、人物放入渲染工具进行渲染输出,常用的工具包括nVidia omniverse、unreal engine等等。
    老黄模型渲染

目前虚幻引擎5的metahuman creator是一个很流程化且易于使用的数字人制作工具。

结语

第一部分先总结到这里,在后面的部分我会更加详细的介绍一些数字人渲染技术,包括皮肤、头发的渲染以及卡通渲染等等。


浅谈数字人仿真的渲染技术(一)
https://ruochenhua.github.io/2024/12/28/digital-human-render-1/
作者
发布于
2024年12月28日
许可协议