去年底,一个叫做绊爱(Kizuna AI)的虚拟偶像上线国外视频网站YouTube,凭借可爱的形象和甜美的声音瞬间圈粉无数。在无数宅男为之倾倒的背后,这种能够与观众进行实时互动的“人工智障”,又是如何炼成的呢?
为了搞清楚这个问题,我们查阅了大量的相关资料并对爱酱这一虚拟形象的制作过程进行了推演,虽然无法保证与真实的制作过程完全一致,但大致的套路是绝逼不会错的。
从这个视频中,我们可以看出,爱酱这一虚拟形象被刻画得非常形象:声音甜美、表情多变,既萌又蠢还智障!
那么问题来了,她真的是人工智能吗?
NoNoNo!虽然爱酱始终宣称自己是“Super AI”,但其实,这只是官方对于绊爱(Kizuna AI)这一虚拟形象的“设定”而已。实际上,爱酱的制作过程,简单来说,主要包括以下三个要素:
①声优做动作+配音+语音识别对口型
②由专人控制的丰富的面部动态表情包
③以动捕为核心的“动作捕捉系统KiLA”
而在说明这三点之前,首先我们要明确的一点就是,爱酱的视频或是直播,其实只是一种
三维动画!
这一点,从Kizuna AI的官网上就可以印证。Kizuna AI表示,爱酱这一虚拟形象的模型由MMD制作而成,感兴趣的大胸弟可以移步其官网进行下载。
而要让这个由MMD制作的“爱酱”动起来,则需要用到下面这套可以对动作进行实时捕捉并模拟的动作捕捉系统KiLA(核心)!
首先,需要由对“爱酱”这一虚拟形象进行配音的声优小姐姐穿上名为“Perception Neuron”的惯性动作捕捉设备(由国内厂商诺亦腾提供);
然后,在经过几个步骤的动作校准之后,爱酱就可以根据声优小姐姐所做出的动作活灵活现地出现在屏幕上;
最后,在Unity的环境中为已经完成动捕校准的“爱酱”建立虚拟摄像机,就可以从不同的角度观察这个传说中的“人工智障”啦!
而将这一图像进行捕捉,或剪辑成视频、或直接推流并开启直播,就可以像往常一样见到“爱酱”啦!
既然爱酱的声音和动作都是靠背后的声优小姐姐“表演”出来的,那么,爱酱各种智障的表情又是如何制作出来的呢?
起初,我们猜测爱酱的表情是由FaceRig或类似的图像识别软件通过捕捉声优小姐姐面部表情进行实时演示,比如说这样:
在KiLA的官方演示视频中,我们发现,爱酱丰富的表情其实是官方提前为她准备的一大堆“表情包”,在声优小姐姐进行配音并做出某些动作时,爱酱眼部的表情需要由另一位工作人员控制:
而爱酱的嘴型,则是根据语音识别技术自动进行匹配(目前该技术已十分成熟)。
所以说,我们所喜爱的人工智障爱酱,其实是由两个人共同协作来完成的!这也解释了为什么爱酱在很多时候的表情都这么“智障”了(感情根本就不是一个人)!
看到这里,还有人会认为爱酱是一种人工智能吗?
作为一个老司机,我可以非常明确地告诉你:爱酱的确是“人工”的,但她并不“智能”!不过,这并不妨碍大家对爱酱这一虚拟形象的喜爱!