值两会之际,搜狗与新华社联合推出全球首个3D人工智能合成主播辛小伟,正式登场,为观众播报两会的最新新闻资讯。自2018年搜狗自家分身技术推出全球首个AI合成主播以来,这也是搜狗首次将2D虚拟人升级为3D图像。
一个很直观的感受是,与之前的2D人工智能合成主播相比,3D新小伟更加立体。呈现方面,它可以支持多摄像头、多种景深、任意360角度,更接近我们平日看电视新闻的演播室。调度。
3D AI合成主播可支持多机位拍摄
2D AI合成锚点
搜狗3D人工智能合成主播背后有哪些技术改进?对商业落地和搜狗自身的战略规划带来什么价值?对此,搜狗AI合成主播研发团队首次向搜狐科技等媒体透露了其背后的故事。
搜狗AI交互技术部部长陈伟介绍,3D人工智能合成主播辛小伟是以新华社记者赵万伟为原型的。它首先利用扫描修复、面部肌肉驱动、表情和身体捕捉等技术,生成高度还原真人头发和皮肤的逼真数字图像。人体模型;同时结合多模态建模技术,利用语音、图像、文本、3D肌肉运动数据等多模态信息完成联合建模训练,生成我们现在看到的3D AI合成锚点。
事实上,搜狗并不是第一个创造超写实、拟人化3D数字人的公司。 CG动画技术已经成熟地应用于影视特效制作中,并且可以完全模仿真实的事物。在电影《速度与激情7》中,已故主演保罗·沃克仍然通过这种虚拟重生的方式在影片中承担了更重的角色,但这对应着极其漫长的制作周期和高昂的成本,这导致后期渲染成本高达5000万美元。
在游戏3D行业,专业美术师需要花费近一个月的时间才能制作出一分钟的高逼真CG视频;之前我们还了解到有一家公司制作了一部电影,剪出了超写实的CG视频。陈伟说,这个(CG)剪辑只需要一分半钟,但数百人花了一年半的时间制作,这已经算非常快了。
《速度与激情7》中虚拟合成的经典镜头
然而,新的小微企业不需要如此高成本和复杂的步骤来报道新闻。由于此前有制作2D人工智能合成主播的经验,以及人工智能带来的自动化和低成本优势,搜狗从立项到完成大约用了半年时间,制作成本约为百万元。
虽然在保真度方面与一流的影视特效还有差距,但3D人工智能合成主播的一个非常重要的特性就是文字驱动,即能够输入一段新闻文字,输出一段视频或一段视频。视频流,并且这种视频输出能力是实时的。无论是我们平时接触到的电影中的特效人物,还是游戏中的NPC,往往都需要大量的人力和时间来打磨。搜狗3D人工智能合成主播是一项高性价比的创新,体现了人工智能在降本增效方面的价值。
文本驱动技术背后的原因是,与CG技术相比,搜狗实现了AI驱动技术。事实上,即使卡通虚拟歌手洛天依看上去比超写实的数字人难度低,但其最终能达到的效果也是通过真人采集、后期制作和反复播放来实现的。 《新小伟》的制作仅用了一个小时就收集到了原型人物新华社记者赵万伟的声模。此前,搜狗已通过数十人、数千小时的数据训练出一套基础模型,涵盖新闻、小说、客服、论文等领域,然后通过原型赵的少量数据进行迭代优化。万维。
这种做法也意味着学习可以转移,从而催生了多个新的微型企业。除了迁移能力之外,从投放角度来看,3D AI合成锚点的门槛并不高。他们只需要为客户提供一个在线生成的服务网站。
目前,虚拟数字人的研发和生产已经成为全球各大科技公司AI实力储备的一部分,国外如三星,国内如百度、科大讯飞、商汤科技等。到了AI主播,金融、司法、教育领域的也不少。土地。
平安普慧与搜狗联合打造的AI视频面试机器人
而当虚拟数字人从2D升级到3D时,灵活性的增加也将意味着它适用于越来越多的场景。 “现在我们可能会看到(AI主播)开始进来站着给大家直播,也许在不久的将来,他们可能会去外景采访人。”搜狗AI互动技术部总裁陈伟表示。
今年年初的CES 上,三星的人造人项目Neon 引起轩然大波。在宣传视频展示中,三星为这些假数字人预设了更广泛的未来应用场景。他们可能是您的老师或健康顾问。也许会成为电影明星。
陈薇表示,搜狗还有更宏伟的愿景:——,以语言为核心的人工智能技术战略布局,从语言延伸到自然交互和知识计算,最终希望实现虚拟个人助理。
然而,从Siri之父最终放弃Siri,到雷军演示时小爱同学多次短路,AI私人助理已经存在了很多年,也尴尬了很多年。 ——它的智能水平完全无法承受我们对私人助理的期望。这四个字背后,充满了期待。
陈薇也坦言,在超写实虚拟数字人领域,相比保真度的提升,真正的难点在于语言理解。在感知层面,表达能力强的虚拟数字人可以代替主播的部分工作,但很难实现与人的进一步互动。 —— 目前机器对通用语言的理解仍然不够。我们看到的语音助手无非就是提问。询问天气怎么样,点首歌,讲一些笑话。因此,我们逐渐看到针对垂直场景定制其对话能力是目前可行的解决方案。
不同的垂直场景定制也意味着更高的难度。跳到教育领域,如果你是一名在线老师,在与学生交流时,他不可能像主播那样坐得端正。陈伟说,当学生表现好的时候,他可能需要时不时地竖起大拇指。在金融场景中,AI虚拟客服需要通过一对一聊天、不断观察、提问来获取所有客户信息。
百度、科大讯飞、商汤科技等领先的人工智能公司遵循场景驱动的思路,正在探索不同的垂直领域。关于行业竞争,陈薇表示,从识别到生成,以及融合在一起的多模态能力,以及对话和问答的能力,这里面涉及到很多技术,有还有很多技术联系。我认为一个企业想要发展数字人相关的技术,需要一个完整的体系以及系统之间的协调。我认为这是一个比较大的障碍。