一张照片驱动数字人 出门问问推出新照片数字人引擎WetaAvatar 4.0
作者头像
  • 罗瑄
  • 2024-04-28 00:00:00 3146

AIGC时代下的数字人生成技术:出门问问的创新突破

随着科技的快速发展,AIGC(人工智能生成内容)领域迎来了一场革命性的变革。在这一背景下,出门问问自主研发的照片数字人引擎,以其卓越的技术创新能力,成功实现了将单一照片转换为能够讲话、讲述故事的动态视频,成为该领域的佼佼者。

创新迭代:从WetaAvatar 3.0到4.0-Talking Photo

自2023年推出WetaAvatar 3.0数字人系统及其照片数字人引擎以来,出门问问凭借其简单易用且生动的生成效果,迅速获得了用户的广泛认可。为持续提升用户体验,公司不断推陈出新,于近期发布了新一代的照片数字人引擎——WetaAvatar 4.0-Talking Photo。这一版本在视频生成的清晰度、真实感及合成速度等方面实现了显著优化,同时,出门问问正在积极探索照片数字人实时对话引擎,不断拓展技术创新的边界。

WetaAvatar 4.0-Talking Photo的优化亮点

  • 合成速度翻倍:显著提升了合成速度,大幅度缩短了用户等待时间。
  • 背景渲染优化:确保视频背景与原图色彩无缝融合,提升视觉效果。
  • 人物背景分离增强:确保人物与背景之间解耦更为紧密,提高视频质量。
  • 牙齿与嘴型精准复现:细节处理更精细,确保语音输出的真实性和自然性。

大模型赋能:自然语音输出与数字人互动体验升级

出门问问的MeetVoice Pro语音大模型技术,使用户仅需提供文本内容,即可生成自然流畅的语音输出。结合数字人系统,这些语音被转化为同步的嘴形动作和表情变化,创造出生动、表现力丰富的数字人视频,为用户提供全新的互动体验和内容创作方式。

高效双模块引擎:实现高质量效果

WetaAvatar 4.0-Talking Photo采用高效双模块设计,包括运动预测模块和人脸驱动模块。运动预测模块利用先进语音分析技术,精确生成与语音匹配的嘴型动画,确保声音节奏与动作同步;人脸驱动模块结合预生成的驱动视频和用户输入的静态图片,生成高度表现力的运动场,驱动图片生成动态变化的数字人视频。

创意无限:奇妙元平台的应用与扩展

「奇妙元」平台搭载WetaAvatar 4.0-Talking Photo引擎,支持用户释放创意潜力,将各种风格的人物照片驱动,生成高质量动态视频。用户不仅能够实现人物自然地说话、讲述,还能让照片中的人物“唱歌”,赋予老照片新的生命。此外,平台对皮克斯风格照片进行人物驱动,效果逼真。即使照片中存在面部遮挡物,也能精准捕捉面部特征,确保图像生成的准确性。对于年代久远的老照片,「奇妙元」能进行精准上色和高清渲染处理,让珍贵记忆焕发新生。

展望未来:实时对话引擎与大模型技术的融合

出门问问技术团队正致力于基于WetaAvatar 4.0-Talking Photo的实时照片对话引擎研发,目标是为用户提供更加丰富和深入的交互体验。同时,公司持续探索基于大模型的数字人生成技术,以Sora模型的问世为起点,期待在大模型的加持下,创造出更加生动、真实的数字人,引领数字人技术的新篇章。

    本文来源:图灵汇
责任编辑: : 罗瑄
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
数字照片出新WetaAvatar问问出门驱动引擎4.0
    下一篇