一张照片驱动数字人出门问问推出新照片数字人引擎WetaAvatar 4.0

罗瑄
2024-04-28 00:00:00 3146

+关注

AIGC时代下的数字人生成技术：出门问问的创新突破

随着科技的快速发展，AIGC（人工智能生成内容）领域迎来了一场革命性的变革。在这一背景下，出门问问自主研发的照片数字人引擎，以其卓越的技术创新能力，成功实现了将单一照片转换为能够讲话、讲述故事的动态视频，成为该领域的佼佼者。

创新迭代：从WetaAvatar 3.0到4.0-Talking Photo

自2023年推出WetaAvatar 3.0数字人系统及其照片数字人引擎以来，出门问问凭借其简单易用且生动的生成效果，迅速获得了用户的广泛认可。为持续提升用户体验，公司不断推陈出新，于近期发布了新一代的照片数字人引擎——WetaAvatar 4.0-Talking Photo。这一版本在视频生成的清晰度、真实感及合成速度等方面实现了显著优化，同时，出门问问正在积极探索照片数字人实时对话引擎，不断拓展技术创新的边界。

WetaAvatar 4.0-Talking Photo的优化亮点

合成速度翻倍：显著提升了合成速度，大幅度缩短了用户等待时间。
背景渲染优化：确保视频背景与原图色彩无缝融合，提升视觉效果。
人物背景分离增强：确保人物与背景之间解耦更为紧密，提高视频质量。
牙齿与嘴型精准复现：细节处理更精细，确保语音输出的真实性和自然性。

大模型赋能：自然语音输出与数字人互动体验升级

出门问问的MeetVoice Pro语音大模型技术，使用户仅需提供文本内容，即可生成自然流畅的语音输出。结合数字人系统，这些语音被转化为同步的嘴形动作和表情变化，创造出生动、表现力丰富的数字人视频，为用户提供全新的互动体验和内容创作方式。

高效双模块引擎：实现高质量效果

WetaAvatar 4.0-Talking Photo采用高效双模块设计，包括运动预测模块和人脸驱动模块。运动预测模块利用先进语音分析技术，精确生成与语音匹配的嘴型动画，确保声音节奏与动作同步；人脸驱动模块结合预生成的驱动视频和用户输入的静态图片，生成高度表现力的运动场，驱动图片生成动态变化的数字人视频。

创意无限：奇妙元平台的应用与扩展

「奇妙元」平台搭载WetaAvatar 4.0-Talking Photo引擎，支持用户释放创意潜力，将各种风格的人物照片驱动，生成高质量动态视频。用户不仅能够实现人物自然地说话、讲述，还能让照片中的人物“唱歌”，赋予老照片新的生命。此外，平台对皮克斯风格照片进行人物驱动，效果逼真。即使照片中存在面部遮挡物，也能精准捕捉面部特征，确保图像生成的准确性。对于年代久远的老照片，「奇妙元」能进行精准上色和高清渲染处理，让珍贵记忆焕发新生。

展望未来：实时对话引擎与大模型技术的融合

出门问问技术团队正致力于基于WetaAvatar 4.0-Talking Photo的实时照片对话引擎研发，目标是为用户提供更加丰富和深入的交互体验。同时，公司持续探索基于大模型的数字人生成技术，以Sora模型的问世为起点，期待在大模型的加持下，创造出更加生动、真实的数字人，引领数字人技术的新篇章。

图灵汇

责任编辑：：罗瑄

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。