随着科技的快速发展,AIGC(人工智能生成内容)领域迎来了一场革命性的变革。在这一背景下,出门问问自主研发的照片数字人引擎,以其卓越的技术创新能力,成功实现了将单一照片转换为能够讲话、讲述故事的动态视频,成为该领域的佼佼者。
自2023年推出WetaAvatar 3.0数字人系统及其照片数字人引擎以来,出门问问凭借其简单易用且生动的生成效果,迅速获得了用户的广泛认可。为持续提升用户体验,公司不断推陈出新,于近期发布了新一代的照片数字人引擎——WetaAvatar 4.0-Talking Photo。这一版本在视频生成的清晰度、真实感及合成速度等方面实现了显著优化,同时,出门问问正在积极探索照片数字人实时对话引擎,不断拓展技术创新的边界。
出门问问的MeetVoice Pro语音大模型技术,使用户仅需提供文本内容,即可生成自然流畅的语音输出。结合数字人系统,这些语音被转化为同步的嘴形动作和表情变化,创造出生动、表现力丰富的数字人视频,为用户提供全新的互动体验和内容创作方式。
WetaAvatar 4.0-Talking Photo采用高效双模块设计,包括运动预测模块和人脸驱动模块。运动预测模块利用先进语音分析技术,精确生成与语音匹配的嘴型动画,确保声音节奏与动作同步;人脸驱动模块结合预生成的驱动视频和用户输入的静态图片,生成高度表现力的运动场,驱动图片生成动态变化的数字人视频。
「奇妙元」平台搭载WetaAvatar 4.0-Talking Photo引擎,支持用户释放创意潜力,将各种风格的人物照片驱动,生成高质量动态视频。用户不仅能够实现人物自然地说话、讲述,还能让照片中的人物“唱歌”,赋予老照片新的生命。此外,平台对皮克斯风格照片进行人物驱动,效果逼真。即使照片中存在面部遮挡物,也能精准捕捉面部特征,确保图像生成的准确性。对于年代久远的老照片,「奇妙元」能进行精准上色和高清渲染处理,让珍贵记忆焕发新生。
出门问问技术团队正致力于基于WetaAvatar 4.0-Talking Photo的实时照片对话引擎研发,目标是为用户提供更加丰富和深入的交互体验。同时,公司持续探索基于大模型的数字人生成技术,以Sora模型的问世为起点,期待在大模型的加持下,创造出更加生动、真实的数字人,引领数字人技术的新篇章。