讯飞星火多模态交互大模型上线,数字人、语音、视觉支持一键调用
作者头像
  • 2024-11-14 18:07:54 296

讯飞开放平台近日宣布,讯飞星火多模态交互大模型已经正式上线。该模型不仅扩展了语音交互功能,还实现了音视频流实时多模交互。新增的“多模态、超拟人和个性化”能力使得语音、视觉和数字人交互融为一体,只需一键调用即可实现多种功能。

据介绍,这款大模型首次引入了超拟人的数字人技术。数字人的动作能够精准匹配语音内容,从而生成逼真的表情和动作,使人工智能更具生命力。通过统一处理文本、语音和表情,该模型能够实现跨模态的语义一致性,从而保证情感表达的真实性和连贯性。

此外,该模型支持超拟人的快速交互。它采用了统一的神经网络,直接实现从语音到语音的端到端建模,响应速度更快,表现更流畅。该模型还能敏锐感知情绪变化,并可根据指令自由调整声音的节奏、大小和人设。

在多模态视觉交互方面,该模型能够理解和识别各种场景和物体,更全面地感知具体背景信息。通过对语音、手势、行为和情绪的综合分析,该模型能作出更准确的回应。用户还可以通过语音和视频与数字人进行自然对话,数字人的表情也会根据说话的内容进行匹配。此外,星火超拟人数字人还支持多模态交互,能够识别摄像头捕捉的内容,例如孙悟空和奥特曼站在一起、面霜的品牌和作用、花的种类等。

请注意,本文包含一些广告内容,仅供信息参考。

    本文来源:图灵汇
责任编辑: :
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
一键讯飞星火模态交互调用语音上线模型视觉
    下一篇