讯飞开放平台近日宣布,讯飞星火多模态交互大模型已经正式上线。该模型不仅扩展了语音交互功能,还实现了音视频流实时多模交互。新增的“多模态、超拟人和个性化”能力使得语音、视觉和数字人交互融为一体,只需一键调用即可实现多种功能。
据介绍,这款大模型首次引入了超拟人的数字人技术。数字人的动作能够精准匹配语音内容,从而生成逼真的表情和动作,使人工智能更具生命力。通过统一处理文本、语音和表情,该模型能够实现跨模态的语义一致性,从而保证情感表达的真实性和连贯性。
此外,该模型支持超拟人的快速交互。它采用了统一的神经网络,直接实现从语音到语音的端到端建模,响应速度更快,表现更流畅。该模型还能敏锐感知情绪变化,并可根据指令自由调整声音的节奏、大小和人设。
在多模态视觉交互方面,该模型能够理解和识别各种场景和物体,更全面地感知具体背景信息。通过对语音、手势、行为和情绪的综合分析,该模型能作出更准确的回应。用户还可以通过语音和视频与数字人进行自然对话,数字人的表情也会根据说话的内容进行匹配。此外,星火超拟人数字人还支持多模态交互,能够识别摄像头捕捉的内容,例如孙悟空和奥特曼站在一起、面霜的品牌和作用、花的种类等。
请注意,本文包含一些广告内容,仅供信息参考。