讯飞星火多模态交互大模型上线，数字人、语音、视觉支持一键调用

2024-11-14 18:07:54 296

+关注

讯飞开放平台近日宣布，讯飞星火多模态交互大模型已经正式上线。该模型不仅扩展了语音交互功能，还实现了音视频流实时多模交互。新增的“多模态、超拟人和个性化”能力使得语音、视觉和数字人交互融为一体，只需一键调用即可实现多种功能。

据介绍，这款大模型首次引入了超拟人的数字人技术。数字人的动作能够精准匹配语音内容，从而生成逼真的表情和动作，使人工智能更具生命力。通过统一处理文本、语音和表情，该模型能够实现跨模态的语义一致性，从而保证情感表达的真实性和连贯性。

此外，该模型支持超拟人的快速交互。它采用了统一的神经网络，直接实现从语音到语音的端到端建模，响应速度更快，表现更流畅。该模型还能敏锐感知情绪变化，并可根据指令自由调整声音的节奏、大小和人设。

在多模态视觉交互方面，该模型能够理解和识别各种场景和物体，更全面地感知具体背景信息。通过对语音、手势、行为和情绪的综合分析，该模型能作出更准确的回应。用户还可以通过语音和视频与数字人进行自然对话，数字人的表情也会根据说话的内容进行匹配。此外，星火超拟人数字人还支持多模态交互，能够识别摄像头捕捉的内容，例如孙悟空和奥特曼站在一起、面霜的品牌和作用、花的种类等。

请注意，本文包含一些广告内容，仅供信息参考。

图灵汇

责任编辑：：

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。

一键讯飞星火模态交互调用语音上线模型视觉

丁若轩

2024-11-16

Nature:「人类亲吻难题」难倒 LLM，所有大模型全部失败