华为的这项技术利用多个自然语言处理(NLP)引擎对语音片段进行识别和评分,最终筛选出最佳的识别结果并按顺序呈现给用户,从而实现从多个引擎中挑选最优结果的功能。
华为于2013年1月提出了一种语音处理方法,并提供了相关的系统和终端设备。这一技术能够应用于不同厂商的技术平台,以满足实际需求并提供多样化的搜索结果。
图1展示了该语音处理系统的架构图。首先,系统会获取一段语音流,并将其传输至至少一个NLP引擎进行处理。这些引擎可以直接从终端设备接收数据,也可以通过代理服务器间接接收。
每个NLP引擎接收到语音流后,会对其进行识别,并生成一个或多个识别结果,并为每个结果打分。随后,这些识别结果及其对应的分数会被传回终端设备。
进一步地,在接收到多个NLP引擎提供的识别结果后,系统会根据各个引擎的表现对其进行综合评分。评分标准包括响应时间、识别结果的数量及一致性等因素。此外,用户还可以根据自身需要调整各项得分的权重比例。
图2展示了一个终端设备的结构示意图。其中,发送单元负责将语音信号发送至至少一个NLP引擎进行识别;接收单元则收集各个引擎返回的识别结果;确定单元会对这些结果进行评分,并选出最合适的几个结果及它们的顺序;最后,输入单元按照指定顺序向用户展示这些结果。
图3展示了另一个终端设备的设计图。在这个设计中,存储器保存了一系列程序代码,处理器调用这些代码来执行以下任务:将语音信号发送至至少一个NLP引擎进行识别;接收来自多个NLP引擎的识别结果;对这些结果进行评分并确定最终输出的顺序;然后通过输出设备按照这个顺序向用户展示结果。
图4则描绘了整个语音处理系统的框架。这里提到的终端设备结合了前面提到的两个终端设备的特点。多个引擎接收来自终端的语音信号并进行识别,然后将识别结果发送回终端。代理服务器的作用是接收终端发送的语音信号,并将其转发给至少一个NLP引擎。
该发明通过将语音信号发送至多个NLP引擎进行识别,再汇总各引擎的识别结果,并根据这些结果向用户提供可供选择的最终答案,实现了对用户语音的高效处理。这项技术可以应用于不同的技术平台,从而产生多种有针对性的结果。
在此过程中,系统会对来自多个NLP引擎的识别结果进行评分,最终确定一个或多个最佳结果及其显示顺序,从而实现从众多选项中挑选出最优解的目的。