你也许还没无看法到，语音辨认曾经让一切人掌握了魔法奥义

于九野
2019-12-08 07:16:27 4

+关注

机器之心编译

李泽南、蒋思源

英国科幻小说家亚瑟·克拉克曾说过，足够先进的技术几乎与魔法难以区分。快速发展的语音识别技术正验证这一观点，因为使用这种技术就像施展魔法一样：只需对着空气说几句话，身边的设备就能满足你的需求。

亚马逊Echo是一款可以通过语音控制的圆柱形电脑，只需将其放在桌上并呼叫Alexa，它就能执行多种任务，如播放音乐、电台、讲笑话、回答日常问题，甚至控制其他智能设备。据数据显示，在刚过去的圣诞节前，它已经进入了全美4%的家庭。语音助手也广泛应用于智能手机，苹果的Siri每周处理约20亿条语音指令，而美国20%的安卓端谷歌搜索也是通过语音识别完成的。听写邮件和短信服务现在已非常可靠，人们越来越倾向于用语音交流而非打字。

语音识别的进步令人惊叹。尽管看似简单，但要实现自然的人机对话，将语音转换成计算机可理解的指令需要大量的计算资源。从早期的图形界面到触控屏，人们一直在寻找更直接的交互方式，希望彻底摆脱键盘和鼠标。直接与计算机对话，抛弃传统的用户界面，是人们追求的目标。就像手机比固定电话更方便，汽车比马车更快，无屏幕、无键盘的计算机具有更大的应用潜力，可能会成为比现有设备更强大、更普及的技术。

虽然语音输入不会完全取代其他形式的输入，但在某些情况下，保留传统交互方式可能更有优势。但语音控制无疑将带来更多便利，比如洗衣机可以告知语音助手剩余的工作时间，而语音助手则可以将此信息发送至呼叫中心，外出的用户就能收到通知。然而，为了充分发挥语音识别的潜力，研究人员不仅需要技术突破，还需解决便利性和隐私保护之间的平衡问题。

Alexa，你知道深度学习吗？

语音识别系统早已存在，但长期以来它们一直被认为不可靠，需要长时间训练才能识别特定用户的语音。新一代系统无需训练即可准确识别任何人的语音，这得益于深度学习技术。深度学习通过数百万条数据训练，通常来源于互联网。随着深度学习的发展，计算机已经能够准确识别人们的语音，甚至超过了人类的水平。基于计算机的自动翻译系统正在迅速发展，其翻译质量已经超越了传统的机器翻译。简而言之，计算机在处理各种自然语言任务时已经变得高效且稳定。

尽管深度学习已经使计算机能够准确识别人类的语音，但它们仍然无法理解语言的意义。这对工程师来说仍然是一个挑战。如果语音识别技术要继续进步，就必须克服这一难题。计算机需要能够理解日常对话中的上下文，从而与用户进行连续的对话，而不仅仅是回应简单的、孤立的语音指令。

许多研究机构和大小公司都在努力攻克这一难题，希望开发出能够长时间与人正常对话的“机器人”。这类机器人不仅能检索信息，还能提供贷款建议、旅行规划等服务。亚马逊为此悬赏100万美元，奖励第一个在20分钟内进行有效交流的聊天机器人团队。

施法代替拼写

消费者和监管机构在语音技术发展中也扮演着重要角色。即使是在当前阶段，原生的语音识别系统也面临着质疑。语音驱动系统在个性化设置后才能发挥最佳效果，但这也意味着机器需要收集大量个人信息，如日程、邮件和敏感信息。这引发了人们对隐私权的担忧。

为了提供更多功能，许多语音驱动系统一直在监听周围环境，等待被唤醒。有些人担心这些连接互联网的麦克风会监听他们的所有活动。虽然并非所有数据都被上传到云端，但这些设备都有唤醒机制（如“Alexa”、“OK, Google”、“Hey Cortana”或“Hey Siri”），只是目前不清楚实际操作是否真的如此。

最近，阿肯色州警方调查一起谋杀案时，发现现场有一台开机的亚马逊Echo。警方要求亚马逊提供当时收集的语音信息，但这一请求被科技公司拒绝。亚马逊在隐私倡导者的支持下辩称，这种请求的法律地位尚未明确。这与2016年苹果公司因FBI要求解锁嫌疑人iPhone而引发的争议相似。在法律地位不明确的情况下，个人隐私与公共安全之间的冲突再次显现。

尽管这些问题依然存在，消费者仍会逐渐转向语音识别系统，因为语音在许多情况下比其他交互方式更便捷。此外，它在某些特定场景下（如驾驶、工作或户外活动）也能发挥重要作用，将计算能力扩展到屏幕和键盘无法触及的范围。语音识别不仅影响计算领域，也影响到语言本身。计算机同声传译可能要求说话者使用非常规的语言；在一个机器可以正常交流的世界里，减少对话数量可能意味着更高效的生活。迄今为止，触摸屏是最接近人机交互方式的飞跃，我们期待语音识别技术能带来下一次重大提升。

图灵汇

责任编辑：：于九野

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。