英国科幻小说家亚瑟·克拉克曾说过,足够先进的技术几乎与魔法难以区分。快速发展的语音识别技术正验证这一观点,因为使用这种技术就像施展魔法一样:只需对着空气说几句话,身边的设备就能满足你的需求。
亚马逊Echo是一款可以通过语音控制的圆柱形电脑,只需将其放在桌上并呼叫Alexa,它就能执行多种任务,如播放音乐、电台、讲笑话、回答日常问题,甚至控制其他智能设备。据数据显示,在刚过去的圣诞节前,它已经进入了全美4%的家庭。语音助手也广泛应用于智能手机,苹果的Siri每周处理约20亿条语音指令,而美国20%的安卓端谷歌搜索也是通过语音识别完成的。听写邮件和短信服务现在已非常可靠,人们越来越倾向于用语音交流而非打字。
语音识别的进步令人惊叹。尽管看似简单,但要实现自然的人机对话,将语音转换成计算机可理解的指令需要大量的计算资源。从早期的图形界面到触控屏,人们一直在寻找更直接的交互方式,希望彻底摆脱键盘和鼠标。直接与计算机对话,抛弃传统的用户界面,是人们追求的目标。就像手机比固定电话更方便,汽车比马车更快,无屏幕、无键盘的计算机具有更大的应用潜力,可能会成为比现有设备更强大、更普及的技术。
虽然语音输入不会完全取代其他形式的输入,但在某些情况下,保留传统交互方式可能更有优势。但语音控制无疑将带来更多便利,比如洗衣机可以告知语音助手剩余的工作时间,而语音助手则可以将此信息发送至呼叫中心,外出的用户就能收到通知。然而,为了充分发挥语音识别的潜力,研究人员不仅需要技术突破,还需解决便利性和隐私保护之间的平衡问题。
语音识别系统早已存在,但长期以来它们一直被认为不可靠,需要长时间训练才能识别特定用户的语音。新一代系统无需训练即可准确识别任何人的语音,这得益于深度学习技术。深度学习通过数百万条数据训练,通常来源于互联网。随着深度学习的发展,计算机已经能够准确识别人们的语音,甚至超过了人类的水平。基于计算机的自动翻译系统正在迅速发展,其翻译质量已经超越了传统的机器翻译。简而言之,计算机在处理各种自然语言任务时已经变得高效且稳定。
尽管深度学习已经使计算机能够准确识别人类的语音,但它们仍然无法理解语言的意义。这对工程师来说仍然是一个挑战。如果语音识别技术要继续进步,就必须克服这一难题。计算机需要能够理解日常对话中的上下文,从而与用户进行连续的对话,而不仅仅是回应简单的、孤立的语音指令。
许多研究机构和大小公司都在努力攻克这一难题,希望开发出能够长时间与人正常对话的“机器人”。这类机器人不仅能检索信息,还能提供贷款建议、旅行规划等服务。亚马逊为此悬赏100万美元,奖励第一个在20分钟内进行有效交流的聊天机器人团队。
消费者和监管机构在语音技术发展中也扮演着重要角色。即使是在当前阶段,原生的语音识别系统也面临着质疑。语音驱动系统在个性化设置后才能发挥最佳效果,但这也意味着机器需要收集大量个人信息,如日程、邮件和敏感信息。这引发了人们对隐私权的担忧。
为了提供更多功能,许多语音驱动系统一直在监听周围环境,等待被唤醒。有些人担心这些连接互联网的麦克风会监听他们的所有活动。虽然并非所有数据都被上传到云端,但这些设备都有唤醒机制(如“Alexa”、“OK, Google”、“Hey Cortana”或“Hey Siri”),只是目前不清楚实际操作是否真的如此。
最近,阿肯色州警方调查一起谋杀案时,发现现场有一台开机的亚马逊Echo。警方要求亚马逊提供当时收集的语音信息,但这一请求被科技公司拒绝。亚马逊在隐私倡导者的支持下辩称,这种请求的法律地位尚未明确。这与2016年苹果公司因FBI要求解锁嫌疑人iPhone而引发的争议相似。在法律地位不明确的情况下,个人隐私与公共安全之间的冲突再次显现。
尽管这些问题依然存在,消费者仍会逐渐转向语音识别系统,因为语音在许多情况下比其他交互方式更便捷。此外,它在某些特定场景下(如驾驶、工作或户外活动)也能发挥重要作用,将计算能力扩展到屏幕和键盘无法触及的范围。语音识别不仅影响计算领域,也影响到语言本身。计算机同声传译可能要求说话者使用非常规的语言;在一个机器可以正常交流的世界里,减少对话数量可能意味着更高效的生活。迄今为止,触摸屏是最接近人机交互方式的飞跃,我们期待语音识别技术能带来下一次重大提升。