近期,清华大学-中国工程院知识智能结合研究中心与中国人工智能学会联合发布了《2019人工智能发展报告》。该报告涵盖了13个重点人工智能领域,包括深度学习、计算机视觉、语音识别、机器人等,详细探讨了这些领域的基础研究、应用和发展趋势。
深度学习技术让图像和语音识别等领域取得了显著进展。机器学习是计算机模拟人类学习行为的多学科交叉领域,旨在让计算机获取新知识或技能。1950年,阿兰·图灵提出了图灵测试,以判断机器是否具备智能。后来,IBM科学家亚瑟·塞缪尔开发的跳棋程序证明了机器可以超越人类。直到20世纪60年代,机器学习的发展陷入停滞,主要因为理论和硬件限制。直到BP算法的提出,机器学习才重新焕发活力,并成为神经网络的关键组成部分。
神经网络研究人员提出了多参数线性规划理念,为深度学习奠定了基础。2006年,Hinton等人提出的深度学习算法大幅提升了神经网络的能力,开启了深度学习在学术界和工业界的浪潮。2015年,LeCun、Bengio和Hinton联合发布了深度学习的综述,指出深度学习能够学习多层次抽象数据的表示,极大提升了图像和语音识别的性能。
计算机视觉是让计算机实现类似人类视觉功能的研究领域,涉及三维空间的理解和识别。马尔的《视觉》一书标志着计算机视觉成为一门独立学科。计算机视觉经历了马尔计算视觉、多视几何与分层三维重建和基于学习的视觉三个发展阶段。近年来,计算机视觉借助深度学习技术,在物体识别、人脸识别和智能视频监控等方面取得了显著进展。
多视几何在计算机视觉中起到了重要作用。20世纪90年代,计算机视觉从“萧条”走向“繁荣”,主要得益于应用领域的拓展和多视几何技术的应用。大数据时代的到来推动了自动三维重建技术的发展,使得计算机视觉在实际应用中更加高效和可靠。
语音识别技术旨在让计算机理解和解释人类语音。20世纪50年代,贝尔实验室成功研发了第一个语音识别系统Audry,可以识别10个英文数字发音。20世纪70年代,语音识别技术取得突破,HMM技术和基于知识的语音识别方法逐渐成熟。近年来,深度学习技术极大地提高了语音识别的精度,使其广泛应用于工业、通信、医疗等领域。
例如,IBM的ViaVoice系统和Dragon公司的DragonDictate系统均具备说话人自适应能力,能够在用户使用过程中不断提高识别率。当前,语音识别技术已广泛应用于智能手机、智能家居、医疗设备等领域,如苹果公司的Siri语音助手、智能360语音助手和百度语音助手等。
机器人技术是衡量国家工业化水平的重要标志。最初,机器人主要用于工业生产,但随着技术的进步,机器人技术已经扩展到医疗服务、教育娱乐、勘探勘测、生物工程、救灾救援等领域。智能机器人集成了多种传感器,能够适应变化的环境,具备强大的自适应能力和学习能力。
20世纪70年代以来,机器人产业蓬勃发展,形成了专门的学科。工业机器人首先在汽车制造业中大规模应用,随后逐渐扩展到其他领域。进入21世纪,随着劳动力成本的上升和技术的进步,各国纷纷转向智能制造,机器人替代人力的趋势愈发明显。人工智能技术的发展推动了服务机器人的普及,使机器人更加接近有机生命体。
波士顿动力公司近年来在机器人领域的成就备受关注。其产品机器狗Spot和双足人形机器人Atlas展现了高度智能化的特点。Spot可以自主导航并执行特定任务,而Atlas则展示了复杂的运动技能,包括跑酷、后空翻和体操等。
本文内容整理自《2019人工智能发展报告》和相关文献资料。