在近期的Facebook F8开发者大会上,马克·扎克伯格提出了一个雄心勃勃的人工智能计划——建立一套在感知方面超越人类的系统。此外,他展示了图像识别技术的一个令人印象深刻的应用,即通过语音解说让盲人“看到”图片内容。
图像识别技术不仅有助于改善视力受损人群的生活,还能应用于车内安全功能(如沃尔沃的自动化安全技术)、自动组织无标签的图片集,以及从社交网络分享的图片中提取商业洞察。虽然这项技术的发展尚处于初期阶段,但它已经在速度和深度方面取得了显著进步。
即将举行的LDV Vision峰会是一个展示视觉技术的年度会议,涵盖从虚拟现实到医疗成像和内容分析等多个领域。LDV Capital的Evan Nisselson表示,计算机视觉的进步为图像分析带来了巨大的机遇,其对各个垂直领域的影响力正以指数级增长。
计算机视觉的发展受益于开源技术、深度学习、用户友好的编程工具,以及更快、更便宜的计算能力。尽管深度学习和人工智能被视为未来的重大突破,但如何将这些工具应用于实际场景,以及如何将商用图像技术推向全球,是当前亟待解决的问题。
深度学习使计算机能够更快速、更精确地识别图片,但这需要大量的数据。ImageNet和Pascal VOC是两个重要的开源数据集,包含数百万张经过标注的图片,涵盖了从猫到体育活动等各种内容。这些数据集是利用机器学习进行图像识别的基础。
ImageNet每年一度的图像识别挑战赛始于2009年,如今已积累了超过140万张经过标注的图片。Pascal VOC则提供了更详细的图片释文,从而提升了机器学习的准确度和应用范围。
科技巨头如谷歌和Facebook利用这些开源数据集训练他们的机器学习系统,同时也能从Google Photos等社交网络中获取大量已标注的图片,进一步提升模型的准确性。
有了数据之后,下一步就是建立一台能够从数据中学习的机器。开源软件库和框架提供了开发机器学习系统所需的工具,这些系统可用于多种计算机视觉功能,如人脸和情绪识别、医疗筛查和汽车中的大型动物障碍物探测。
谷歌TensorFlow是其中一个著名的开源框架,涵盖了广泛的机器学习功能。加州大学伯克利分校的Caffe自2009年以来一直很受欢迎,因其高度可定制化和活跃的开发者社区而备受青睐。Facebook人工智能实验室使用的Torch也在2015年初开源了一些模块,优化了多GPU环境下的性能。
这些开源工具需要专业的计算机视觉工程师和相应的硬件资源,因此只有那些希望将计算机视觉作为核心产品策略的公司才会采用这种方式。
并非每个公司都有资源和意愿在这一领域进行投资,组建一支计算机视觉工程团队。云端API服务应运而生,提供了即时可用的图像识别服务,可以轻松集成到现有的应用程序中。
例如,Travel Channel需要一种“地标检测”功能来展示与特定地标相关的照片;婚恋交友网站eHarmony则希望过滤掉用户上传的“不安全”照片。这些公司并不需要自己开发深度学习的图像识别系统,但依然可以从这些功能中获益。
Google Cloud Vision提供了图像识别功能的API,可以执行人脸识别、OCR、位置标记和内容识别等多种服务。微软的认知服务(即牛津计划)也提供了一系列图像识别API,包括人脸识别、名人识别和情绪识别。此外,初创公司如Clarifai也在提供计算机视觉API服务,帮助企业整理内容、过滤不安全图片和视频,甚至提供基于照片的购物建议。
计算机视觉的应用远不止于此。对于那些不想自行开发人工智能系统的公司,也有定制化的解决方案。例如,一家化妆品公司可能需要找到一些头发浓密的客户照片用于广告宣传,这就需要建立一套个性化的算法来搜索此类照片。
对于某些特定需求,如Logo识别,目前还没有现成的开源解决方案。不过,社交媒体平台上的大量图片可以作为训练数据源。对于有工程师团队的公司,可以结合开源框架和公开数据集进行开发。而对于那些不希望将全部业务都押注在计算机视觉上的公司,则可以利用云端API服务。
总的来说,图像识别技术正在迅速发展,并逐渐渗透到各个领域。无论采取哪种方式,整合更多的图片、实时数据、特定应用和更快的处理速度,都将使图像识别技术变得更为强大。