近日,百度视觉技术团队凭借先进的图像识别和视频理解技术,在全球两大视觉竞赛WebVision和ActivityNet中击败了100多家参赛单位,获得了多个世界第一,并受邀在计算机视觉与模式识别领域的顶级学术会议上进行演讲分享。
继百度的人脸检测深度学习算法PyramidBox在权威评测集WIDER FACE中刷新了行业记录之后,百度视觉技术团队再次在国际知名奖项中取得佳绩。
WebVision自2017年开始举办,是一项大规模图像识别挑战赛,其数据集直接从互联网抓取,未经人工标注或筛选。这使得识别难度更大,但也更加贴近实际应用场景。今年,WebVision的数据集由1000类扩展至5000类,训练数据量也从240万张增加到1600万张。百度以领先第二名3.95个百分点的优势赢得了WebVision竞赛的冠军。这一成就吸引了全球众多顶尖科技公司和知名高校的参与。
百度视觉团队自2013年开始构建大规模图像分类系统,积累了10万类标签和数亿张图片的数据集。这套系统不仅为百度Feed流等核心产品提供了支持,还为华为、小米等一流手机厂商提供了精准的物体识别功能。
在视频理解领域,百度视觉技术团队在ActivityNet 2018比赛中获得两项任务的冠军,并发表了相关技术论文。ActivityNet是视频理解领域最具影响力的赛事之一,今年共举办了六项比赛。
在Kinetics视频动作识别任务中,百度连续两年夺得冠军,将平均错误率从12.4%降低到了10.9%。Kinetics数据集包含40万个训练视频片段,涵盖400个类别。今年,主办方将数据集类别扩展到600个,训练数据量也从40万增加到50万。此外,百度还在动作片段判断任务中获得第一名,领先第二名1.6个百分点。
视频理解技术能够深入解析视频内容,从而为视频自动分类、标签生成、视频对比和推荐等方面提供重要支持。百度此次获奖的技术已经被应用于其在线Feed视频自动分类系统中,提升了视频内容的处理效率。
去年,百度的OCR(光学字符识别)技术在ICDAR竞赛中的“自然场景随拍文字识别”任务中多次排名第一,展现了显著的技术优势。百度的视觉识别技术不仅改变了百度内部的产品形态,也为外部开发者提供了强大的技术支持。目前,百度的计算机视觉技术已经全面开放,涵盖了人脸识别、文字识别、图像审核、图像识别和图像搜索等多个领域,服务了数十万开发者,并将继续推动各行业的技术进步。