近日,MIT 和 IBM 的联合研究团队提出了一项名为 ObjectNet 的新数据集,该数据集的引入使得当前最先进的图像识别模型的性能下降了40多个百分点。这一发现揭示了现有模型在面对真实世界复杂情况时仍存在显著的不足之处。
图像识别是计算机视觉领域的重要分支,多年来不断有新的模型涌现,如 AlexNet、YOLO 家族和 EfficientNet 等。然而,尽管这些模型在图像识别的各类排行榜上取得了优异的成绩,但在 MIT 和 IBM 提出的 ObjectNet 数据集上却表现不佳。
ObjectNet 数据集由 MIT 的研究人员花费四年时间精心设计而成,包含了50,000张经过严格筛选的图像,涵盖了313种物体类别,其中有113个类别与 ImageNet 相重叠。研究者们通过雇用专业摄影师严格按照特定标准拍摄照片,确保图像具有不同于常规图像的独特视角和状态,从而增加了识别的难度。
ObjectNet 数据集的一个独特之处在于其仅包含测试集,而不包括训练集。这意味着模型无法提前接触到测试数据,从而更好地评估其泛化能力。研究者们测试了多种主流模型在 ObjectNet 数据集上的表现,发现即便是最先进模型的准确率也显著下降,这表明模型在处理同类目标识别时的泛化能力仍然有限。
研究者进一步分析了导致这一现象的原因,认为模型对旋转、背景和视角的适应能力不足是主要原因之一。为了验证这一点,研究者进行了微调实验,结果显示即使在使用少量数据进行微调的情况下,模型的准确率也难以大幅提升。这表明未来研究需要在提升模型对于旋转、背景和视角变化的鲁棒性方面作出更多努力。
值得一提的是,人类在 ObjectNet 数据集上的表现远优于机器,准确率达到95%。这引发了关于人类视觉系统与现有模型之间差异的思考,并促使研究者探索如何借鉴人类视觉系统的特性,以提高模型的泛化能力和鲁棒性。