大家好,欢迎回来!AI Scholar Weekly栏目再次与您见面了!
AI Scholar Weekly专注于提供最新的、全面的、深入的AI学术动态,让您能够快速掌握每周AI领域的前沿资讯。
Google Research最近发布了一种名为“基于Bregman发散的鲁棒双回火逻辑损失”的方法。该方法针对逻辑函数在处理噪声数据时面临的挑战进行了优化。他们的方法基于Bregman发散,优于使用Tsallis发散的双回火方法。
研究人员引入了温度概念,通过高温标准化交换神经网络的softmax层。同样地,训练对数损失中的对数也被高温对数替换。通过调整两个温度,他们创建了一个非凸损失函数。这种方法使得训练过程对噪声更加稳健。
研究团队将该双回火损失函数应用于多个图像分类任务中,包括MNIST、CIFAR-100和ImageNet-2012。结果表明,该方法在处理噪声数据时表现出色,能够有效处理大边缘异常值,并改进了小边缘错误标记数据的处理。
代码地址:https://github.com/google/bi-tempered-loss
原文链接:https://ai.googleblog.com/2019/08/bi-tempered-logistic-loss-for-training.html
Google AI提出了一种新的神经网络架构方法,称为分量不可知神经网络(WANN)。该方法能够在没有任何明确权重训练的情况下执行任务。他们探究了神经网络架构是否能够在不学习任何权重参数的情况下,单独为任何给定任务编码解决方案。
研究人员使用统一的随机分布填充连接,并通过调整单一共享权重参数来训练WANN。通过这种方式,他们能够轻松训练出性能良好的WANN模型。此外,他们还展示了如何利用WANN架构创建多个模型的集成,从而在某些情况下实现比单个模型更好的性能。
这项工作有助于发现新的神经网络组件,如卷积网络,从而推动深度学习的发展。
代码地址:https://github.com/google/brain-tokyo-workshop/tree/master/WANNRelease
原文链接:https://ai.googleblog.com/2019/08/exploring-weight-agnostic-neural.html
研究人员最近提出了多任务多标签(MTML)学习方法,用于人员再识别任务。MTML方法采用多任务学习框架,同时考虑独立的特定于摄像机的身份识别标记信息和自发现的摄像机间身份关联。
该方法在Market-1501、DukeMTMC-reID和MSMT17三个重要数据集上进行了评估。结果显示,MTML方法优于现有的人员再识别模型。该方法充分利用了可用的弱再识别监督约束,并通过循环分类一致性思想自发现摄像机间的身份关联。
这项技术消除了监控网络中繁琐的手动标注过程,提供了一种更具可扩展性的摄像机内监督(ICS)人员再识别方法。MTML方法在无需交叉视图成对标记的情况下,仅通过每个摄像机独立的人物身份标签进行学习。
原文链接:https://arxiv.org/abs/1908.10344v1
马来西亚吉隆坡大学和马来西亚大学的研究人员提出了一种端到端的修剪方法,应用于具有视觉注意力机制的图像字幕模型。该方法在保持字幕质量的同时实现了极高的稀疏度。
研究人员使用流行的MS-COCO评价工具包对模型进行评估,结果显示该方法在稀疏度从80%到97.5%的范围内均表现出良好的性能。相比之下,传统方法在稀疏度达到90%时性能显著下降。
该方法简单易用,可以根据需要调整稀疏度水平,为从业者提供了一种灵活的工具。这项技术有望应用于图像分类、语言建模和自然语言翻译等任务。
原文链接:https://arxiv.org/abs/1908.10797
当前AI领域的发展为未来提供了诸多可能性。因此,现在更需要关注AI带来的伦理挑战,特别是AI技术对所有人群的普适性。
这篇论文详细讨论了在开发新技术时应考虑的包容性、偏好性、隐私性、错误率、目标设定、模拟数据和社会接受性等方面的因素。例如,最新的语音识别系统虽然在虚拟助手领域取得了成功,但对于有口吃、言语障碍和听力障碍的人群并不适用。
接下来的内容中,研究者探讨了这些因素如何影响科技进步的普适性,尤其是对有身体障碍的人群的影响。
尽管AI技术的发展带来了巨大的进步,但本文提醒我们,必须认真思考AI伦理问题,确保技术对所有人都是公平和适用的。
原文链接:https://arxiv.org/abs/1908.08939