CVPR 2020: 移动端机器学习的研讨完成
作者头像
  • 李建鑫
  • 2020-07-14 14:30:13 4

导读

边缘设备上的机器学习是未来的一大趋势。在2020年的CVPR会议上,有许多关于计算机视觉的研究成果。本文将重点介绍与移动或边缘计算相关的研究,尽管并非所有这些研究都直接涉及到移动设备的应用,但它们对移动端机器学习的发展产生了重要影响。

智能手机摄影的感知质量评估

本文深入探讨了智能手机摄影的感知质量评估。研究人员创建了一个名为SPAQ(Smartphone Photography Attributes and Quality)的数据库,其中包含66款智能手机拍摄的11,125张照片。每个图像都带有详细的标注信息。此外,研究人员还收集了人们对这些照片的看法,包括图像质量、属性、场景类别标签以及EXIF信息。利用这些数据,他们训练了一个基于深度神经网络的盲图像质量评估(BIQA)模型。该模型能够提供有关如何利用EXIF数据、图像属性和高级语义来改进图像质量的见解,同时也为下一代BIQA模型的设计提供了参考。

分类级的多关节物体姿态估计

本文探讨了在单张深度图像中进行分类级多关节物体姿态估计的问题。研究人员提出了一种分类级方法,包括对未见过的物体实例进行训练。他们引入了一种支持关节的标准化坐标空间层次结构(ANCSH),以实现类别内的泛化。基于此,他们开发了一个基于PointNet++的深度网络,可以从单个深度点云中预测ANCSH。这种方法有助于改进部分姿态和尺度估计的准确性,特别是在相机空间中。

KFNet:利用卡尔曼滤波学习瞬时摄像机重新定位

本文提出了一种利用卡尔曼滤波进行瞬时摄像机重新定位的方法。不同于传统的单镜头重定位方法,这种方法可以根据视频序列中的每一帧来估计摄像机的姿态。通过引入KFNet网络架构,研究人员实现了这一目标。KFNet基于贝叶斯学习背景下的卡尔曼滤波原理,能够补偿瞬时性和一次性定位方法之间的性能差距。此外,他们还提出了一种统计评价工具,使KFNet能够在运行过程中自我检查潜在的异常值预测。

EventCap:利用事件摄像机单目3D捕捉高速人体运动

本文提出了一种利用单镜头捕捉高速人体运动的方法EventCap。通过结合基于模型的优化和基于CNN的人体姿态估计,EventCap能够捕捉到毫秒级的高速运动,数据效率高于传统高帧率视频。该方法在一个优化框架中,结合了事件流和低帧率强度图像流,从而实现了高精度的运动捕捉。通过跟踪事件轨迹和基于CNN的二维和三维姿态估计,该方法能够有效解决漂移问题。

RetinaFace:单次多层次人脸定位

本文提出了一种单次多层次的人脸定位方法。通过对手动标注的WIDER FACE数据集进行处理,并采用半自动管道为其他数据集(如AFLW、FDDB)生成三维顶点,该方法实现了人脸定位、二维人脸关键点定位和三维顶点回归的结合。研究人员还提出了一种学习策略,以训练一种能够同时预测人脸边界框、五个二维人脸关键点和一千个三维顶点的一致性、多层次人脸定位方法。

FReeNet:多重身份人脸重演

本文提出了一种基于多重身份的人脸重演框架——FReeNet。该框架能够通过共享模型将源人脸的表情转移到目标人脸。FReeNet由两部分组成:一致地标转换器(ULC)和几何感知生成器(GAG)。ULC使用编码器-解码器架构,在潜在地标空间中转换表情,减少源图像和目标图像之间的人脸轮廓差异。GAG则利用转换后的地标重新制定照片的真实抽象,以目标人脸作为参考。此外,作者还引入了一种三重感知损失,使GAG模块同时学习外观和几何信息,从而丰富重演图像的面部细节。

结语

以上论文展示了边缘设备上机器学习技术的最新进展,对于推动移动设备和边缘计算领域的发展具有重要意义。如果你对这些研究感兴趣,可以通过访问相关链接了解更多详细信息。

    本文来源:图灵汇
责任编辑: : 李建鑫
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
研讨机器完成移动学习CVPR2020
    下一篇