谷歌开发手部辨认系统,适配跨平台框架MediaPipe,手机可用
作者头像
  • 梁有崴
  • 2019-09-05 13:39:01 6

谷歌发布高功能实时手部追踪系统

近日,谷歌发布了一款高效实时手部追踪系统,无需高性能的GPU或TPU,即可在手机上运行。

什么是手部追踪?

手部追踪技术可以通过机器学习从单个视频帧中推断出手部的21个骨骼关键点(每根手指4个,手掌1个)的位置,从而实现高保真度的手掌和手指运动追踪。此外,该系统还能识别出手势的意义。

手部追踪技术的应用

尽管手部追踪是人类天生的能力,但对于计算机而言,实时准确地感知手部形状是一项巨大的挑战。手部追踪技术在增强现实(AR)、手势控制及手语识别等方面发挥着重要作用。谷歌此次推出的实时手部追踪技术具有重大意义。

原理介绍

谷歌的手部追踪系统采用了多模型协同工作的机器学习管道,具体包括:

  1. 手掌探测器:使用BlazePalm模型,能够在整张图像中找到定向的手部边界框。
  2. 手部标志模型:在手掌探测器提供的裁剪图像区域中,精确地定位出21个3D手部关键点。
  3. 手势识别器:将关键点排列分类为不同的手势。

技术细节

BlazePalm:实时手部/手掌探测

BlazePalm模型专门用于检测手部位置,其优势在于能处理各种遮挡情况,如握手和合掌。该模型通过优化和特定策略,实现了高达95.7%的平均精度。

手部标志模型

手部标志模型通过回归分析,能够在检测到的手部区域内精确地标记出21个3D手部骨骼关键点。为了提高准确性,该模型使用了合成数据和真实数据的混合训练方式,显著提升了性能。

手势识别

基于预测出来的手部骨骼关键点,系统使用一种简单算法来识别手势。现有模型支持多种手势,如“拇指向上”、“握拳”、“OK”等,涵盖了不同国家和地区的手势。

MediaPipe框架

MediaPipe是一个开源的跨平台框架,谷歌已将其用于手部追踪和手势识别的技术。MediaPipe优化了手部检测和标志模型,使得整个系统的性能更加高效。MediaPipe框架已经在GitHub上获得了广泛关注,并吸引了大量开发者的参与。

未来展望

谷歌计划进一步改进手部追踪技术,使其能够更稳定地识别更多类型的手势,并支持动态手势的实时检测。相信这项技术的开源将激发更多的创意和应用场景。

相关报道

更多详情可参见谷歌官方博客: https://ai.googleblog.com/2019/08/on-device-real-time-hand-tracking-with.html

    本文来源:图灵汇
责任编辑: : 梁有崴
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
跨平台手部适配辨认MediaPipe框架可用开发系统手机
    下一篇