近日,谷歌发布了一款高效实时手部追踪系统,无需高性能的GPU或TPU,即可在手机上运行。
手部追踪技术可以通过机器学习从单个视频帧中推断出手部的21个骨骼关键点(每根手指4个,手掌1个)的位置,从而实现高保真度的手掌和手指运动追踪。此外,该系统还能识别出手势的意义。
尽管手部追踪是人类天生的能力,但对于计算机而言,实时准确地感知手部形状是一项巨大的挑战。手部追踪技术在增强现实(AR)、手势控制及手语识别等方面发挥着重要作用。谷歌此次推出的实时手部追踪技术具有重大意义。
谷歌的手部追踪系统采用了多模型协同工作的机器学习管道,具体包括:
BlazePalm:实时手部/手掌探测
BlazePalm模型专门用于检测手部位置,其优势在于能处理各种遮挡情况,如握手和合掌。该模型通过优化和特定策略,实现了高达95.7%的平均精度。
手部标志模型
手部标志模型通过回归分析,能够在检测到的手部区域内精确地标记出21个3D手部骨骼关键点。为了提高准确性,该模型使用了合成数据和真实数据的混合训练方式,显著提升了性能。
基于预测出来的手部骨骼关键点,系统使用一种简单算法来识别手势。现有模型支持多种手势,如“拇指向上”、“握拳”、“OK”等,涵盖了不同国家和地区的手势。
MediaPipe是一个开源的跨平台框架,谷歌已将其用于手部追踪和手势识别的技术。MediaPipe优化了手部检测和标志模型,使得整个系统的性能更加高效。MediaPipe框架已经在GitHub上获得了广泛关注,并吸引了大量开发者的参与。
谷歌计划进一步改进手部追踪技术,使其能够更稳定地识别更多类型的手势,并支持动态手势的实时检测。相信这项技术的开源将激发更多的创意和应用场景。
更多详情可参见谷歌官方博客: https://ai.googleblog.com/2019/08/on-device-real-time-hand-tracking-with.html