谷歌近期推出了一种全新的手部感知技术,旨在改善用户体验,尤其是在手语理解和手势控制方面。这项技术不仅能在增强现实场景中实现数字内容与现实世界的叠加,还能有效解决手部感知过程中常见的遮挡和不稳定因素带来的挑战。
谷歌的解决方案基于一个由多个模型组成的机器学习管道,主要包括三个部分:
谷歌通过名为BlazePalm的手掌检测模型解决了手部检测的复杂性问题。该模型特别针对移动设备进行了优化,使其能够在实时环境中高效运行。由于手掌相对于手指更容易检测,谷歌选择先检测手掌,再进一步细化手部姿态。此外,通过采用不同的训练策略和损失函数,BlazePalm在手掌检测任务上的表现显著优于传统方法。
在成功检测到手掌后,谷歌的手部关键点模型会在检测到的手部区域内精确定位21个3D关键点。为了获取精确的数据,谷歌手动标注了大约3万张真实世界图像,并结合了合成图像数据,以确保模型能够适应各种背景和姿态。混合训练方法使得该模型在实际应用中表现出色。
通过分析手部关键点,谷歌提出了一种简单而有效的方法来识别手势。这一过程主要依赖于对各手指弯曲程度的评估,并将这些信息映射到预定义的手势集合中。目前,该系统已经能够识别多种文化中的基本手势,如“竖起大拇指”、“握拳”等。
借助MediaPipe框架,谷歌将上述感知流程构建为一个模块化的组件图。MediaPipe提供了丰富的工具,可以高效处理模型推理、媒体内容处理和数据转换等多种任务。谷歌还利用TFLite在现代智能手机上实现了GPU加速的神经网络计算,进一步提升了系统的性能。
谷歌计划继续改进这项技术,使其能够更准确地追踪手部运动,并支持更多种类的手势识别。谷歌相信,通过开放源代码,这一技术将激发更多的创新应用和研究,推动相关领域的发展。
以上内容展示了谷歌在手部感知技术上的最新进展,该技术有望在未来为用户提供更加丰富和直观的交互体验。