人工智能机器视觉将能理解人类手势_新闻资讯

人工智能机器视觉将能理解人类手势

时间：2017-03-14 15:49

　　今年的CVPR会议大会上，学界和业界的研究表明，计算机视觉已经发展到从模拟人类行为到辅助人类生活，再到帮助人类探索未知的阶段，人工智能机器视觉将能理解人类手势的意义。如果给人类播放一段静音的《英雄联盟》游戏战斗视频，即使是新手玩家也能根据画面想象出游戏的种种音效，甚至能够轻易依据某位英雄的动作反映出一句台词——“德玛西亚”，并对这些音效进行简单地模拟。工业平板电脑

　　但对于计算机来说，这并非一件易事。在CVPR 2016会议现场，来自麻省理工学院（MIT）的研究人员就展示了一向“视频生成声音（Visually Indicated Sounds，VIS）”的技术。科学家向VIS输入包括46000种声音在内的1000段视频对其进行训练，并通过深度学习算法对声音进行解构，随后系统便会给静音视频配上一段它认为正确的音效。据研究人员现场介绍，计算机所模拟出的声音足以以假乱真，在此前的测试中便曾多次让人类信以为真。

　　能够正确理解人类手部动作，同样是人工智能感知世界的重要任务。人类可以轻易地判断“OK”或“竖起”大拇指等手势所代表的意义，但对于机器视觉来说，这项任务仍然处于比较早期的阶段。

　　高级研发工程师钱晨表示，手部姿态估计的难点，分为两部，第一部手掌整体的姿态；第二步是手指的姿态。因为手的外观和手指的姿态相关，在不知道手指的情况下，去估计手掌的姿态并不容易，近邻搜索的方法耗时太久。而普渡大学的DeepMind技术将深度学习和近邻搜索相结合，通过深度学习，将输入映射到低维向量和类别，快速地找出手掌的姿态参数，再通过类别差异回归算法来估计手指的姿态。手掌姿态估计比传统的直接回归精度提高很多。手部姿态估计作为整个手势研究的组成部分，在实时估计的前提下，精度越高，手部动作识别的技术距离实用会越来越近，应用场景也会越来越广，对VR、游戏产业大有裨益。