您的位置:商铺首页 >> 行业资讯 >> 详情

人工智能机器视觉将能理解人类手势

时间:2017-03-14 15:49

  今年的CVPR会议大会上,学界和业界的研究表明,计算机视觉已经发展到从模拟人类行为到辅助人类生活,再到帮助人类探索未知的阶段,人工智能机器视觉将能理解人类手势的意义。         如果给人类播放一段静音的《英雄联盟》游戏战斗视频,即使是新手玩家也能根据画面想象出游戏的种种音效,甚至能够轻易依据某位英雄的动作反映出一句台词——“德玛西亚”,并对这些音效进行简单地模拟。工业平板电脑

  但对于计算机来说,这并非一件易事。在CVPR 2016会议现场,来自麻省理工学院(MIT)的研究人员就展示了一向“视频生成声音(Visually Indicated Sounds,VIS)”的技术。科学家向VIS输入包括46000种声音在内的1000段视频对其进行训练,并通过深度学习算法对声音进行解构,随后系统便会给静音视频配上一段它认为正确的音效。据研究人员现场介绍,计算机所模拟出的声音足以以假乱真,在此前的测试中便曾多次让人类信以为真。

  能够正确理解人类手部动作,同样是人工智能感知世界的重要任务。人类可以轻易地判断“OK”或“竖起”大拇指等手势所代表的意义,但对于机器视觉来说,这项任务仍然处于比较早期的阶段。

  高级研发工程师钱晨表示,手部姿态估计的难点,分为两部,第一部手掌整体的姿态;第二步是手指的姿态。因为手的外观和手指的姿态相关,在不知道手指的情况下,去估计手掌的姿态并不容易,近邻搜索的方法耗时太久。而普渡大学的DeepMind技术将深度学习和近邻搜索相结合,通过深度学习,将输入映射到低维向量和类别,快速地找出手掌的姿态参数,再通过类别差异回归算法来估计手指的姿态。手掌姿态估计比传统的直接回归精度提高很多。手部姿态估计作为整个手势研究的组成部分,在实时估计的前提下,精度越高,手部动作识别的技术距离实用会越来越近,应用场景也会越来越广,对VR、游戏产业大有裨益。