1 1 1 1 1 1 1 1 1 1 Rating 0.00 (0 Votes)
 2017-07-10 雷特 机械鸡

CMU RI(卡内基梅隆大学机器人学院)的科学家正研发一种可以从头到脚读取肢体语言的计算机系统。新项目可以实时读取大规模人群的多个动作姿势,这为人与机器交互开辟了新的方式。

目前,与计算机通信主要限于打字,鼠标点击和屏幕触摸。虽然语音交互更加普及,但人类主要是用文字交流。社会活动中,半数的人际交往来自肢体语言,没有肢体语言,互动可能变得困难和费力。

 

让电脑读懂人类的肢体语言是一件棘手的事,包括可以被物体或其他人遮蔽的手部动作。除此之外,虽然大型数据库存在标注的面部表情和身体位置,但并没有任何手势和姿势。

 

CMU RI(卡内基·梅隆机器人研究院)副教授Yaser Sheikh领导的团队攻克了解决此问题一些的方法。其中之一是,通过让两个研究生站在摄像机前面,做数千种不同的姿势和手势,来为计算机提供更多的数据。

 

 

另一个是颠覆了计算机读取姿势的常规方式。计算机不只关注人本身,而是会实时检测手指的动作,人的手、手臂、腿和脸,并锁定这些动作和姿势。据团队介绍,这对观众来说特别有用。

 

 

第三部分是使用CMU的Panoptic Studio(用于大规模社交互动采集的多视角系统),它是一个有两层楼高,并嵌有500台摄像机的结构。这使计算机可以从数百个不同角度,一次采集大量的动作数据来用于研究。

 

 

 

机器人博士Hanbyul Joo说:“系统自动标注手的位置,单次拍摄可以让你采集一个人的500次手部动作。若手太小,无法被大多数相机标注,但是对于这项研究,我们只使用了31台高清摄像头,但仍然能够构建一个庞大的数据集。”

 

团队正在努力解决,把2D模型转换为3D模型,以获得更好的识别效果。最终的目标是制作一个,允许单个摄像头和笔记本电脑,从一群人那里读取姿势的系统。

 

当技术成熟时,CMU RI团队认为它会非常有用,不仅可以让人们通过简单的指向与机器进行交互,还可以帮助自动驾驶汽车推断行人打算何时过马路,可以用来自动辅助诊断行为障碍,并跟踪体育运动员的动作,解释他们在做什么。

 

 

系统介绍▼

 

硬件:

 

 

  • 480个VGA摄像头,640 x 480分辨率,25 fps,使用硬件时钟同步

  • 31个高清摄像机,1920 x 1080分辨率,30 fps,使用硬件时钟同步,与VGA摄像机定时对齐

  • 10个KinectⅡ传感器。1920 x 1080(RGB),512 x 424(depth),30 fps,它们之间和其他传感器之间的时序对齐

  • 5台DLP投影机,与高清摄像机同步

 

场景与标注:

 

 多人

 社会互动群组

 3D身体姿势

 3D面部地标

Transcripts + speaker ID

 

Panoptic Studio数据集:http://t.cn/RKtsY8v

Paper:https://arxiv.org/abs/1612.03153

GitHub:http://t.cn/RKcZLeb

原文:http://t.cn/RKczNWt

 

 

★推荐阅读★

吴恩达:机器学习模型能比医生更精确诊断心律失常(paper)

深度 ‖ 为什么DeepMind在高手如林的加拿大设立AI实验室

详解谷歌发布的跨领域通用模型MultiModel

详解百度Apollo自动驾驶平台,三天就能开发无人车

建筑 ‖ 砌砖机器人以及桥梁检测机器人系统(附论文)


Add comment


Security code
Refresh