admin 管理员组

文章数量: 887007

骨骼的动作识别数据集

作者:周岩

编者按:动作识别的研究主要基于对视频数据的识别,其中主要包含动作识别(如手势识别,运动识别等),目标识别和姿态预测几个子方向。所有这些方向的研究都离不开有代表性的视频数据。不同于图像识别领域有MNIST和ImageNet等十分成熟常用的数据集,动作识别领域的数据集比较有限,而且通常所占用的硬盘空间比较大,因此在开展相关研究之前,仔细选择一个合适的数据集显得十分必要。

动作识别(Action Recognition)是最近计算机视觉领域比较火的一个Topic,近年来有越来越多的相关文章出现在CVPR、ICCV和NIPS等机器学习和计算机视觉顶会上。这里就有一个Github的repo()总结和整理了动作识别领域的相关研究工作和数据资源。

动作识别的研究主要基于对视频数据的识别,其中主要包含动作识别(如手势识别,运动识别等),目标识别和姿态预测几个子方向。所有这些方向的研究都离不开有代表性的视频数据。不同于图像识别领域有MNIST和ImageNet等十分成熟常用的数据集,动作识别领域的数据集比较有限,而且通常所占用的硬盘空间比较大,因此在开展相关研究之前,仔细选择一个合适的数据集显得十分必要。

获取对自己研究合适的视频数据集可能需要花大量的带宽资源和硬盘资源下载,本文就动作识别领域目前有的公开数据集进行了深入研究,详细了介绍了一下各个数据集的特点,读者可以在本文的帮助下,根据自身的需要选择合适的数据集下载。

1、经典数据集

经典的动作识别数据集,也是目前文章中使用率较高的数据集之一。数据集一共包含2391组数据,其中包含6个动作,每个动作由25个人物在4个不同的场景下完成,因此一共有600个视频序列,每个视频又可以分割成4个子序列。KTH数据集的动作比较规范,同时采用固定镜头,数量对于目前的模型训练来说也比较丰富,所以对应单纯进行动作识别的任务可以说是非常好用的数据集了。同时,KTH在GitHub的处理的开源程序有很多,可以随时根据自己的需要进行参考。

另一组比较经典的数据集,数据同样是固定镜头下的10个典型动作的视频,同时数据集提供了一些带有其他物体的动作作为干扰,可以测试模型的鲁棒性。

官方同时提供了去除背景的程序,但是数据集的数据量比较少的90组常规数据和21组鲁棒测试数据,对于目前的模型训练来说显得有些不足,不过对于本来就需要用小数据的模型比如迁移学习或者One-short Learning来说或许是适合的数据集。Inria XMAS():

这组数据主要提供了同一个动作在多组镜头角度下的视频数据,可以说是简单的动态背景。数据集提供了11名演员每人3次的13个日常动作,演员们自由选择位置和方向。这个数据集的下载比较特殊,需要通过wget来下载。

一个主要关于运动的数据集,这个数据集也是质量比较高的数据集,主要为13个常规的运动动作。但是美中不足的同样是每种数据的数量都比较少,不过这个数据集出了一些后续的数据集比如UCF-50(.php)和UCF-101(.php)等。

根据好莱坞电影镜头剪辑出来的数据集,这个数据集包含475个视频,数据量上有一定的保证,但是这个数据集有个特点就是电影镜头往往不是单一的动作,而且很多动作同时混合在一起,同时背景由于镜头切换会有非连续的情况出现,或许这样的情况会对模型的训练造成影响。另外这组数据还在后续提供了更大数据量的数据集:/。

总结:以上就是对经典数据集的介绍,经典数据集的数据量普遍比较少,而且场景也相对简单,而且提出的时间通常在2000前后,视频的分辨率也普遍偏低,更详细的介绍可以参考2014年的一篇综述文章:A survey on vision-based human action recognition。

2、中等规模的数据集

这个数据集一共有51个类别,平均每个类别有100-200组数据。从数据量和类别上来看可以看到是具有比较丰富的数据的,但是这个数据集也是由一些电影镜头和日常的摄像机拍摄的视频为主,所以背景相对复杂,同样有动态镜头和切换镜头的视频。因此这个数据集更适合目标识别和目标检测。SVW(.html ):这个数据集的特点是适合多种形式的任务,可以作为目标检测也可以作为动作识别。目前这个数据官方提供了matlab程序来分割视频(不过亲身实践后发现程序有一些bug需要调试),数据集一共包含30个种类的数据,经过分割后会有更多的类别可供动作识别来用。这个数据的背景也有一些是移动状态下的,但是总体来说对于识别是中等规模数据集中比较合适的。

总结:中等规模的数据集普遍具有相对与经典数据集更多的数据量,而且在类别上也更多,这也体现了随着计算规模的发展,可以建立的预测模型越来越复杂,可以处理更复杂的任务。

3、适用于深度学习的大规模数据集ActivityNet():Google在2016年出品的数据集,数据的来源主要是Youtube,带有很强的深度学习背景,数据量很大,需要通过官方提供的程序自行下载,官网提供的数据仅为数据的Youtube地址。由于数据主要来源于Youtube,所以这个数据集相对更复杂,更适合目标检测。但是通过动作检测提取后的数据更适合动作识别数据集。20BN-jester():手势识别数据集,视频的背景比较固定,动作也更单纯,所以更适合直接应用与动作识别。同时,数据量和类别也很充足,更值得一提的是,数据是以jpeg存储的,所以在读取数据时甚至可以不通过OpenCV这样的框架就可以处理数据。另外,网站还提供了基于物体的动作识别,这两组数据对于实际的应用场景会更有意义。

该数据集提供了丰富的数据量,并且视频的背景相对固定,很适合进行动作识别,同时数据的特点是同时提供了RGB,深度和骨骼视频。数据集的全部数据高达1.3TB,并且后续有更丰富的数据集提供("NTU RGB+D 120"),但是这个数据的下载需要通过网站申请账号,但是一天之内会有回复(仔细填写一般都可以通过)。

总结:大规模数据集的特点主要是数据量比较大,类别也更多,并且网站上普遍不能提供直接的下载,而是通过提供类似爬虫程序的方式下载。这类数据主要以近3-5年出现的数据集为主数据的大小普遍在GB甚至TB级,需要用深度模型和更强算力的机器来建立模型处理。

4、特定场景的数据集

以上都是一些比较有名的开源数据集,常常用来做算法的benchmark。那么针对一些实际的应用场景,我们往往还需要一些特殊的数据集。这样的小众数据集有很多,我们不一一来收集做介绍,这里只是举例介绍其中的一个。

Distracted Driver Detection是一个司机状态检测数据集,包含10个状态,共22425张图 。大小4G。(数据文末回复关键词可见)

数据集地址:

每年很多的交通事故的发生都是因为司机没有专注于自动驾驶,因此一个好的辅助驾驶系统不仅要关注车外的情况,也要时刻关注车内驾驶员的情况。

这一个数据集来自kaggle平台,包含了10种状态,如下:

c0:safe driving

c1:texting-right

c2:talking on the phone-right

c3:texting-left

c4:talking on the phone-left

c5:operating the ratio

c6:drinking

c7:reaching behind

c8:hair and makeup

c9:talking on passenger

一些样本如下,每一类约2000多张图像,共22425张图。

最后总结:

这篇文章主要对动作识别领域的一部分数据集做了一些基本的介绍和探讨,很多数据也没有实际的处理和应用,所以并不够深入,但是也希望这篇文章能起到一个抛砖引玉的作用,更详细的介绍可以直接去数据集的官网阅读说明并下载研究。如何组织好自己的数据为算法提供支撑是做研究的关键一步,最后小编希望大家可以通过这些数据做出更精彩的成果。

本文标签: 骨骼的动作识别数据集