我越来越相信,创造美好的代价是:努力、失望以及毅力。首先是疼痛,然后才是欢乐。——梵高
PASCAL VOC数据集
PASCAL VOC 是一个国际计算机视觉挑战赛,该组织提供了领域内知名度最高的图像测试数据集和计算机视觉领域的基准测试。2005 年~2012 年间,该组织每年都发布带标签的图像数据库并开展算法竞赛,由此产生了一系列数据集。
目前,学术界常用5k的train/val 2007和16k的train/val 2012作为训练集,test 2007作为测试集,用10k的train/val 2007+test 2007和16k的train/val 2012作为训练集,test2012作为测试集,分别汇报结果。
PASCAL VOC支持以下几个任务:
- 分类任务:在测试图像预测是否为二十个分类之一,正确分类,如图1所示;
- 检测任务:在测试图像上预测二十个分类对象的有无与位置信息,如图2所示;
- 分割任务:对每个对象与类别生成像素级别的分割标签,确定像素是为目标20个分类或者背景,如图3所示;
- 行为识别:检测人与其各个身体组成部分,如手、脚、头等,如图4所示。
图1 分类任务
图2 检测任务
图3 分割任务
图4 行为识别任务
其中,所有的标注图片都有Detection需要的label, 但只有部分数据有Segmentation Label。VOC2007中包含9963张标注过的图片, 由train/val/test三部分组成, 共标注出24,640个物体。
对于检测任务,VOC2012的trainval/test包含08-11年的所有对应图片。trainval有11540张图片共27450个物体。
对于分割任务, VOC2012的trainval包含07-11年的所有对应图片, test只包含08-11。trainval有 2913张图片共6929物体。
数据集地址:http://images.cocodataset.org/zips
MSCOCO数据集
COCO数据集是微软团队发布的一个数据集,该数据集收集了大量包含常见物体的日常场景图片,并提供像素级的实例标注以更精确地评估检测和分割算法的效果,致力于推动场景理解的研究进展。依托这一数据集,每年举办一次比赛,现已涵盖检测、分割、关键点识别、注释等机器视觉的中心任务,是继ImageNet Chanllenge以来最有影响力的学术竞赛之一。相比ImageNet,COCO更加偏好目标与其场景共同出现的图片,即non-iconic images。这样的图片能够反映视觉上的语义,更符合图像理解的任务要求。而相对的iconic images则更适合浅语义的图像分类等任务。
COCO的检测任务共含有80个类,在2014年发布的数据规模分train/val/test分别为80k/40k/40k,学术界较为通用的划分是使用train和35k的val子集作为训练集(trainval35k),使用剩余的val作为测试集(minival),同时向官方的evaluation server提交结果(test-dev)。除此之外,COCO官方也保留一部分test数据作为比赛的评测集。
和VOC数据集一样,COCO数据集也支持包括图像分类、目标检测、图像分割等任务。除此之外,COCO数据集还支持关键点检测任务。COCO数据集有91类,虽然比ImageNet和SUN类别少,但是每一类的图像多,这有利于获得更多的每类中位于某种特定场景的能力,对比PASCAL VOC,其有更多类和图像。
图5 COCO数据集示例
数据集地址:http://cocodataset.org/#home
Google Open Image数据集
Google Open Image是谷歌团队发布的数据集。最新发布的Open Images V4包含190万图像、600个种类,1540万个bounding-box标注,是当前最大的带物体位置标注信息的数据集。这些边界框大部分都是由专业注释人员手动绘制的,确保了它们的准确性和一致性。另外,这些图像是非常多样化的,并且通常包含有多个对象的复杂场景(平均每个图像 8 个)。
图5 Google Open Image数据集示例
数据集地址:https://github.com/openimages/dataset
ImageNet数据集
ImageNet是美国斯坦福李飞飞团队模拟人类的识别系统建立的。Imagenet数据集文档详细,有专门的团队维护,使用非常方便,在计算机视觉领域研究论文中应用非常广,几乎成为了目前深度学习图像领域算法性能检验的“标准”数据集。Imagenet数据集有1400多万幅图片,涵盖2万多个类别;其中有超过百万的图片有明确的类别标注和图像中物体位置的标注。
数据集地址为:http://www.image-net.org/download.php
DOTA数据集
DOTA是遥感航空图像检测的常用数据集,包含2806张航空图像,尺寸大约为4kx4k,包含15个类别共计188282个实例,其中14个主类,small vehicle 和 large vehicle都是vehicle的子类。其标注方式为四点确定的任意形状和方向的四边形。航空图像区别于传统数据集,有其自己的特点,如:尺度变化性更大;密集的小物体检测;检测目标的不确定性。数据划分为1/6验证集,1/3测试集,1/2训练集。目前发布了训练集和验证集,图像尺寸从800x800到4000x4000不等。
图6 DOTA数据集示例
数据集地址为:https://captain-whu.github.io/DOTA/dataset.html
数据增强方法
数据增强通常是防止模型过拟合的有效手段之一,通过数据增强实现数据更复杂的表征,从而减小验证集和训练集以及最终测试集的差距,让网络更好地学习迁移数据集上的数据分布。常用增强方法:数据变换增强,包括几何变换、色彩空间变换,随机擦除,对抗训练,神经风格迁移等;重采样增强,主要侧重于新的实例合成。如图像混合(mixup),特征空间的增强,GAN生成图片。
参考文献
[1] https://github.com/scutan90/DeepLearning-500-questions
前期回顾
最全的目标检测入门系列(二)评价指标