KITTI包含市区、乡村和高速公路等场景采集的真实图像数据,每张图像中最多达15辆车和30个行人,还有各种程度的遮挡与截断。整个数据集由389对立体图像和光流图,39.2 km视觉测距序列以及超过200k 3D标注物体的图像组成 ,以10Hz的频率采样及同步。
数据集大概有223G,主要是有关车辆驾驶的数据,其中除了车辆拍摄的图像以外,还包括车辆本身的属性和参数信息,例如经纬度、制动器、油门、转向度、转速等。这些数据可用于车辆自动驾驶方向的模型训练和学习。
RobotCar数据集包含时间范围超过1年,测试超过100次的相同路线的驾驶数据。数据集采集了天气、交通、行人、建筑和道路施工等不同组合的数据。
YouTube-8M一个大型的多样性标注的视频数据集,目前拥有700万的YouTube视频链接、45万小时视频时长、3.2亿视频/音频特征、4716个分类、平均每个视频拥有3个标签。
MPII Human Pose人体姿势数据集是人体姿势预估的一个 benchmark。数据集中包含约25000张标注图像,标注人数超过 4万人,涵盖了410中人类活动。这些图像是从 YouTube video 中抽取出来的。此外,在测试集中还收录了身体部位遮挡、3D 躯干、头部方向的标注。
Leeds Sports Pose 是由利兹大学计算机学院于 2010 年发布的一个体育姿势数据集。被分为竞技、羽毛球、棒球、体操、跑酷、足球、排球和网球几类,共包含约 2000 个姿势注释,图像均来自于 Flickr 。通过对图像进行缩放,聚焦的人物长度约 150 像素,并且每个图像都带有14个关...
MDB-WIKI人脸数据库是有IMDB数据库和Wikipedia数据库组成,其中IMDB人脸数据库包含了460,723张人脸图片,而Wikipedia人脸数据库包含了62,328张人脸数据库,总共523,051张人脸数据库,IMDB-WIKI人脸数据库中的每张图片都被标注了人的年龄和性别,对于年龄识...
Flickr-Faces-HQ 数据集(FFHQ)包含1024×1024分辨率的70000张PNG格式高清人脸图像,在年龄、种族和图像背景上丰富多样且差异明显,在人脸属性上也拥有非常多的变化,拥有不同的年龄、性别、种族、肤色、表情、脸型、发型、人脸姿态等,囊盖普通眼镜、太阳镜、帽子、发饰及围巾等多种...
PASCAL VOC数据集是PASCAL VOC挑战赛的数据集,可应用于图像识别中目标分类、目标检测、目标分割、人体布局、动作识别等方面的应用。PASCAL VOC不断更新,其中 PASCAL VOC 2007 与 PASCAL VOC 2012两个年份的数据集使用较多。PASCAL VOC 201...
CIFAR-10包含10个类别,60,000个训练图像,彩色图像大小:32x32,10,000个测试图像。CIFAR-100则是包含100个类,每类有600张图片,其中500张用于训练,100张用于测试;这100个类分组成20个超类。图像类别均有明确标注。CIFAR对于图像分类算法测试来说是一个非常...
FDDB数据集的图片来自于美联社和路透社新闻报道图片,并删除了重复图片。数据集包含2845张图片,共有5171个人脸作为测试集。测试集范围包括:不同姿势、不同分辨率、旋转和遮挡等图片,同时包括灰度图和彩色图,标准的人脸标注区域为椭圆形。
Imagenet数据集是目前深度学习图像领域应用得非常多的一个领域,可用于图像分类、定位、检测等研究工作。数据集有1400多万幅图片,涵盖2万多个类别,其中有超过百万的图片有明确的类别标注和图像中物体位置的标注。
COCO数据集由微软赞助,其对于图像的标注信息不仅有类别、位置信息,还有对图像的语义文本描述,COCO数据集在图像分割语义理解取得了巨大的进展。