KITTI包含市区、乡村和高速公路等场景采集的真实图像数据,每张图像中最多达15辆车和30个行人,还有各种程度的遮挡与截断。整个数据集由389对立体图像和光流图,39.2 km视觉测距序列以及超过200k 3D标注物体的图像组成 ,以10Hz的频率采样及同步。
数据集大概有223G,主要是有关车辆驾驶的数据,其中除了车辆拍摄的图像以外,还包括车辆本身的属性和参数信息,例如经纬度、制动器、油门、转向度、转速等。这些数据可用于车辆自动驾驶方向的模型训练和学习。
RobotCar数据集包含时间范围超过1年,测试超过100次的相同路线的驾驶数据。数据集采集了天气、交通、行人、建筑和道路施工等不同组合的数据。
YouTube-8M一个大型的多样性标注的视频数据集,目前拥有700万的YouTube视频链接、45万小时视频时长、3.2亿视频/音频特征、4716个分类、平均每个视频拥有3个标签。
20newsgroups数据集是用于文本分类、文本挖据和信息检索研究的国际标准数据集之一。数据集收集了大约20,000左右的新闻组文档,均匀分为20个不同主题的新闻组集合。
MS MARCO是一种新的大规模阅读理解和问答数据集。在MS MARCO中,所有问题都是从真正的匿名用户查询中抽取的。使用先进的Bing搜索引擎版本,从实际的Web文档中提取数据集中的答案的上下文段落。
Aidatatang_200zh是一个开放式中文普通话电话语音库。语料库长达200小时,由Android系统手机(16kHz,16位)和iOS系统手机(16kHz,16位)记录。邀请来自中国不同重点区域的600名演讲者参加录音,录音是在安静的室内环境或环境中进行,其中包含不影响语音识别的背景噪音。参...
AISHELL是一个中文语音数据集,其中包含178小时的开源版数据。该数据集包含400个来自中国不同地区、具有不同的口音的人的声音。录音是在安静的室内环境中使用高保真麦克风进行录音,并采样降至16kHz。通过专业的语音注释和严格的质量检查,手动转录准确率达到95%以上。该数据免费供学术使用。
THCHS30是由清华大学语音与语言技术中心发布的开源中文语音数据集。数据集包含了1万余条语音文件,大约40小时的中文语音数据,内容以文章诗句为主,全部为女声。THCHS-30是在安静的办公室环境下,通过单个碳粒麦克风录取,采样频率16kHz,采样大小16bits。
谷歌发布的大规模一品数据集,AudioSet 包括 632 个音频事件类的扩展类目和从YouTube视频绘制的 2084320 个人类标记的10秒声音剪辑的集合。类目被指定为事件类别的分层图,覆盖广泛的人类和动物声音,乐器和风格以及常见的日常环境声音。
TIMIT是一份英文语音识别数据集,包含630个扬声器的宽带录音,八个主要方言的美式英语,每个阅读十个语音丰富的句子。TIMIT语料库包括时间对齐的正字法,语音和单词转录以及每个话语的16位,16kHz语音波形文件。
MPII Human Pose人体姿势数据集是人体姿势预估的一个 benchmark。数据集中包含约25000张标注图像,标注人数超过 4万人,涵盖了410中人类活动。这些图像是从 YouTube video 中抽取出来的。此外,在测试集中还收录了身体部位遮挡、3D 躯干、头部方向的标注。
Leeds Sports Pose 是由利兹大学计算机学院于 2010 年发布的一个体育姿势数据集。被分为竞技、羽毛球、棒球、体操、跑酷、足球、排球和网球几类,共包含约 2000 个姿势注释,图像均来自于 Flickr 。通过对图像进行缩放,聚焦的人物长度约 150 像素,并且每个图像都带有14个关...
MDB-WIKI人脸数据库是有IMDB数据库和Wikipedia数据库组成,其中IMDB人脸数据库包含了460,723张人脸图片,而Wikipedia人脸数据库包含了62,328张人脸数据库,总共523,051张人脸数据库,IMDB-WIKI人脸数据库中的每张图片都被标注了人的年龄和性别,对于年龄识...
Flickr-Faces-HQ 数据集(FFHQ)包含1024×1024分辨率的70000张PNG格式高清人脸图像,在年龄、种族和图像背景上丰富多样且差异明显,在人脸属性上也拥有非常多的变化,拥有不同的年龄、性别、种族、肤色、表情、脸型、发型、人脸姿态等,囊盖普通眼镜、太阳镜、帽子、发饰及围巾等多种...
PASCAL VOC数据集是PASCAL VOC挑战赛的数据集,可应用于图像识别中目标分类、目标检测、目标分割、人体布局、动作识别等方面的应用。PASCAL VOC不断更新,其中 PASCAL VOC 2007 与 PASCAL VOC 2012两个年份的数据集使用较多。PASCAL VOC 201...
CIFAR-10包含10个类别,60,000个训练图像,彩色图像大小:32x32,10,000个测试图像。CIFAR-100则是包含100个类,每类有600张图片,其中500张用于训练,100张用于测试;这100个类分组成20个超类。图像类别均有明确标注。CIFAR对于图像分类算法测试来说是一个非常...
chatterbot是一个开源中文对话语料库,语言库数量为560,已按类型进行分类。
FDDB数据集的图片来自于美联社和路透社新闻报道图片,并删除了重复图片。数据集包含2845张图片,共有5171个人脸作为测试集。测试集范围包括:不同姿势、不同分辨率、旋转和遮挡等图片,同时包括灰度图和彩色图,标准的人脸标注区域为椭圆形。