CHIME是用于语音识别挑战赛(CHiME Speech Separation and Recognition Challenge)的数据集。该数据集包含了训练集、开发机、测试集三部分,每份里面包括了多个扬声器在不同噪音环境下的数据。
源于Quora 的包含重复/语义相似性标签的数据集。数据集由超过40万行的潜在问题的问答组成。每行数据包含问题ID、问题全文以及指示该行是否真正包含重复对的二进制值。
斯坦福问答回答数据集(SQuAD)是一个新的阅读理解数据集,从维基百科中提炼出的问题组成,每个问题的答案都是相应段落的一段文本。在500多篇文章中有超过10万个问答对。
COCO数据集由微软赞助,其对于图像的标注信息不仅有类别、位置信息,还有对图像的语义文本描述,COCO数据集在图像分割语义理解取得了巨大的进展。
表情识别规格:10位日本女性表达者7 种面部表情(6 种基本面部表情 + 1 中性)每个表达者的每个表达的几个图像 共 213 张图片每张图片都有 60 位日本观众对 6 个面部表情的平均语义评分分辨率 256x256 像素8位灰度Tiff 格式,无压缩文档:README_FIRST.txt 和下面...
205幅图像,共468个人脸.由从Flickr采集的205幅图像组成,共468个人脸,其包含复杂的背景变化和人脸姿态变化等。
用两个概念来读一个句子,例如“一只狗是一种动物”或“船长可以与主人具有相同的含义”,判断这句话是否属实,然后将结果排列为1-5五个等级(700 KB)
包含2010年4月以前维基百科英文部分中的所有文章的快照,已经去除了所有链接和不相关的材料(导航文本等),但未经标记,是原始文本(1.8 GB)
包含在整个语料库中出现超过40次的n-gram,优化了快速查询小组短语的用法(2.2 TB)
20284个人,共523051幅人脸图像(年龄、性别识别)
Twitter美国航空公司情绪[Kaggle]:收集了twitter用户对于一些美国主要航空公司的评价情况。数据始于从2015年2月,评论者需选择正面、负面和中性中的一类,如有负面评价,再进行原因分类(如“晚班”或“粗鲁服务”)(2.5 MB)
收集了从2008以来抓取的50亿个网页的数据。其中自2013年开始,所有爬虫只持续一个月,数据以WARC文件格式存储。从2012年开始,抓取的数据还包含元数据(WAT)和文本数据(WET)提取,大大简化了数据处理(541 TB)
3837幅图像,每个人脸标定68个关键点