标签:开源
205幅图像,共468个人脸.由从Flickr采集的205幅图像组成,共468个人脸,其包含复杂的背景变化和人脸姿态变化等。
用两个概念来读一个句子,例如“一只狗是一种动物”或“船长可以与主人具有相同的含义”,判断这句话是否属实,然后将结果排列为1-5五个等级(700 KB)
包含2010年4月以前维基百科英文部分中的所有文章的快照,已经去除了所有链接和不相关的材料(导航文本等),但未经标记,是原始文本(1.8 GB)
包含在整个语料库中出现超过40次的n-gram,优化了快速查询小组短语的用法(2.2 TB)
20284个人,共523051幅人脸图像(年龄、性别识别)
Twitter美国航空公司情绪[Kaggle]:收集了twitter用户对于一些美国主要航空公司的评价情况。数据始于从2015年2月,评论者需选择正面、负面和中性中的一类,如有负面评价,再进行原因分类(如“晚班”或“粗鲁服务”)(2.5 MB)
收集了从2008以来抓取的50亿个网页的数据。其中自2013年开始,所有爬虫只持续一个月,数据以WARC文件格式存储。从2012年开始,抓取的数据还包含元数据(WAT)和文本数据(WET)提取,大大简化了数据处理(541 TB)