截至2016年5月,包含全部260万个Urban Dictionary的词汇定义、提交者和点赞数量的CSV语料库(238 MB)
2284个人,共26580幅人脸图像(年龄、性别识别)
包含一小部分含有复杂HTML表单的页面,共计267万个复杂表单(50+ GB)
约69万个人,共约100万幅人脸图像
2017年10月25日创建,包含4,483,032个问题及其答案(3.6 GB)
来自管理联邦采购数据系统(FPDS-NG)的联邦采购数据中心(FPDC)的转储,真实性和准确性已受承诺(180 GB)
约1000个人,共约3万幅人脸图像
带有Freebase注释的ClueWeb09和ClueWeb12语料库(72 GB)
收集用于作者信息和个性预测的实验,由145名不同学生编写的145篇荷兰语文章组成,每个学生还参加了在线MBTI性格测试
是一个开放的世界信息数据库,包含电影、音乐、人物、地域在内的数百个类别的数百万个主题(26GB)
200个人,共58797幅人脸图像
汇编了2001年至2017年印度“泰晤士报”发表的270万条新闻的标题(185 MB)
关于Freebase中每个主题的基本识别事实的数据转储(5 GB)
Hand Keypoint Detection in Single Images using Multiview Bootstrapping
共八个作文集,每一集作文都围绕一个主题展开。短文的平均长度为150到550个字。一些文章依赖于主题信息,另一些则是自由发挥。所有文章都是由7年级到10年级的学生撰写的,并经相关人员手工评分,有些还进行了双重评分(100 MB)
0个人,每个人12段视频步态识别是最近几年兴起的新研究领域,为了推进步态识别研究的发展,中国科学院自动化研究所免费提供CASIA步态数据库的下载。目前CASIA步态数据库有三个数据集:Dataset A(小规模库), Dataset B(多视角库)和Dataset C(红外库)。
Freebase中所有当前事实和主张的数据转储(35 GB)
n-gram(n = 1至5),从1260多个面向新闻的站点中检索到的1460万个文档(1.26亿条独特语句,34亿个运行词)(12 GB)
82个人,共1002幅人脸图像(年龄识别)
2005—2010年47,860篇英语新闻的匿名汇总,文章长度在500字和500,000字之间,英文单词占比高达90%(40 GB)