下载获取 YAGO 源代码访问GitHub 上的 YAGO 源代码。下载整个 YAGO您可以一次性下载整个 YAGO(3.1 版)本体。不同转储的时间戳如下:维基百科(en、de、nl、fr、it、es、pl、fa、ar、ro):2017-05-20地名:2017-06-18维基数据:2017-05...
The WebVision dataset is designed to facilitate the research on learning visual representation from noisy web data.
维基媒体基金会提供的完整副本,以wikitext源代码和嵌入XML的元数据形式提供(500 GB)
180幅图像,共734个人脸。包含3个正面人脸测试子集和一个旋转人脸测试子集,其中正面人脸测试子集有130幅图像,共511个人脸;旋转人脸测试子集有50幅图像,共223个人脸。
可以实时访问全球100,000个新闻源的新闻文章,有API(免费查询工具)
包含美国德州自1984年以来每个执行死刑罪犯的遗言(HTML表格)
包含n-gram表示形式,这些数据可以作为查询重写任务的测试平台,这是IR研究中的一个常见问题,也是NLP研究中常见的单词和句子相似性任务(2.6 GB)
新英格兰爱国者队在美国橄榄球联合会(AFC)决赛中击败印第安纳波利斯小马队,将在2月1号的超级碗大赛中迎战西雅图海鹰队。但是爱国者队被发现在这次比赛中使用的12个橄榄球有11个充气不足。这个数据集可用于观察丑闻爆发Twitter用户的情绪,以衡量公众对整个事件的看法(2 MB)
ICWSM 2017论文“自动仇恨语音检测和无礼语言问题”的作者贡献。包含3类短文本:a)包含仇恨言论;b)是冒犯性的,但没有仇恨言论;c)根本没有冒犯性。由15,000行文本构成,每个字符串都经过3人判断(3 MB)
包含从原始电影脚本中提取的虚构对话集:10,292对电影角色之间的220,579次会话交流、涉及617部电影中的9,035个字符,共304,713个句子。元数据极其丰富,包含流派、发布年份、IMDB评级、IMDB票数、性别、在电影积分榜上的位置。
由2004年8月从blogger.com收集的19,320位博主的文章组成,共计681,288篇,字数超过1.4亿——平均每人35篇、7250字
哈佛图书馆藏书记录已超过1,200万册,包括书籍、期刊、电子资料、手稿、档案资料、乐谱、音频、视频和其他资料(4GB)