荷兰语,该语料库包含两种类型的学生文本:作文和评论。涉及作者(性别、年龄、性取向、来源地区、性格概况)和文档(时间、流派、真实性、情绪、等级)等大量元数据。由安特卫普大学CLiPS研究中心提供,主要用于计量文体学分析。
包含从各种在线沙特报纸中摘录的31,030份阿拉伯文报纸文章及其元数据(2 MB)
下载获取 YAGO 源代码访问GitHub 上的 YAGO 源代码。下载整个 YAGO您可以一次性下载整个 YAGO(3.1 版)本体。不同转储的时间戳如下:维基百科(en、de、nl、fr、it、es、pl、fa、ar、ro):2017-05-20地名:2017-06-18维基数据:2017-05...
The WebVision dataset is designed to facilitate the research on learning visual representation from noisy web data.
维基媒体基金会提供的完整副本,以wikitext源代码和嵌入XML的元数据形式提供(500 GB)
180幅图像,共734个人脸。包含3个正面人脸测试子集和一个旋转人脸测试子集,其中正面人脸测试子集有130幅图像,共511个人脸;旋转人脸测试子集有50幅图像,共223个人脸。
可以实时访问全球100,000个新闻源的新闻文章,有API(免费查询工具)
包含美国德州自1984年以来每个执行死刑罪犯的遗言(HTML表格)
包含n-gram表示形式,这些数据可以作为查询重写任务的测试平台,这是IR研究中的一个常见问题,也是NLP研究中常见的单词和句子相似性任务(2.6 GB)
新英格兰爱国者队在美国橄榄球联合会(AFC)决赛中击败印第安纳波利斯小马队,将在2月1号的超级碗大赛中迎战西雅图海鹰队。但是爱国者队被发现在这次比赛中使用的12个橄榄球有11个充气不足。这个数据集可用于观察丑闻爆发Twitter用户的情绪,以衡量公众对整个事件的看法(2 MB)
ICWSM 2017论文“自动仇恨语音检测和无礼语言问题”的作者贡献。包含3类短文本:a)包含仇恨言论;b)是冒犯性的,但没有仇恨言论;c)根本没有冒犯性。由15,000行文本构成,每个字符串都经过3人判断(3 MB)