下载链接:https://dblp.uni-trier.de/xml/
包含5401933个概念,12551613个实例,87603947条IsA三元组.
一个大型、通用的语言建模数据集,常用于如 word2vec 或 Glove 的分布式词语表征。
230,000份材料安全数据表,包含化学成分、急救措施、储存和处理等信息(3 GB)
自驾车:阅读推文,将其分为非常积极的、轻微积极的、中性的、轻微消极的或非常消极的,并标记其是否与自驾车相关(1 MB)
Twitter美国地理定位推文:来自美国的20万条推文(45 MB)
Stanford Large Network Dataset Collection
包含1,227,255封电子邮件,其中493,384份附件覆盖了151名托管人。该电子邮件的格式为Microsoft PST、IETF MIME和EDRM XML(210 GB)
RDF数据(2 GB)
共十个数据集,每个数据集都是由单个提示生成的。平均长度为50个字。一些回答依赖于问题信息,另一些则是自由发挥。所有答案都是由10年级的学生撰写的,并经相关人员手动分级并进行双重评分(35 MB)
约1000幅图像,每个人脸标定20个关键点