1132幅图像,每个人脸标定29个关键点
1852幅图像,每个人脸标定29个关键点
https://arvindn.livejournal.com/tag/data
免费提供一组660个故事和相关问题,用于研究机器对文本的理解、回答问题(1 MB)
收集了来自美国参议员和其他美国政客的数千条社交媒体消息,可按内容分类为目标群众(国家或选民)、政治主张(中立/两党或偏见/党派)和实际内容(如攻击政敌等)(4 MB)注:该网站还有其他大量CV、NLP和语音方面的小型数据集
下载链接:https://dblp.uni-trier.de/xml/
包含5401933个概念,12551613个实例,87603947条IsA三元组.
一个大型、通用的语言建模数据集,常用于如 word2vec 或 Glove 的分布式词语表征。
230,000份材料安全数据表,包含化学成分、急救措施、储存和处理等信息(3 GB)
自驾车:阅读推文,将其分为非常积极的、轻微积极的、中性的、轻微消极的或非常消极的,并标记其是否与自驾车相关(1 MB)
Twitter美国地理定位推文:来自美国的20万条推文(45 MB)
Stanford Large Network Dataset Collection
包含1,227,255封电子邮件,其中493,384份附件覆盖了151名托管人。该电子邮件的格式为Microsoft PST、IETF MIME和EDRM XML(210 GB)
RDF数据(2 GB)
共十个数据集,每个数据集都是由单个提示生成的。平均长度为50个字。一些回答依赖于问题信息,另一些则是自由发挥。所有答案都是由10年级的学生撰写的,并经相关人员手动分级并进行双重评分(35 MB)
约1000幅图像,每个人脸标定20个关键点