免费提供一组660个故事和相关问题,用于研究机器对文本的理解、回答问题(1 MB) 
收集了来自美国参议员和其他美国政客的数千条社交媒体消息,可按内容分类为目标群众(国家或选民)、政治主张(中立/两党或偏见/党派)和实际内容(如攻击政敌等)(4 MB)注:该网站还有其他大量CV、NLP和语音方面的小型数据集 
自驾车:阅读推文,将其分为非常积极的、轻微积极的、中性的、轻微消极的或非常消极的,并标记其是否与自驾车相关(1 MB) 
Stanford Large Network Dataset Collection 
包含1,227,255封电子邮件,其中493,384份附件覆盖了151名托管人。该电子邮件的格式为Microsoft PST、IETF MIME和EDRM XML(210 GB) 
共十个数据集,每个数据集都是由单个提示生成的。平均长度为50个字。一些回答依赖于问题信息,另一些则是自由发挥。所有答案都是由10年级的学生撰写的,并经相关人员手动分级并进行双重评分(35 MB)
约1000幅图像,每个人脸标定20个关键点