全部 - 青少年人工智能资源与创新平台 - 互联网教育智能技术及应用国家工程实验室 - Powered By EduSoho

标签：人工智能

01

12月

Multi-PIE

337个人,共约75万图像

01

12月

Death Row

包含美国德州自1984年以来每个执行死刑罪犯的遗言（HTML表格）

01

12月

Open Library数据转储

包含Open Library中所有记录的最新版本的转储（16 GB）

01

12月

Yahoo! N-Gram Representations

包含n-gram表示形式，这些数据可以作为查询重写任务的测试平台，这是IR研究中的一个常见问题，也是NLP研究中常见的单词和句子相似性任务（2.6 GB）

01

12月

Twitter上关于新英格兰爱国者队泄气门（Deflategate）事件的情绪

新英格兰爱国者队在美国橄榄球联合会（AFC）决赛中击败印第安纳波利斯小马队，将在2月1号的超级碗大赛中迎战西雅图海鹰队。但是爱国者队被发现在这次比赛中使用的12个橄榄球有11个充气不足。这个数据集可用于观察丑闻爆发Twitter用户的情绪，以衡量公众对整个事件的看法（2 MB）

01

12月

仇恨言语识别

ICWSM 2017论文“自动仇恨语音检测和无礼语言问题”的作者贡献。包含3类短文本：a）包含仇恨言论；b）是冒犯性的，但没有仇恨言论；c）根本没有冒犯性。由15,000行文本构成，每个字符串都经过3人判断（3 MB）

01

12月

康奈尔电影对话语料库（Cornell Movie Dialog Corpus）

包含从原始电影脚本中提取的虚构对话集：10,292对电影角色之间的220,579次会话交流、涉及617部电影中的9,035个字符，共304,713个句子。元数据极其丰富，包含流派、发布年份、IMDB评级、IMDB票数、性别、在电影积分榜上的位置。

01

12月

博客作者身份语料库

由2004年8月从blogger.com收集的19,320位博主的文章组成，共计681,288篇，字数超过1.4亿——平均每人35篇、7250字

01

12月

哈佛图书馆

哈佛图书馆藏书记录已超过1,200万册，包括书籍、期刊、电子资料、手稿、档案资料、乐谱、音频、视频和其他资料（4GB）

01

12月

Apache Software Foundation公共邮件存档

截至2011年7月11日所有公开可用的Apache Software Foundation邮件存档

01

12月

TED-LIUM

TED 演讲的语音转录数据集。1495 份 TED 演讲的语音记录，并且这些语音记录有对应的全文本。

01

12月

Yahoo!搜索日志与相关性判断

匿名化的Yahoo!搜索日志与相关性判断（1.3 GB）

01

12月

SouthparkData

带有脚本信息的.csv文件，包含《南方公园》季数、剧集、角色等信息（3.6 MB）

01

12月

DBpedia

包含从维基百科中提取出的结构化信息，包括312,000个人、413,000个地点、94,000张音乐专辑、49,000部电影、15,000种电子游戏、140,000个组织、146,000个物种和4600种疾病。共计10亿多条信息，其中2.57亿条来自维基百科英文版，7.66亿条来自其他语言版本（17...

01

12月

澳大利亚新闻标题[Kaggle]

包含15年内（2003年初至2017年）澳大利亚广播公司发布的130万条新闻的标题，深入研究关键词，可以看到所有塑造了过去十年的重要事件，以及它们随着时间的演变历程（56 MB）

01

12月

Home Depot产品搜索相关性[Kaggle]

包含Home Depot网站上的许多产品和真实客户的搜索关键词。每对词都经3名评估人员评估，并给出1—3的相关性评分，可用来预测相关性（65 MB）

01

12月

路透社语料库

包含大量路透社新闻报道，主要用于研究和开发自然语言处理、信息检索和机器学习系统。在2004年秋季，NIST接管了RCV1，所以现在需要向NIST发送请求并签署协议来获取这些数据集（2.5 GB）

01

12月

Twitter东京地理定位推文

来自东京的20万条推文（47 MB）

01

12月

NEGRA

德语报刊文本的句法注释语料库，适用于所有大学和非营利组织，需要签署并发送表格才能获得

01

12月

CMU Q/A Dataset

人工生成的问题/答案对，难度评级来自维基百科文章。