全部 - 青少年人工智能资源与创新平台 - 互联网教育智能技术及应用国家工程实验室 - Powered By EduSoho

标签：计算思维

01

12月

DBpedia

包含从维基百科中提取出的结构化信息，包括312,000个人、413,000个地点、94,000张音乐专辑、49,000部电影、15,000种电子游戏、140,000个组织、146,000个物种和4600种疾病。共计10亿多条信息，其中2.57亿条来自维基百科英文版，7.66亿条来自其他语言版本（17...

01

12月

澳大利亚新闻标题[Kaggle]

包含15年内（2003年初至2017年）澳大利亚广播公司发布的130万条新闻的标题，深入研究关键词，可以看到所有塑造了过去十年的重要事件，以及它们随着时间的演变历程（56 MB）

01

12月

Home Depot产品搜索相关性[Kaggle]

包含Home Depot网站上的许多产品和真实客户的搜索关键词。每对词都经3名评估人员评估，并给出1—3的相关性评分，可用来预测相关性（65 MB）

01

12月

路透社语料库

包含大量路透社新闻报道，主要用于研究和开发自然语言处理、信息检索和机器学习系统。在2004年秋季，NIST接管了RCV1，所以现在需要向NIST发送请求并签署协议来获取这些数据集（2.5 GB）

01

12月

Twitter东京地理定位推文

来自东京的20万条推文（47 MB）

01

12月

NEGRA

德语报刊文本的句法注释语料库，适用于所有大学和非营利组织，需要签署并发送表格才能获得

01

12月

CMU Q/A Dataset

人工生成的问题/答案对，难度评级来自维基百科文章。

01

12月

crosswikis

英语短语相关的维基百科文章数据库、论文（11 GB）

01

12月

一周全球新闻馈送[Kaggle]

一周内（2017年8月24日至2017年8月30日）全球在线发布的大多新闻内容的快照，包括大约140万篇文章、20,000个新闻来源和20多种语言（115 MB）

01

12月

Urban Dictionary词汇和定义[Kaggle]

截至2016年5月，包含全部260万个Urban Dictionary的词汇定义、提交者和点赞数量的CSV语料库（238 MB）

01

12月

Yahoo!从公开可用网页中提取的HTML表单

包含一小部分含有复杂HTML表单的页面，共计267万个复杂表单（50+ GB）

01

12月

Yahoo! Answers Comprehensive Questions and Answers

2017年10月25日创建，包含4,483,032个问题及其答案（3.6 GB）

01

12月

联邦采购数据中心的联邦合同

来自管理联邦采购数据系统（FPDS-NG）的联邦采购数据中心（FPDC）的转储，真实性和准确性已受承诺（180 GB）

01

12月

ClueWeb09 FACC

带有Freebase注释的ClueWeb09和ClueWeb12语料库（72 GB）

01

12月

Personae语料库

收集用于作者信息和个性预测的实验，由145名不同学生编写的145篇荷兰语文章组成，每个学生还参加了在线MBTI性格测试

01

12月

Freebase数据转储

是一个开放的世界信息数据库，包含电影、音乐、人物、地域在内的数百个类别的数百万个主题（26GB）

01

12月

印度新闻标题[Kaggle]

汇编了2001年至2017年印度“泰晤士报”发表的270万条新闻的标题（185 MB）

01

12月

Freebase简单主题转储

关于Freebase中每个主题的基本识别事实的数据转储（5 GB）

01

12月

Freebase Quad Dump

Freebase中所有当前事实和主张的数据转储（35 GB）

01

12月

Yahoo! N-Grams 2.0

n-gram（n = 1至5），从1260多个面向新闻的站点中检索到的1460万个文档（1.26亿条独特语句，34亿个运行词）（12 GB）