标签:自然语言处理
MS MARCO是一种新的大规模阅读理解和问答数据集。在MS MARCO中,所有问题都是从真正的匿名用户查询中抽取的。使用先进的Bing搜索引擎版本,从实际的Web文档中提取数据集中的答案的上下文段落。
chatterbot是一个开源中文对话语料库,语言库数量为560,已按类型进行分类。
源于Quora 的包含重复/语义相似性标签的数据集。数据集由超过40万行的潜在问题的问答组成。每行数据包含问题ID、问题全文以及指示该行是否真正包含重复对的二进制值。
斯坦福问答回答数据集(SQuAD)是一个新的阅读理解数据集,从维基百科中提炼出的问题组成,每个问题的答案都是相应段落的一段文本。在500多篇文章中有超过10万个问答对。
Question Answering is the task of answering questions (typically reading comprehension questions), but abstaining when presented with a question that ...
Language modeling is the task of predicting the next word or character in a document.* indicates models using dynamic evaluation; where, at test time,...
在当今信息量爆炸的时代,我们往往通过浏览新闻的标题或摘要,从而判断对这篇新闻是否感兴趣,是否值得阅读。为了用户流量,很多新闻平台都充斥着标题党。优秀的新闻摘要需要从大篇幅的新闻中筛选,判断出关键语句以及时间地点等因素,这需要专业的编辑人员。挑战:开发一个系统,对新闻内容提取或生成关键句子,包含时间、...
调查问卷又称调查表或询问表,是以问题的形式系统地记载调查内容的一种印件。(百度百科)如何从大量的反馈文本中获得被调研者的观点信息,是一个难题。挑战:开发一个系统,对问卷的反馈文本进行分析,自动对观点分类,并进行可视化呈现。数据集:数据集分为两部分第一部分是关于小学科学教育现状调研问卷,单选题、多选题...
Papers With Code highlights trending ML research and the code to implement it.1452 leaderboards • 1323 tasks • 1318 datasets • 16864 papers with code....
Web mining module for Python, with tools for scraping, natural language processing, machine learning, network analysis and visualization.