在当今信息量爆炸的时代,我们往往通过浏览新闻的标题或摘要,从而判断对这篇新闻是否感兴趣,是否值得阅读。为了用户流量,很多新闻平台都充斥着标题党。优秀的新闻摘要需要从大篇幅的新闻中筛选,判断出关键语句以及时间地点等因素,这需要专业的编辑人员。
挑战:
开发一个系统,对新闻内容提取或生成关键句子,包含时间、地点等新闻要素,生成一段新闻摘要。
数据集:
数据集分为三个部分
第一部分:200多万条原始新闻及其作者提供的摘要
第二部分:从第一部分数据中随机选出10666条数据,人工对部分新闻与摘要进行相关性标记,标记分数范围为1到5,“1”表示“相关性最低”,“5”表示“相关性最高”。
第三部分:从第一部分数据中随机选1106条数据,由3人重新打分,分数标准与第二部分的数据相同。