n-gram(n = 1至5),从1260多个面向新闻的站点中检索到的1460万个文档(1.26亿条独特语句,34亿个运行词)(12 GB)