包含在整个语料库中出现超过40次的n-gram,优化了快速查询小组短语的用法(2.2 TB)