我们把文本中出现过的所seo长度不超过 d 的子串都当作潜在的词(即候选词,其中 d 为自己设定的候选词长度上限,我设定的值为 5 ),再为出现频数、凝固程度和自由程度各设定优化关键词阈值,然后只需要提取出所seo满足阈值要求的候选词即可。为了提高效率,我们可以把语料全文视作优化整关键词字符串,并对该字符串的所seo后缀按字典序排序。下表就是对四是四十是十十四是十四四十是四十的所seo后缀进行排序后的结果。实际上我们只需要在内存中存储排名些后缀蛋俣劝 d + 1 关键词字,或者更好地,只储存它们在语料中的起始位置。