目前JR的关键字功能比较简单,一个关键字实际上由并列的几个关键字构成,例如ioc,di以及控制反转都是作为同样的关键字对待的,每篇文章包含的每个
关键字都是有权重的,权重的算法目前也非常的简单,如果是标题中包含关键字,那么权重是出现的次数X关键字的长度X5,如果正文中包含关键字,那么权重是
出现的次数X关键字的长度,如果标题中包含某个关键字,那么正文中的同一关键字的权重将再乘以2,目前看,对于单一关键字这个权重的结果还是比较好的,基
本上能够反映出所有文章中和关键字的匹配程度。对于英文的单词,目前是全词匹配的,否则误判很高,例如di这个关键字,很多单词都包含这个字母序列,而我
们在判断是否包含关键字的时候都是转换为小写进行处理的。

目前正在开发中的是文章相关性功能,初步的设想是从原文章中取出其权重最高的五个关键字,然后看看其它的包含这些关键字的文章,其权重的和最高的就认为是
最相关的,目前看结果不是很理想,可能对于原文章中的关键字的权重大小不同对目前文章的关键字的权重进行相应的处理后得到的才能是比较好的结果。但是这个
也需要检验。

(Visited 152 times, 1 visits today)