搜索引擎搜索请求的原理

在搜索引擎里进行的每个搜索请求都是经历了复杂的分析,并且网页也是这样的。但是含有多个词的搜索请求,搜索引擎会用更加复杂的方式来评估,原因是这些词之间有互相作用。下面来看看这些只对多个词的搜索请求使用的因素
1、搜索项的稀有程度。当搜索请求含有不止一个搜索项的时候,搜索引擎想要知道哪个词对整个网站是最重要的,因为这样可以帮助搜索引擎找到最重要的网页。让我们从搜索引擎的角度上考虑一下搜索请求:“Kitchen cabinet in NingBo (在宁波的橱柜)”。一个搜索引擎知道跨整个网站每个搜索项出现的频率。搜索项“in”出现在大多数的英文网页中,因此它不是“好的标志符”——它不会帮助搜索引擎对搜索请求选择最好的网页,因为包含“in”的网页和没有这个词的网页都可能是对搜索请求匹配的网页。而关键词“Kitchen cabinet”出现就少很多,比起“NingBo ”来说还不够少。对每个搜索项,搜索引擎计算其反转文本频率(inverse document frequency,IDF)——一个对数公式对稀有的词产生高的值,而对普通词则产生低的值。搜索引擎对于将这三个词分别对每个页面进行公式运算,在搜索结果中被称为“TF*IDF”——标准化的搜索项频率(Term Frequency,我们所说的关键词密度)乘以反转文本频率。这个复杂的运算告诉搜索引擎针对搜索请求中最稀少的搜索项在哪个网页有最高的密度。
2、搜索项接近程度。最好的网页包含搜索请求中所有的搜索项,而且这些搜索项彼此紧密相接,次序都和搜索请求中的是一样的。因此含有“Kitchen cabinet in NingBo ”的网页可能是最好的。但是搜索引擎应用了更多的评断手段。因为搜索项“in”太常见了,包含搜索项“Kitchen cabinet NingBo ”的网页可能和有“Kitchen cabinet in NingBo ”的网页一样的好。其他没有包含常见词的搜索请求可能强调词的顺序。在所有的情况下,让所有关键词彼此接近是意见好事——当然比一个有很多分隔的“Kitchen cabinet ”和“NingBo ”的网页要好。
请记住,搜索专家是用他们整个职业时间来设计和改进这些公式的,因此不会简单的解释能让我们完全理解,——并且我们也不需要完全理解。我们真正要了解的是搜索引擎在寻找什么的基本原理,我们这样做了就可以。