【白皮書解讀搜索引擎的工作原理】如何排序
導(dǎo)讀:搜索引擎是如何對(duì)網(wǎng)站進(jìn)行排序的呢?今天解讀的是索引。
本文解讀的是:《百度官方課程檢索排序》
1、檢索排序原理
2、影響搜索結(jié)果排序的幾個(gè)因素
一、檢索排序原理
搜索引擎工作過(guò)程包括:抓取——存儲(chǔ)——頁(yè)面分析——索引——檢索。我們時(shí)常聽到這樣一個(gè)觀點(diǎn),先有收錄,后有索引,或者先有索引,后有收錄,根據(jù)我的研究經(jīng)過(guò)反復(fù)數(shù)據(jù)演算,先有收錄,后有索引是有一定依據(jù)的,比如一篇文章,site有索引結(jié)果,但輸入url又沒(méi)有搜索結(jié)果,那么這個(gè)是典型的有收錄沒(méi)有索引,沒(méi)有索引意味著沒(méi)有參與排名。
檢索系統(tǒng)主要分為5個(gè)部分,我們這里就拿個(gè)例子,比如“10號(hào)線地鐵故障”,那么百度分詞的結(jié)果如下:
10 0x1
號(hào) 0x2
線 0x3
地鐵 0x4
故障 0x5
那么每個(gè)term文檔合集如下:
0x1 文章1、文章2、文章3
0x2 文章1、文章3、文章4
0x3 文章2、文章4…
求交過(guò)濾后,能滿足用戶需求結(jié)果排序的就是文章1、文章2、文章4,也就是說(shuō),用戶查找10號(hào)線地鐵故障一詞,展現(xiàn)出來(lái)的就是文章1、2、4。
那么最終排序取決于網(wǎng)站評(píng)級(jí)、主體內(nèi)容質(zhì)量、相關(guān)度、時(shí)效性等。
那么我們?cè)谧鏊阉饕鎯?yōu)化的時(shí)候,就知道怎么去撰寫文章標(biāo)題和文章內(nèi)容了。也就是說(shuō),我們的內(nèi)容盡可能都包含標(biāo)題分詞后的關(guān)鍵詞。
二、影響搜索結(jié)果排序的幾個(gè)因素
影響排序的幾個(gè)因素:
1、相關(guān)性(主關(guān)鍵詞數(shù)量以及相關(guān)詞和外鏈指向錨文本)
2、網(wǎng)站權(quán)威性(包括各種認(rèn)證、備案等)
3、時(shí)效性(按照標(biāo)準(zhǔn)時(shí)間新出現(xiàn)的網(wǎng)頁(yè))
4、重要性(點(diǎn)擊、停留時(shí)長(zhǎng)、跳出率等、外鏈投票)
5、豐富度(文字、圖文、視頻搭配或滿足90%用戶需求)
6、受歡迎程度(轉(zhuǎn)發(fā)、評(píng)論)
這里只提2方面,一個(gè)是相關(guān)性占據(jù)排序70%。另外一個(gè)滿足90%用戶需求,這里我舉個(gè)例子,
比如搜索“感冒了怎么辦”,那么搜索結(jié)果是感冒出現(xiàn)的癥狀、感冒出現(xiàn)每個(gè)癥狀應(yīng)該怎么做和后續(xù)注意事項(xiàng)等等,這些結(jié)果覆蓋越多,越能滿足用戶需求。
另外排序是搜索引擎引用機(jī)器學(xué)習(xí),讓程序自動(dòng)計(jì)算公式,非人工參與。
文章首發(fā)迅步,原文鏈接:https://www.91xb.cn/5281.html