博天堂官方网址

RELATEED CONSULTING
相關咨詢
選擇下列產品馬上在線溝通
你可能遇到了下面的問題
關閉右側
Spider 再次抓取更新策略
  • 作者:博天堂官方网址
  • 發表時間:2019-07-05 16:45
  • 來源:博天堂官方网址網絡

       Spider把網頁抓取到本地,該網頁被分析索引并參與了排名,并不意味著Spider針對該網頁的工作已經結束了。現在互聯網網頁內容多是動態變化的,甚至有時網頁會被管理者刪除。搜索引擎所抓取到的本地頁面,可以看做是對已經抓取并索引過的網頁做了一個鏡像,也就是說理論上搜索引擎應該保證,本地“鏡像”頁面和對應互聯網上的網頁內容實時一致。但是由于搜索引擎的Spider資源有限,現階段做不到也沒有必要做到實時監測全部已索引網頁的所有變化。搜索引擎只需要為Spider設置一個再次抓取和更新頁面的策略,以保證當部分頁面呈現到用戶面前時,搜索引擎的本地索引和該網頁當時的內容并沒有太大的差異就可以了,這部分頁面應該包含大部分網民所需要檢索的內容,并且也可以滿足絕大多數搜索用戶的搜索請求。 如上所述,在有限資源的情況下,搜索引擎首先要保證部分網頁索引的更新,這部分網頁擁有大部分用戶所需要的內容;也要保證所有索引頁面都有一個更新機制,在該網頁需要相應的新的內容索引時,Spider要進行再次抓取并更新該網頁索引。站在Spider的角度,一般會根據以下四個方面來確定對已索引網頁的再次抓取  頻率:用戶體驗、歷史更新頻率、網頁類型和網頁權重。

1.用戶體驗 整個互聯網的網頁數量是巨大的,已被百度抓取并索引的中文網頁應該也是千億級別的了,但是用戶所需要的信息只有一小部分。當用戶在搜索引擎提交查詢后,不論返回結果有多少,大部分用戶都會在前三頁找到自己所需要的信息,很少有用戶會瀏覽第四頁或者更靠后的搜索結果。本著優先更新大部分用戶所需要內容的原則,所有用戶提交查詢結果的前幾頁,都是值得索引及時更新的。所以一般搜索引擎會搜集所有用戶的搜索請求,然后統計所有搜索結果中用戶可能看到的網頁,繼而進行優先再次抓取和更新。理論上,這些網頁被搜索到的次數越多,再次被抓取的頻率就會越高。 

2.歷史更新頻率 搜索引擎會嘗試發現某一個網頁中內容的更新頻率,因為Spider的再次抓取就是為了發現已經被索引網頁是否有變化,如果某個網頁持續沒有變化,可能搜索引擎就會降低對其抓取的頻率,甚至不再對其進行再次抓取。這個策略的實施是建立在搜索引擎已經發現網頁的更新頻率的基礎上的,所以理論上當Spider發現一個新URL抓取并索引后,會很快進行二次抓取。如果沒有發現內容變動,就會降低抓取頻率,這樣慢慢地發現網頁的更新頻率,以調整到最佳的抓取頻率。同時Spider注重的變化應該是網頁的主體  內容部分,一般會忽略主體內容周圍的廣告模塊、導航模塊及推薦鏈接模塊的更新變動。 

3.網頁類型 不同的網頁類型有不同的更新頻率。在同一個站點內網站首頁、目錄頁、專題頁和文章頁的更新頻率肯定是不同的。所以對于同一站點內的網頁,Spider對不同類型的網頁抓取頻率是不同的。首頁和目錄頁是Spider經常光顧的頁面;根據專題頁面的時效性或者其他特征,Spider可能會在某一時間段內進行頻繁抓取,時效性過期后就會降低對其的抓取頻率;對于文章頁,Spider很有可能第一次來過之后就不再來了。雖然整個互聯網中網頁很多,但是網頁類型并不多,每個類型的網頁都會有自己的布局和更新規律,搜索引擎有足夠的能力發現網頁的類型并設置合理的再次抓取頻率。網頁類型歸類和網頁歷史更新頻率是被綜合使用最多的,一般在同一站點內同類網頁會有相同的更新頻率,這也會方便Spider對網頁更新頻率的判斷。 

4.網頁權重 除了以上再次抓取策略外,網頁權重也是決定抓取頻率的重要因素。用戶體驗策略在一定程度上也反映了網頁權重的影響。在網頁類型相同、歷史更新頻率也差不多的情況下,肯定是權重越高的頁面被抓取的頻率越高。比如百度首頁、hao123首頁、chinaz站長工具首頁和普通企業站首頁都可以被簡單歸為網站首頁,并且  前三個首頁長期都不會有什么更新,普通企業站首頁可能偶爾還會有更新,但由于獲取外部鏈接支持的質量和數量都不同,用戶每日通過百度搜索訪問的數量更是不同,所以搜索引擎對這些頁面的抓取頻次肯定有天壤之別。 在搜索引擎Spider的實際作業中,不會單獨使用某一種再次抓取策略,而是會綜合參考網頁的用戶體驗、更新頻率、網頁類型和網頁權重。并且對于不同類型的頁面,著重參考的更新內容主體也是不同的。比如,列表頁只有一篇新的文章進入可能就算更新了;文章頁主體內容沒有變,主體內容周圍的所有推薦鏈接、廣告、內容都變了,可能也不會算是有更新。 在SEO工作中為了提高某一網站的抓取頻率,一般會重點為該頁面的導入鏈接提高權重,努力加大該頁面的更新頻率。其實在用戶體驗和網頁類型方面也是有工作可做的,用標題和描述吸引點擊不僅可以提升排名,也能夠間接增加頁面被Spider抓取的頻率;同時對于不同定位的關鍵詞可以使用不同的網頁類型(列表頁、專題頁、內容頁等),這在設計頁面內容和網站架構時就應該仔細地考慮,并且網頁類型這部分有很多工作值得做。比如,有不少網站把整站都做成了列表頁,全站沒有普通意義上的內容頁,內容頁主體內容下方或周圍也有大量和主題相關的文本內容,一般是類列表形式。不過這種手法有效時間不長,或者損害用戶體驗后會降低被抓取的頻率。不論怎樣,優秀的網站架構設計應該合理地利用Spider抓取策略的各種特性。

 以上討論的是Spider正常的抓取策略。有抓取并不代表一定  有更新,當頁面內容的變化值得搜索引擎更新索引時才會更新。比如,上面提到的文章頁主體內容不變但是推薦鏈接全變了,一般搜索引擎也不會浪費資源做無意義的更新。當Spider發現已經索引的頁面突然被刪除,也就是服務器突然返回404狀態碼時,也會在短時間內增加對該頁面的抓取頻率。但這僅僅是來確認這批網頁是否真正被刪除了,增加的這些抓取對于站點本身內容的收錄和更新并沒有什么作用。 另外,有不少門戶網站習慣對即時新聞先發布一個標題,然后再讓編輯補充內容,甚至還會修改標題。但是這種網頁一般都是文章頁,不論從用戶體驗、更新頻率、網頁類型和網站權重哪方面來看都不會得到比較高的抓取頻率,也就造成這些網站不斷在報怨百度不更新如此操作的新聞網頁。有這種更新快照需求的朋友,可以嘗試使用百度站長平臺中的“抓取診斷”來抓一下需要更新的頁面,“抓取診斷”工具調度的是大搜的Spider,有助于讓百度快速地發現網頁內容的變化。 

本文作者:合肥網絡公司fnszeye.com

相關閱讀文章推薦:個人網站備案需要哪些材料     網站購買域名注冊流程     微博快速提高收聽觀眾方法   新網站應如何正確的選擇網站域名