做seo就是為了取悅搜索引擎那么我們必須要了解搜索引擎抓取頁面的方式 搜索引擎不可能一次性抓取到網站中所有的頁面而且網站中頁面的數量也會不斷地變化內容也在不斷地更新。因此搜索引擎還需要對已經抓取的頁面進行維護、更新以便能及時獲取頁面中最新的信息及抓取更多的新頁面。常見頁面維護方式包括定期抓取、增量抓取及分類定位抓取。
●定期抓取 定期抓取也稱為周期性抓取即搜索引擎周期性地對網站中已收錄的頁面進行全面更新。更新的時候把抓取到的新頁面替換原有的舊頁面刪除不存在的頁面并存儲新發現的頁面。周期性更新針對的是全部已收錄的頁面因此更新周期會比較長。例如Google-般是3060天才會對已收錄的頁面進行更新。 定期抓取算法的實現相對簡單。由于每次更新涉及到網站中所有已經收錄的頁面因此頁面權重的再分配也是同步進行的。這種方式適用于維護頁面比較少、內容更新緩慢的網站例如普通的企業網站。但是由于更新周期十分漫長這就導致不能及時向用戶反映更新其間頁面的變化情況。例如某個頁面的內容更新以后至少需要3060天才能在搜索引擎上有所體現。
●增量抓取 增量抓取是通過對已抓取的頁面進行定時監控實現對頁面的更新及維護。但是對網站中的每個頁面都進行定時監控的做法是不現實的。基于重要頁面攜帶重要內容的思想以及80/20法則搜索引擎只需對網站中部分重要頁面進行定時的監控即可獲取網站中相對重要的信息。因此增量抓取只針對網站中某些重要的頁面而非所有已經收錄的頁面這也是為什么搜索引擎對重要頁面的更新周期會更短的原因。例如內容經常更新的頁面搜索引擎也會經常對其進行更新從而可以及時發現新內容、新鏈接并刪除不存在的信息。 由于增量抓取是在原有頁面的基礎上進行的因此會大大縮減搜索引擎的抓取時間而且還可以及時向用戶展示頁面中最新的內容。
●分類定位抓取 與增量抓取由頁面重要性決定不同分類定位抓取是指根據頁面的類別或性質而制定相應更新周期的頁面監控方式。例如對于“新聞資訊”與“資源下載”這兩類頁面新聞資訊類頁面的更新周期可以精確到每分鐘而下載類頁面更新周期就可以定為一天或更長。 分類定位抓取對不同類別的頁面進行分開處理這樣就可以節省大量的抓取時間并大大提高頁面內容的實時性也增強頁面抓取的靈活性。但是按照類別而制定頁面更新周期的方式比較籠統很難跟蹤頁面的更新情況。因為即使是相同類別的頁面在不同的網站上內容的更新周期也會存在很大的差別。例如新聞類頁面在大型門戶網站中內容的更新速度就會比其他小型網站快得多。
所以還需要結合其他的方式例如增量抓取等對頁面進行監控、更新。 實際上搜索引擎對網站中頁面的維護也是結合多種方式進行相當于間接為每一個頁面選擇最合適的維護方式。這樣既可以減少搜索引擎的負擔又可以為用戶提供及時的信息。 例如在一個網站中會存在多種不同性質的頁面常見的包括首頁、論壇頁面、內容頁面等。對于更新比較頻繁的頁面例如首頁可以使用增量抓取方式對其進行監控這樣就可以對網站中相對重要的頁面進行及時更新而對于實時性非常高的論壇頁面則可以采用分類定位的抓取方式而為了防止遺漏網站中的某些頁面還需要采用定期抓取的方式。