應對蜘蛛頁面抓取異常_北京網站建設-企業網站建設-建站公司-做網站-北京良言多米網絡公司

搜索引擎在抓取網頁的時候，可能會遇到各種情況，有的頁面抓取成功，有的抓取失敗。怎么顯示一個頁面的實際抓取結果呢？主要是通過返回碼進行示意，代表抓取成功與否和遇到的問題。比如我們常見的，有時候打開一個頁面，頁面一片空白，上面只顯示404。這里的404就是一種返回碼，代表當前抓取的頁面已經失效，遇到顯示404的頁面，如果短期內搜索，蜘蛛再發現這個URL，也不會對其進行抓取。
有時候，會返回503，503 返回碼代表網站臨時無法訪問，可能是網站服務器關閉或者其他臨時措施造成的網頁無法訪問，一般來說，蜘蛛還會繼續抓取幾次。如果網站恢復正常，URL仍然被當作正常URL處理，如果服務器一直處于不可訪問狀態，那么搜索引擎就會將這些URL徹底從庫中刪除，這就要求我們必須維護網站的穩定性，盡量避免臨時關閉的情況發生。返回碼403是禁止訪問狀態，一般來說，如同503一樣，如被多次訪問仍處于禁止訪問狀態，就會被搜索引擎從庫里面刪除。

在返回碼中，有一類需要格外注意，就是301。301代表永久性移除，當前URL被永久性重定向到另外的URL。一般來說，因為改版等原因，部分URL需要永久被替換為新的URL，就必須使用返回碼301進行處理，這樣能把權重等一并帶過去，避免網站的流量損失。

返回碼301的優化寫法如下。

(1)創建一個htaccess.txt文件。

(2)在htaccess.txt里寫好返回碼301的跳轉信息。

假設舊的URL為abc.com，需要重定向到www.abc.com，需在文件里寫如下信息。

RewriteEngine on

RewriteCond %{http_ host} ^abc.com [NC]

RewriteRule ^(.*)$ http://www.abc.com/$1 [L, R=301]

(3)將htaccess.txt上傳到FTP，然后將htaccess.txt修改為.htaccess。

需要提醒的是目前htaccess只適用于Linux系統，并需要虛擬主機支持，因此，在考慮.htaccess文件處理返回碼301的時候，需要查看虛擬主機是否完全支持。

實際上，在重定向的處理上存在多種方式，簡單來說，重定向可以分為http30x重定向、meta refresh重定向和js重定向。另外，大的搜索引擎公司，比如谷歌和百度都確認支持Canonical標簽，可以通過制定一個權威頁面的方式，引導蜘蛛只索引一個權威頁面，從實際效果上來說，也是一種間接的重定向。在實際抓取過程中，蜘蛛會對各種重定向效果進行識別。

重定向的方法有多種，但是從SEO角度來說，如果是永久跳轉的頁面，盡量采用返回碼301的跳轉方式。另外，從時間結果來看，百度對Canonical的支持并不如谷歌好，采用Canonical 未必能得到如期效果。有些網站通過不同的路徑進入同一頁面，可能會出現多個URL的情況，當面對這種情況時，可能需要一些處理技巧。

外鏈等因素對搜索的排名是有影響的，那么在抓取環節是否也有影響呢？百度在它的抓取政策上有優先級的說明，即執行包括“深度優先遍歷策略、寬度優先遍歷策略、PR 優先策略、反鏈策略、社會化分享指導策略等”。同時，這也說明每個策略各有優劣，在實際情況中往往是多種策略結合使用才能達到優的抓取效果。從這段官方說明里面可以看到PR優先策略、反鏈策略、社會化分享等字眼，我們可以認為，百度在實際抓取的時候，其實都考慮了這些因素，只是權重可能有所不同，因此，盡量提高網頁PR,增加更高質量的外鏈，進行高質量的社會化分享，對網站的SEO工作是有積極意義的。

另外，針對互聯網存在的大量“奮版”“采集”的網頁情況，在抓取的過程中，蜘蛛會通過技術判斷頁面是否已經被抓取過，并對URL不同但是實際內容相同的頁面的URL進行歸一化處理，即視作-一個URL。也就是告訴SEO人員，不要通過大量創建頁面的方式來獲得更多的搜索資源，如果頁面很多，但是每個頁面的內容重復性很高，或者僅是URL中包含無效參數來實現多個頁面，搜索引擎仍然把這些URL當作-一個URL處理，即網站頁面不是越多越好，通過功利的方式拼湊網頁，大量部署長尾，但是頁面質量堪憂，效果會適得其反。如果大量此類頁面被搜索引擎判斷為低質量頁面，可能會影響到整站的SEO效果。

蜘蛛在抓取的過程實際是依據鏈接不斷往下探索的過程，如果鏈接之間出現短路，蜘蛛就無法往前爬了。在真實的網站運營中，我們可以看到很多網頁實際潛藏在網站后端，蜘蛛是無法抓取到的，比如沒有預留入口鏈接，或者入口鏈接已經失效等，這些無法抓取到的內容和信息，對于蜘蛛來說就是一個個的孤島，對SEO人員來說就是沒有完全發揮內容的引流作用。同時，因為網絡環境或者網站規范等原因也可能導致蜘蛛無法爬行。如何解決信息無法被抓取到的問題?幾個可行的辦法如下。

●采用搜索引擎平臺提供的開發平臺等數據上傳通道，可以針對數據進行獨立的提交。

●采用Sitemap提交方式。大型網站或者結構比較特殊的網站，沉淀了大量的歷史頁面，這些歷史頁面很多具有SEO的價值，但是蜘蛛無法通過正常的爬行抓取到，針對這些頁面，建立Sitemap文件并提交給百度等搜索引擎是非常必要的。

蜘蛛在爬行網站的時候，會遵循網站的協議進行抓取，比如哪些網頁可以給搜索引擎抓取，哪些不允許搜索引擎抓取。常見的協議有HTTP協議、HTTPS協議、Robots 協議等。

HTTP協議規范了客戶端和服務器端請求和應答的標準。客戶端般是指終端用戶，服務器端指網站。終端用戶通過瀏覽器、蜘蛛等向服務器指定端口發送HT請求。發送HTTP請求會返回對應的HTTP Heder信息，我們可以看到包括是否成功、服務器類型、網頁近更新時間等內容。

HTTPS協議是-種加密協議，一般用戶安全數據的傳輸。 HTTPS是在HTTP下增加了SSL層，這類頁面應用比較多的是和支付相關或者內部保密信息相關的網頁。蜘蛛不會自動爬行該類網頁。因此，從SEO角度考慮，在建站的時候，盡量對頁面的性質進行區分，對非保密頁面進行HTTP處理，才能實現網頁的抓取和收錄

良言多米網絡憑借多年的網站優化經驗，堅持以“幫助中小企業實現網絡營銷化”為宗旨，累計為數百家客戶提供品質建站服務，得到了客戶的一致好評。如果您有北京網站建設、網站推廣、SEO外包、軟文營銷、百度推廣等方面的需求...
請立即點擊咨詢我們或撥打咨詢熱線：13383168502，我們會詳細為你一一解答你心中的疑難。項目經理在線

我們已經準備好了,你呢？

應對蜘蛛頁面抓取異常

我們已經準備好了,你呢？