百度蜘蛛,英文名:BaiduSpider。它像一只尋找獵物的蜘蛛,爬行在巨大的互聯(lián)網(wǎng)上搜索自己的目標(biāo),非常生動卻又陌生。不管你是一名seo從業(yè)人員還是愛好者,都在試圖掌握百度蜘蛛的喜好和行蹤,嘗試如何把它吸引過來、如何把它服務(wù)好、如何引導(dǎo)它的行走路線、如何把它留下來。深入了解百度蜘蛛,是做好百度搜索引擎優(yōu)化的重點。
怎么了解自己的網(wǎng)站是否有蜘蛛來抓取過?
網(wǎng)站主機的“網(wǎng)站日志->訪問日志”里有各種到訪信息,有普通用戶訪問信息、有各種搜索引擎的訪問信息、甚至電商平臺的訪問信息都可能有。我們把它下載到本地,用記事本打開搜索“ Baiduspider/2.0”,如果有百度蜘蛛爬過會搜到相關(guān)信息,比如下面這段內(nèi)容就是搜索引擎抓去了http://www.sjzshuzhi.cn/a/archive_show_6_69.html,留下的爬行痕跡[07/Aug/2024:16:37:18 +0800] "GET http://www.sjzshuzhi.cn/a/archive_show_6_69.html HTTP/1.1" 200 5757 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)" "www.sjzshuzhi.cn" "text/html" "/data/user/htdocs/a/archive_show_6_69.html" 0.000 - 116.179.37.213
繼續(xù)解讀上面百度蜘蛛留下的信息:(1)爬行時間[07/Aug/2024:16:37:18 +0800],即2024-8-7 16:37:18;(2)爬行頁面http://www.sjzshuzhi.cn/a/archive_show_6_69.html;(3)百度蜘蛛標(biāo)志Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html);(4)百度蜘蛛IP:116.179.37.213,屬地:中國山西陽泉 聯(lián)通。116.179.37.*?百度蜘蛛主要用于訪問和收集互聯(lián)網(wǎng)上的網(wǎng)頁、圖片、視頻等內(nèi)容,然后分門別類建立?索引數(shù)據(jù)庫,使用戶能在百度搜索引擎中搜索到您網(wǎng)站的網(wǎng)頁、圖片、視頻等內(nèi)容。
目前對百度蜘蛛的各IP號段說法不一,貼出來僅作參考。
1)抓取你網(wǎng)站的網(wǎng)頁蜘蛛
60.172.229.61、61.129.45.72、61.135.162.*
2)百度競價蜘蛛
61.135.165.134、117.34.74.66、118.122.188.194、119.63.196.9、125.39.78.185
3)百度統(tǒng)計的蜘蛛
61.135.186.*
4)站長工具的模仿的百度蜘蛛
61.147.98.146、61.188.39.16、113.98.254.245、117.21.220.245、117.28.255.42
5)搜外站長工具的模仿的百度蜘蛛
124.248.34.52
6)114站長工具箱模仿的百度蜘蛛
119.147.114.213、121.10.141.*
7)百度圖片蜘蛛
123.15.**.**
8)抓取網(wǎng)站內(nèi)頁收錄的權(quán)重較低的非原創(chuàng),需要通過一段時間考察
123.125.71.*
9)站長工具檢測造成的無用
125.90.88.*
10)百度考察期蜘蛛或降權(quán)蜘蛛
159.226.50.*、180.76.5.*、180.76.5.87、220.181.158.107
11)偽裝百度蜘蛛
180.149.130.*
12)新站及站點有不正常現(xiàn)象
183.91.40.144、203.208.60.*
13)不間斷巡邏各站就是路過
210.72.225.*
14)沙盒或者有被K站
123.125.68.*、218.30.118.102、220.181.68.*
15)此ip爬過的文章或首頁,絕對24小時內(nèi)放出來和隔夜快照
220.181.108.*
16)百度蜘蛛IP來過,準(zhǔn)備抓取
123.125.66.*、220.181.7.*
17)度過新站考察期
121.14.89.*
18)百度抓取首頁的專用IP,網(wǎng)站首頁快照更新快,隔夜更新
220.181.108.95
19)百度的權(quán)重IP段,抓取的文章第二天放出來,權(quán)重較高
220.181.108.92
20)綜合性權(quán)重IP,抓取文章和首頁,權(quán)重較高
220.181.108.91、220.181.108.75
21)抓取內(nèi)頁收錄的,但權(quán)重較低
123.125.71.95、123.125.71.97、123.181.108.77、123.125.71.106
22)抓取網(wǎng)站首頁的,也屬于權(quán)重段,權(quán)重較高。
220.181.108.89、220.181.108.94、220.181.108.97、220.181.108.80、220.181.108.77、220.181.108.83、220.181.108.86
在了解百度蜘蛛的各種IP分段后,我們就可以使用正則表達式將普通訪客和百度蜘蛛訪問記錄區(qū)分開,甚至弄清楚具體哪個蜘蛛來訪是干什么的。這對于網(wǎng)站管理員了解網(wǎng)站流量和指導(dǎo)seo優(yōu)化非常具有參考價值,解開長久以來的疑惑“這些訪客是什么情況?”、“有沒有百度蜘蛛來爬行我的網(wǎng)站?”、“這個頁面有蜘蛛爬行但是未收錄”……,我們還可以通過站長工具了解某個IP是否是真實的百度蜘蛛
百度蜘蛛喜歡什么?
搜索引擎喜歡的百度蜘蛛也不例外。(1)超級鏈接,不管是內(nèi)鏈還是外鏈都能一定程度增加內(nèi)容的權(quán)重,超級連接所在頁面的權(quán)重以及外鏈個數(shù)增多都能增加內(nèi)容的權(quán)重。(2)內(nèi)容原創(chuàng)度,一篇好的文章需要較高的原創(chuàng)度、字數(shù)達到1000字以上,TDK相關(guān)性強等條件。(3)網(wǎng)站上線時間長,百度蜘蛛偏好上線時間長的網(wǎng)站,同等條件下這類網(wǎng)站的權(quán)重更高更容易被收錄。(4)內(nèi)容更新頻繁,有規(guī)律高頻更新網(wǎng)站更容易吸引百度蜘蛛。
聲明:本文內(nèi)容可能屬于摘抄或轉(zhuǎn)載。若發(fā)現(xiàn)本站文章存在版權(quán)問題,如發(fā)現(xiàn)文章、圖片等侵權(quán)行為,請聯(lián)系我們刪除。