SEO優(yōu)化搜索引擎原理 – baidu蜘蛛爬蟲抓取篇

海美seo 7710 閱讀 12 評論 181 點贊

最近，我們在公司里談到了一個SEO優(yōu)化百度360谷歌等蜘蛛主題的新聞《Baidu Spider ,百度,谷歌,360等蜘蛛爬蟲bot》，在有資格出現(xiàn)在搜索結(jié)果之前，討論網(wǎng)頁的三個必要階段「抓(爬)取」，「轉(zhuǎn)譯」，「收錄」。沒多久就讀了國外seo大神的文章《SEO基本概念：認識檢索(Crawl)與索引(Index)》，它激發(fā)了我寫這篇文章的動力，希望能幫助我豐富SEO內(nèi)容。這個系列會把這個概念分成三篇文章，讓大家對技術(shù)方面有所了解SEO進一步了解。

為什么要理解抓取的概念？

因為「抓取」在搜索結(jié)果中出現(xiàn)網(wǎng)頁是必要的第一步，百度,谷歌,360等蜘蛛爬蟲如果你甚至不知道網(wǎng)頁的存在，更不用說對搜索結(jié)果的排名了。經(jīng)營一個網(wǎng)站，我們希望，我們希望百度,谷歌,360等蜘蛛爬蟲爬上我們想要找到的網(wǎng)頁，也希望百度,谷歌,360等蜘蛛爬蟲不要爬上我們不想看到的網(wǎng)頁。此外，隨著網(wǎng)站的發(fā)展，插件的安裝和拆卸往往會讓網(wǎng)站留下一些”技術(shù)債”。而SEO這里的工作就是讓百度,谷歌,360等蜘蛛爬蟲能夠以最有效的方式抓取網(wǎng)站。

不懂，換個方式說說看！

怎么會有不想被的網(wǎng)站百度,谷歌,360等蜘蛛爬蟲看到的網(wǎng)頁？舉個例子來聽！

一切都應(yīng)該從網(wǎng)站開始

網(wǎng)址(URLs)就像網(wǎng)頁的地址一樣http://yinyiprinting.cn/這是一個網(wǎng)站。這里要給大家一個測試，沒答對的話答應(yīng)我你就把這篇文章讀完！

下面六個網(wǎng)站，那些在搜索引擎眼中和上面的網(wǎng)站是一樣的，那些是不一樣的？

A)http://yinyiprinting.cn/p/aboutus.html

B)http://yinyiprinting.cn/p/womennengweininzuoshimo.html(開頭為http而非https)

C)http://yinyiprinting.cn/NEWS.html(大寫)

D)https://0574web.net/news.html(少了www)

E)http://yinyiprinting.cn/s.html?q=seo&__searchtoken__=68dc72c2dd0399c9b27f80f7f19c7b1b(后面有更多的跟蹤參數(shù))

F)http://yinyiprinting.cn/wangluoyingxiaoxinwen.html(后面多了.html的檔名)

自己想一想，再看答案！

三個階段的檢索過程

檢索是百度,谷歌,360等蜘蛛爬蟲收錄網(wǎng)站三步的第一大步可以分為三個階段「加入檢索隊列(CrawlQueue)」，「爬蟲拜訪(Crawler)」，「頁面處理(Processing)」，以下順序介紹。

Step1:加入檢索隊列(CrawlQueue)

檢索隊列

搜索引擎會把它找到的網(wǎng)址放入隊列(crawlqueue)中國，在隊列中的網(wǎng)址將有一個搜索引擎”爬蟲”來拜訪。搜索引擎主要依靠以下三種方法來發(fā)現(xiàn)新的網(wǎng)址：

1.連結(jié)

2.站點地圖(Sitemap)

3.站長工具

SEO意涵:網(wǎng)站要有排名，首先要檢索，要檢索，首先要讓百度,谷歌,360等蜘蛛爬蟲知道你的存在，然后排進檢索隊列。

Step2:爬蟲拜訪(Crawler)

當搜索引擎知道網(wǎng)站的存在時，它會被發(fā)送出去”爬蟲”去這個網(wǎng)站看看，然后抓住網(wǎng)上的內(nèi)容。需要注意的是，在此之前，爬蟲只知道這個地址的存在，他們沒有太多關(guān)于地址上有什么的信息。

這是一個與爬蟲(搜索引擎)和云服務(wù)器(你的網(wǎng)站)交流的過程，爬蟲首先會發(fā)出一個請求：「嘿，我有一個網(wǎng)址，能讓我看看上面有什么嗎？」，然后會遇到以下情況：

狀況A:服務(wù)器：來，給你(代碼：2代碼：XX)

狀況B:云服務(wù)器：你的網(wǎng)址是，來吧，你去另一個網(wǎng)址看看(代碼：3XX)

狀況C:服務(wù)器：不，你的網(wǎng)站有問題！(代碼：4)XX)

狀況D:云服務(wù)器:*&#@!$對不起，我現(xiàn)在不能給它。我在這里犯了一個錯誤（代碼：5）XX)

狀況E:…..(云服務(wù)器沒有聽到爬蟲的要求，沒有回應(yīng))(代碼:沒有)

SEO意涵:上述情況中最大的問題是D，它意味著網(wǎng)站所在的云服務(wù)器不穩(wěn)定，用戶或爬蟲來到這個網(wǎng)站，看到云服務(wù)器的錯誤。其他四種情況都不是絕對的好壞。A不代表一定沒有問題，B,C,E也不一定有問題，下面多做解釋。

什么是括號內(nèi)的代碼？

Step3:頁面處理(Processing)

SEO索引

這是抓取階段的最后一步，爬行動物將成功地參觀(情況A)處理云服務(wù)器取回的文件，在內(nèi)容中找到連接，然后將其放入Step在1的檢索序列中，然后如此重復(fù)。

這個”處理”這個過程又被翻譯了or渲染(rendering)，這個觀念會在下一篇文章中再做解釋，但是給大家一點預(yù)告：「搜索引擎從云服務(wù)器取回文件，但它們會立即處理嗎？處理后有保證看懂嗎？」

SEO意涵:在搜索的討論范圍內(nèi)，這一步最重要的是「在網(wǎng)上找到連接」。如果一個網(wǎng)址被搜索引擎認定為連接，它必須放在標簽中href屬性。使用常見貨架平臺設(shè)置的網(wǎng)站一般沒有這一點，因為在正常情況下會使用上述標準HTML語法來表示。

什么樣的連結(jié)會讓爬蟲看不見？

SEO在檢索階段可以優(yōu)化什么？

在前面介紹了搜索引擎的搜索過程之后，下一步是說SEO在這個階段，你能做什么來保持網(wǎng)站和搜索引擎「友好」關(guān)系。事實上，這個概念并不難，我們的目標是在自己的網(wǎng)站上優(yōu)化爬蟲的體驗，有以下幾個角度可以切入。

保護爬蟲可以拜訪被崇拜的網(wǎng)絡(luò)

保護爬蟲不能在沒有崇拜的情況下進行崇拜

確保能夠輕松找到被爬行的網(wǎng)頁

在爬蟲訪問期間，云服務(wù)器給出正反應(yīng)

保護爬蟲的請求可以輕松送到云服務(wù)器

如何防止搜索引擎抓取？

正如前面提到的，為了使搜索引擎能夠更有效地爬行網(wǎng)站，我們可以使用一些方法來主動防止搜索引擎參觀特定的面部。回顧這張圖片，第二步和第三步是你可以住在爬蟲的地方。

題外話，「如何防止搜索引擎抓??？」是SEO基本概念經(jīng)常出現(xiàn)在面試中

沒有辦法Step1防止網(wǎng)站被添加到索序列中，因為我的網(wǎng)站的連接可能會從其他地方發(fā)現(xiàn)。

Step2:在參觀爬蟲之前給予限制

Step3:參觀爬蟲后限制

如何測量搜索引擎是否有檢索問題？

可以使用不代表可以被爬行動物訪問的網(wǎng)絡(luò)百度,谷歌,360等蜘蛛爬蟲最簡單的方法是使用爬蟲是否真的可以拜訪百度,谷歌,360等蜘蛛爬蟲站長工具(SearchConsole)上面的網(wǎng)站檢查工具，它可以告訴你百度,谷歌,360等蜘蛛爬蟲爬蟲在索引網(wǎng)中遇到的問題。

百度,谷歌,360等蜘蛛爬蟲網(wǎng)站站長工具測試

如果你在幫助客戶或其他人的網(wǎng)站而沒有犯錯，GSC也可以使用權(quán)限百度,谷歌,360等蜘蛛爬蟲其他工具，如移動設(shè)備相容性測試工具，(MobileFriendlyTestingTool)。重點是要用百度,谷歌,360等蜘蛛爬蟲通過試驗的爬蟲。

行動裝置相容性測試網(wǎng)頁檢索狀態(tài)

如果網(wǎng)站顯示無法錄入(無法錄入)但是robots.txt但是沒有問題，很可能是因為伺服有防火墻或者一些奇怪的設(shè)置百度,谷歌,360等蜘蛛爬蟲爬蟲的要求。從外部看不出伺服端問題的原因，建議直接聯(lián)系主機供應(yīng)商。

yinyiprinting.cn 寧波海美seo網(wǎng)絡(luò)優(yōu)化公司是網(wǎng)頁設(shè)計制作，網(wǎng)站優(yōu)化，企業(yè)關(guān)鍵詞排名，網(wǎng)絡(luò)營銷知識和開發(fā)愛好者的一站式目的地，提供豐富的信息、資源和工具來幫助用戶創(chuàng)建令人驚嘆的實用網(wǎng)站。該平臺致力于提供實用、相關(guān)和最新的內(nèi)容，這使其成為初學者和經(jīng)驗豐富的專業(yè)人士的寶貴資源。

點贊(181) 打賞

本文分類：seo站群蜘蛛池
本文標簽：SEO優(yōu)化 baidu蜘蛛蜘蛛爬蟲蜘蛛池優(yōu)化
瀏覽次數(shù)：7710 次瀏覽
發(fā)布日期：2022-11-18 15:05:26
本文鏈接：http://yinyiprinting.cn/seozhanqunzhizhuchi/209.html

下一篇 > SEO排名要素：百度搜索引擎的爬蟲（Baidu Spider）

聲明本文內(nèi)容來自網(wǎng)絡(luò),若涉及侵權(quán),請聯(lián)系我們刪除! 投稿需知:請以word形式發(fā)送至郵箱[email protected]

評論列表共有 12 條評論

: 軒轅白眉 1年前回復(fù)TA
這種情況確實存在，每天我查看統(tǒng)計都會有一些例如使用Windows2003，或者分辨率800*600，或者模仿ios或者安卓端（我的網(wǎng)站只要用手機端訪問就不是首頁了）。這種做法確實會影響網(wǎng)站關(guān)鍵詞的排名，希望以后搜索引擎會逐步識別這些惡意軟件，保護我們的勞動成果！

: 劉良玉 1年前回復(fù)TA
老師，講得太好了，馬上就得使用起來！

發(fā)表評論取消回復(fù)

admin

這家伙很懶，什么也沒寫！

文章

195

評論

加入時間

7年前

百度SEO優(yōu)化方法推薦

百度是中國最受歡迎的搜索引擎，因此，為百度優(yōu)化網(wǎng)站對希望吸引中國網(wǎng)絡(luò)用戶的企業(yè)來說至關(guān)重要。以下是一些百度SEO優(yōu)化方法需要考慮：

1選擇正確的關(guān)鍵詞：關(guān)鍵詞研究對于任何SEO優(yōu)化方法都至關(guān)重要。使用百度的關(guān)鍵詞規(guī)劃工具來識別目標網(wǎng)絡(luò)用戶正在搜索的關(guān)鍵詞。

2為百度優(yōu)化網(wǎng)站：確保您的網(wǎng)站針對百度算法進行了優(yōu)化。這包括優(yōu)化網(wǎng)站的標題標簽、元描述和標題標簽。

3創(chuàng)建高質(zhì)量內(nèi)容：百度重視高質(zhì)量內(nèi)容，因此確保您的網(wǎng)站具有吸引目標網(wǎng)絡(luò)用戶的有價值、信息豐富且相關(guān)的內(nèi)容。

4建立高質(zhì)量的反向鏈接：建立高質(zhì)量反向鏈接對百度SEO優(yōu)化至關(guān)重要。專注于建立相關(guān)權(quán)威網(wǎng)站的反向鏈接。

5使用社交媒體：百度比較重視社交媒體，因此確保你在微信、微博和抖音等社交媒體平臺上擁有活躍的影響力。

6使用百度站長工具：百度站長工具是一個強大的工具，可以幫助您分析網(wǎng)站的性能并確定需要改進的地方。使用它來監(jiān)控網(wǎng)站的性能并優(yōu)化內(nèi)容。

考慮一下本地搜索引擎優(yōu)化：如果你的目標是中國的某個特定地點，本地搜索引擎搜索可能非常有效。使用基于位置的關(guān)鍵字和構(gòu)建本地引用，以提高您在本地搜索結(jié)果中的可見性。

通過遵循這些百度SEO優(yōu)化方法，您可以提高網(wǎng)站的可見性，并從百度搜索結(jié)果中吸引更多流量。記住要專注于創(chuàng)建高質(zhì)量的內(nèi)容和構(gòu)建高質(zhì)量的反向鏈接，以提高網(wǎng)站在百度上的權(quán)威性和聲譽。

SEO優(yōu)化搜索引擎原理 – baidu蜘蛛爬蟲抓取篇

SEO優(yōu)化搜索引擎原理 – baidu蜘蛛爬蟲抓取篇

SEO網(wǎng)絡(luò)優(yōu)化公司教你5分鐘搞懂SEO怎么做

為什么上下文鏈接對于SEO優(yōu)化鏈接構(gòu)建方法很重要？

適合SEO優(yōu)化的一些最佳的網(wǎng)站模板

評論列表 共有 12 條評論

發(fā)表評論 取消回復(fù)

為什么上下文鏈接對于SEO優(yōu)化鏈接構(gòu)建方法很重要？

評論列表共有 12 條評論

發(fā)表評論取消回復(fù)