最近,我們?cè)诠纠镎劦搅艘粋€(gè)SEO優(yōu)化百度360谷歌等蜘蛛主題的新聞《Baidu Spider ,百度,谷歌,360等蜘蛛爬蟲(chóng)bot》,在有資格出現(xiàn)在搜索結(jié)果之前,討論網(wǎng)頁(yè)的三個(gè)必要階段「抓(爬)取」,「轉(zhuǎn)譯」,「收錄」。沒(méi)多久就讀了國(guó)外seo大神的文章《SEO基本概念:認(rèn)識(shí)檢索(Crawl)與索引(Index)》,它激發(fā)了我寫(xiě)這篇文章的動(dòng)力,希望能幫助我豐富SEO內(nèi)容。這個(gè)系列會(huì)把這個(gè)概念分成三篇文章,讓大家對(duì)技術(shù)方面有所了解SEO進(jìn)一步了解。
為什么要理解抓取的概念?
因?yàn)椤缸ト 乖谒阉鹘Y(jié)果中出現(xiàn)網(wǎng)頁(yè)是必要的第一步,百度,谷歌,360等蜘蛛爬蟲(chóng)如果你甚至不知道網(wǎng)頁(yè)的存在,更不用說(shuō)對(duì)搜索結(jié)果的排名了。經(jīng)營(yíng)一個(gè)網(wǎng)站,我們希望,我們希望百度,谷歌,360等蜘蛛爬蟲(chóng)爬上我們想要找到的網(wǎng)頁(yè),也希望百度,谷歌,360等蜘蛛爬蟲(chóng)不要爬上我們不想看到的網(wǎng)頁(yè)。此外,隨著網(wǎng)站的發(fā)展,插件的安裝和拆卸往往會(huì)讓網(wǎng)站留下一些”技術(shù)債”。而SEO這里的工作就是讓百度,谷歌,360等蜘蛛爬蟲(chóng)能夠以最有效的方式抓取網(wǎng)站。
不懂,換個(gè)方式說(shuō)說(shuō)看!
怎么會(huì)有不想被的網(wǎng)站百度,谷歌,360等蜘蛛爬蟲(chóng)看到的網(wǎng)頁(yè)?舉個(gè)例子來(lái)聽(tīng)!
一切都應(yīng)該從網(wǎng)站開(kāi)始
網(wǎng)址(URLs)就像網(wǎng)頁(yè)的地址一樣http://yinyiprinting.cn/這是一個(gè)網(wǎng)站。這里要給大家一個(gè)測(cè)試,沒(méi)答對(duì)的話答應(yīng)我你就把這篇文章讀完!
下面六個(gè)網(wǎng)站,那些在搜索引擎眼中和上面的網(wǎng)站是一樣的,那些是不一樣的?
A)http://yinyiprinting.cn/p/aboutus.html
B)http://yinyiprinting.cn/p/womennengweininzuoshimo.html(開(kāi)頭為http而非https)
C)http://yinyiprinting.cn/NEWS.html(大寫(xiě))
D)https://0574web.net/news.html(少了www)
E)http://yinyiprinting.cn/s.html?q=seo&__searchtoken__=68dc72c2dd0399c9b27f80f7f19c7b1b(后面有更多的跟蹤參數(shù))
F)http://yinyiprinting.cn/wangluoyingxiaoxinwen.html(后面多了.html的檔名)
自己想一想,再看答案!
三個(gè)階段的檢索過(guò)程
檢索是百度,谷歌,360等蜘蛛爬蟲(chóng)收錄網(wǎng)站三步的第一大步可以分為三個(gè)階段「加入檢索隊(duì)列(CrawlQueue)」,「爬蟲(chóng)拜訪(Crawler)」,「頁(yè)面處理(Processing)」,以下順序介紹。
Step1:加入檢索隊(duì)列(CrawlQueue)
檢索隊(duì)列
搜索引擎會(huì)把它找到的網(wǎng)址放入隊(duì)列(crawlqueue)中國(guó),在隊(duì)列中的網(wǎng)址將有一個(gè)搜索引擎”爬蟲(chóng)”來(lái)拜訪。搜索引擎主要依靠以下三種方法來(lái)發(fā)現(xiàn)新的網(wǎng)址:
1.連結(jié)
2.站點(diǎn)地圖(Sitemap)
3.站長(zhǎng)工具
SEO意涵:網(wǎng)站要有排名,首先要檢索,要檢索,首先要讓百度,谷歌,360等蜘蛛爬蟲(chóng)知道你的存在,然后排進(jìn)檢索隊(duì)列。
Step2:爬蟲(chóng)拜訪(Crawler)
當(dāng)搜索引擎知道網(wǎng)站的存在時(shí),它會(huì)被發(fā)送出去”爬蟲(chóng)”去這個(gè)網(wǎng)站看看,然后抓住網(wǎng)上的內(nèi)容。需要注意的是,在此之前,爬蟲(chóng)只知道這個(gè)地址的存在,他們沒(méi)有太多關(guān)于地址上有什么的信息。
這是一個(gè)與爬蟲(chóng)(搜索引擎)和云服務(wù)器(你的網(wǎng)站)交流的過(guò)程,爬蟲(chóng)首先會(huì)發(fā)出一個(gè)請(qǐng)求:「嘿,我有一個(gè)網(wǎng)址,能讓我看看上面有什么嗎?」,然后會(huì)遇到以下情況:
狀況A:服務(wù)器:來(lái),給你(代碼:2代碼:XX)
狀況B:云服務(wù)器:你的網(wǎng)址是,來(lái)吧,你去另一個(gè)網(wǎng)址看看(代碼:3XX)
狀況C:服務(wù)器:不,你的網(wǎng)站有問(wèn)題!(代碼:4)XX)
狀況D:云服務(wù)器:*&#@!$對(duì)不起,我現(xiàn)在不能給它。我在這里犯了一個(gè)錯(cuò)誤(代碼:5)XX)
狀況E:…..(云服務(wù)器沒(méi)有聽(tīng)到爬蟲(chóng)的要求,沒(méi)有回應(yīng))(代碼:沒(méi)有)
SEO意涵:上述情況中最大的問(wèn)題是D,它意味著網(wǎng)站所在的云服務(wù)器不穩(wěn)定,用戶或爬蟲(chóng)來(lái)到這個(gè)網(wǎng)站,看到云服務(wù)器的錯(cuò)誤。其他四種情況都不是絕對(duì)的好壞。A不代表一定沒(méi)有問(wèn)題,B,C,E也不一定有問(wèn)題,下面多做解釋。
什么是括號(hào)內(nèi)的代碼?
Step3:頁(yè)面處理(Processing)
SEO索引
這是抓取階段的最后一步,爬行動(dòng)物將成功地參觀(情況A)處理云服務(wù)器取回的文件,在內(nèi)容中找到連接,然后將其放入Step在1的檢索序列中,然后如此重復(fù)。
這個(gè)”處理”這個(gè)過(guò)程又被翻譯了or渲染(rendering),這個(gè)觀念會(huì)在下一篇文章中再做解釋,但是給大家一點(diǎn)預(yù)告:「搜索引擎從云服務(wù)器取回文件,但它們會(huì)立即處理嗎?處理后有保證看懂嗎?」
SEO意涵:在搜索的討論范圍內(nèi),這一步最重要的是「在網(wǎng)上找到連接」。如果一個(gè)網(wǎng)址被搜索引擎認(rèn)定為連接,它必須放在標(biāo)簽中href屬性。使用常見(jiàn)貨架平臺(tái)設(shè)置的網(wǎng)站一般沒(méi)有這一點(diǎn),因?yàn)樵谡G闆r下會(huì)使用上述標(biāo)準(zhǔn)HTML語(yǔ)法來(lái)表示。
什么樣的連結(jié)會(huì)讓爬蟲(chóng)看不見(jiàn)?
SEO在檢索階段可以優(yōu)化什么?
在前面介紹了搜索引擎的搜索過(guò)程之后,下一步是說(shuō)SEO在這個(gè)階段,你能做什么來(lái)保持網(wǎng)站和搜索引擎「友好」關(guān)系。事實(shí)上,這個(gè)概念并不難,我們的目標(biāo)是在自己的網(wǎng)站上優(yōu)化爬蟲(chóng)的體驗(yàn),有以下幾個(gè)角度可以切入。
保護(hù)爬蟲(chóng)可以拜訪被崇拜的網(wǎng)絡(luò)
保護(hù)爬蟲(chóng)不能在沒(méi)有崇拜的情況下進(jìn)行崇拜
確保能夠輕松找到被爬行的網(wǎng)頁(yè)
在爬蟲(chóng)訪問(wèn)期間,云服務(wù)器給出正反應(yīng)
保護(hù)爬蟲(chóng)的請(qǐng)求可以輕松送到云服務(wù)器
如何防止搜索引擎抓?。?/p>
正如前面提到的,為了使搜索引擎能夠更有效地爬行網(wǎng)站,我們可以使用一些方法來(lái)主動(dòng)防止搜索引擎參觀特定的面部?;仡欉@張圖片,第二步和第三步是你可以住在爬蟲(chóng)的地方。
題外話,「如何防止搜索引擎抓???」是SEO基本概念經(jīng)常出現(xiàn)在面試中
沒(méi)有辦法Step1防止網(wǎng)站被添加到索序列中,因?yàn)槲业木W(wǎng)站的連接可能會(huì)從其他地方發(fā)現(xiàn)。
Step2:在參觀爬蟲(chóng)之前給予限制
Step3:參觀爬蟲(chóng)后限制
如何測(cè)量搜索引擎是否有檢索問(wèn)題?
可以使用不代表可以被爬行動(dòng)物訪問(wèn)的網(wǎng)絡(luò)百度,谷歌,360等蜘蛛爬蟲(chóng)最簡(jiǎn)單的方法是使用爬蟲(chóng)是否真的可以拜訪百度,谷歌,360等蜘蛛爬蟲(chóng)站長(zhǎng)工具(SearchConsole)上面的網(wǎng)站檢查工具,它可以告訴你百度,谷歌,360等蜘蛛爬蟲(chóng)爬蟲(chóng)在索引網(wǎng)中遇到的問(wèn)題。
百度,谷歌,360等蜘蛛爬蟲(chóng)網(wǎng)站站長(zhǎng)工具測(cè)試
如果你在幫助客戶或其他人的網(wǎng)站而沒(méi)有犯錯(cuò),GSC也可以使用權(quán)限百度,谷歌,360等蜘蛛爬蟲(chóng)其他工具,如移動(dòng)設(shè)備相容性測(cè)試工具,(MobileFriendlyTestingTool)。重點(diǎn)是要用百度,谷歌,360等蜘蛛爬蟲(chóng)通過(guò)試驗(yàn)的爬蟲(chóng)。
行動(dòng)裝置相容性測(cè)試網(wǎng)頁(yè)檢索狀態(tài)
如果網(wǎng)站顯示無(wú)法錄入(無(wú)法錄入)但是robots.txt但是沒(méi)有問(wèn)題,很可能是因?yàn)樗欧蟹阑饓蛘咭恍┢婀值脑O(shè)置百度,谷歌,360等蜘蛛爬蟲(chóng)爬蟲(chóng)的要求。從外部看不出伺服端問(wèn)題的原因,建議直接聯(lián)系主機(jī)供應(yīng)商。
聲明本文內(nèi)容來(lái)自網(wǎng)絡(luò),若涉及侵權(quán),請(qǐng)聯(lián)系我們刪除! 投稿需知:請(qǐng)以word形式發(fā)送至郵箱[email protected]
內(nèi)容制作成本越高,質(zhì)量越高。我認(rèn)為這句話是比較有用的。