最近,我們在公司里談到了一個SEO優(yōu)化百度360谷歌等蜘蛛主題的新聞《Baidu Spider ,百度,谷歌,360等蜘蛛爬蟲bot》,在有資格出現(xiàn)在搜索結(jié)果之前,討論網(wǎng)頁的三個必要階段「抓(爬)取」,「轉(zhuǎn)譯」,「收錄」。沒多久就讀了國外seo大神的文章《SEO基本概念:認識檢索(Crawl)與索引(Index)》,它激發(fā)了我寫這篇文章的動力,希望能幫助我豐富SEO內(nèi)容。這個系列會把這個概念分成三篇文章,讓大家對技術(shù)方面有所了解SEO進一步了解。
為什么要理解抓取的概念?
因為「抓取」在搜索結(jié)果中出現(xiàn)網(wǎng)頁是必要的第一步,百度,谷歌,360等蜘蛛爬蟲如果你甚至不知道網(wǎng)頁的存在,更不用說對搜索結(jié)果的排名了。經(jīng)營一個網(wǎng)站,我們希望,我們希望百度,谷歌,360等蜘蛛爬蟲爬上我們想要找到的網(wǎng)頁,也希望百度,谷歌,360等蜘蛛爬蟲不要爬上我們不想看到的網(wǎng)頁。此外,隨著網(wǎng)站的發(fā)展,插件的安裝和拆卸往往會讓網(wǎng)站留下一些”技術(shù)債”。而SEO這里的工作就是讓百度,谷歌,360等蜘蛛爬蟲能夠以最有效的方式抓取網(wǎng)站。
不懂,換個方式說說看!
怎么會有不想被的網(wǎng)站百度,谷歌,360等蜘蛛爬蟲看到的網(wǎng)頁?舉個例子來聽!
一切都應(yīng)該從網(wǎng)站開始
網(wǎng)址(URLs)就像網(wǎng)頁的地址一樣http://yinyiprinting.cn/這是一個網(wǎng)站。這里要給大家一個測試,沒答對的話答應(yīng)我你就把這篇文章讀完!
下面六個網(wǎng)站,那些在搜索引擎眼中和上面的網(wǎng)站是一樣的,那些是不一樣的?
A)http://yinyiprinting.cn/p/aboutus.html
B)http://yinyiprinting.cn/p/womennengweininzuoshimo.html(開頭為http而非https)
C)http://yinyiprinting.cn/NEWS.html(大寫)
D)https://0574web.net/news.html(少了www)
E)http://yinyiprinting.cn/s.html?q=seo&__searchtoken__=68dc72c2dd0399c9b27f80f7f19c7b1b(后面有更多的跟蹤參數(shù))
F)http://yinyiprinting.cn/wangluoyingxiaoxinwen.html(后面多了.html的檔名)
自己想一想,再看答案!
三個階段的檢索過程
檢索是百度,谷歌,360等蜘蛛爬蟲收錄網(wǎng)站三步的第一大步可以分為三個階段「加入檢索隊列(CrawlQueue)」,「爬蟲拜訪(Crawler)」,「頁面處理(Processing)」,以下順序介紹。
Step1:加入檢索隊列(CrawlQueue)
檢索隊列
搜索引擎會把它找到的網(wǎng)址放入隊列(crawlqueue)中國,在隊列中的網(wǎng)址將有一個搜索引擎”爬蟲”來拜訪。搜索引擎主要依靠以下三種方法來發(fā)現(xiàn)新的網(wǎng)址:
1.連結(jié)
2.站點地圖(Sitemap)
3.站長工具
SEO意涵:網(wǎng)站要有排名,首先要檢索,要檢索,首先要讓百度,谷歌,360等蜘蛛爬蟲知道你的存在,然后排進檢索隊列。
Step2:爬蟲拜訪(Crawler)
當搜索引擎知道網(wǎng)站的存在時,它會被發(fā)送出去”爬蟲”去這個網(wǎng)站看看,然后抓住網(wǎng)上的內(nèi)容。需要注意的是,在此之前,爬蟲只知道這個地址的存在,他們沒有太多關(guān)于地址上有什么的信息。
這是一個與爬蟲(搜索引擎)和云服務(wù)器(你的網(wǎng)站)交流的過程,爬蟲首先會發(fā)出一個請求:「嘿,我有一個網(wǎng)址,能讓我看看上面有什么嗎?」,然后會遇到以下情況:
狀況A:服務(wù)器:來,給你(代碼:2代碼:XX)
狀況B:云服務(wù)器:你的網(wǎng)址是,來吧,你去另一個網(wǎng)址看看(代碼:3XX)
狀況C:服務(wù)器:不,你的網(wǎng)站有問題!(代碼:4)XX)
狀況D:云服務(wù)器:*&#@!$對不起,我現(xiàn)在不能給它。我在這里犯了一個錯誤(代碼:5)XX)
狀況E:…..(云服務(wù)器沒有聽到爬蟲的要求,沒有回應(yīng))(代碼:沒有)
SEO意涵:上述情況中最大的問題是D,它意味著網(wǎng)站所在的云服務(wù)器不穩(wěn)定,用戶或爬蟲來到這個網(wǎng)站,看到云服務(wù)器的錯誤。其他四種情況都不是絕對的好壞。A不代表一定沒有問題,B,C,E也不一定有問題,下面多做解釋。
什么是括號內(nèi)的代碼?
Step3:頁面處理(Processing)
SEO索引
這是抓取階段的最后一步,爬行動物將成功地參觀(情況A)處理云服務(wù)器取回的文件,在內(nèi)容中找到連接,然后將其放入Step在1的檢索序列中,然后如此重復(fù)。
這個”處理”這個過程又被翻譯了or渲染(rendering),這個觀念會在下一篇文章中再做解釋,但是給大家一點預(yù)告:「搜索引擎從云服務(wù)器取回文件,但它們會立即處理嗎?處理后有保證看懂嗎?」
SEO意涵:在搜索的討論范圍內(nèi),這一步最重要的是「在網(wǎng)上找到連接」。如果一個網(wǎng)址被搜索引擎認定為連接,它必須放在標簽中href屬性。使用常見貨架平臺設(shè)置的網(wǎng)站一般沒有這一點,因為在正常情況下會使用上述標準HTML語法來表示。
什么樣的連結(jié)會讓爬蟲看不見?
SEO在檢索階段可以優(yōu)化什么?
在前面介紹了搜索引擎的搜索過程之后,下一步是說SEO在這個階段,你能做什么來保持網(wǎng)站和搜索引擎「友好」關(guān)系。事實上,這個概念并不難,我們的目標是在自己的網(wǎng)站上優(yōu)化爬蟲的體驗,有以下幾個角度可以切入。
保護爬蟲可以拜訪被崇拜的網(wǎng)絡(luò)
保護爬蟲不能在沒有崇拜的情況下進行崇拜
確保能夠輕松找到被爬行的網(wǎng)頁
在爬蟲訪問期間,云服務(wù)器給出正反應(yīng)
保護爬蟲的請求可以輕松送到云服務(wù)器
如何防止搜索引擎抓取?
正如前面提到的,為了使搜索引擎能夠更有效地爬行網(wǎng)站,我們可以使用一些方法來主動防止搜索引擎參觀特定的面部。回顧這張圖片,第二步和第三步是你可以住在爬蟲的地方。
題外話,「如何防止搜索引擎抓???」是SEO基本概念經(jīng)常出現(xiàn)在面試中
沒有辦法Step1防止網(wǎng)站被添加到索序列中,因為我的網(wǎng)站的連接可能會從其他地方發(fā)現(xiàn)。
Step2:在參觀爬蟲之前給予限制
Step3:參觀爬蟲后限制
如何測量搜索引擎是否有檢索問題?
可以使用不代表可以被爬行動物訪問的網(wǎng)絡(luò)百度,谷歌,360等蜘蛛爬蟲最簡單的方法是使用爬蟲是否真的可以拜訪百度,谷歌,360等蜘蛛爬蟲站長工具(SearchConsole)上面的網(wǎng)站檢查工具,它可以告訴你百度,谷歌,360等蜘蛛爬蟲爬蟲在索引網(wǎng)中遇到的問題。
百度,谷歌,360等蜘蛛爬蟲網(wǎng)站站長工具測試
如果你在幫助客戶或其他人的網(wǎng)站而沒有犯錯,GSC也可以使用權(quán)限百度,谷歌,360等蜘蛛爬蟲其他工具,如移動設(shè)備相容性測試工具,(MobileFriendlyTestingTool)。重點是要用百度,谷歌,360等蜘蛛爬蟲通過試驗的爬蟲。
行動裝置相容性測試網(wǎng)頁檢索狀態(tài)
如果網(wǎng)站顯示無法錄入(無法錄入)但是robots.txt但是沒有問題,很可能是因為伺服有防火墻或者一些奇怪的設(shè)置百度,谷歌,360等蜘蛛爬蟲爬蟲的要求。從外部看不出伺服端問題的原因,建議直接聯(lián)系主機供應(yīng)商。
聲明本文內(nèi)容來自網(wǎng)絡(luò),若涉及侵權(quán),請聯(lián)系我們刪除! 投稿需知:請以word形式發(fā)送至郵箱[email protected]
這種情況確實存在,每天我查看統(tǒng)計都會有一些例如使用Windows2003,或者分辨率800*600,或者模仿ios或者安卓端(我的網(wǎng)站只要用手機端訪問就不是首頁了)。這種做法確實會影響網(wǎng)站關(guān)鍵詞的排名,希望以后搜索引擎會逐步識別這些惡意軟件,保護我們的勞動成果!