日韩精品亚洲精品中文字幕乱伦AV|曰韩区二区三区日韩中文字幕五码|ady99久久人人看人人摸人人|动漫一区二区黄99精品视频在线|AV片在线观看亚洲中文国产精品|伦乱在线VA欧美性爱一二区|亚洲无码mv91热色视频|激情六月综合欧美精品中文

當(dāng)前位置:首頁 > 軟件開放 > 正文內(nèi)容

網(wǎng)頁設(shè)計(jì)導(dǎo)航欄代碼(網(wǎng)頁設(shè)計(jì)導(dǎo)航欄代碼介紹)

軟件開放4個(gè)月前 (10-04)407

深度了解蜘蛛spider抓取原理-專業(yè)SEO技術(shù)教程(12)

盡管搜索引擎在不斷地升級算法,但是終究其還是程序,因此我們在布局網(wǎng)站結(jié)構(gòu)的時(shí)候,要盡可能地讓搜索引擎蜘蛛看得懂。每個(gè)搜索引擎蜘蛛都有自己的名字,在抓取網(wǎng)頁的時(shí)候,都會(huì)向網(wǎng)站表明自己的身份。搜索引擎蜘蛛在抓取網(wǎng)頁的時(shí)候會(huì)發(fā)一個(gè)請求,這個(gè)請求中有一個(gè)字段為user-agent,用于標(biāo)示此搜索引擎蜘蛛的身份。那么,今天就和大家一起來深度了解蜘蛛spider抓取原理。

例如Google搜索引擎蜘蛛的標(biāo)識為Googlebot,百度搜索引擎的標(biāo)識為baidu spider,yahoo搜索引擎蜘蛛的標(biāo)識為inktomi slurp。如果在網(wǎng)站上有訪問日志記錄,網(wǎng)站管理員就能知道,哪些搜索引擎的搜索引擎蜘蛛過來過,什么時(shí)候過來的,以及讀了多少數(shù)據(jù)等。如果網(wǎng)站管理員發(fā)現(xiàn)某個(gè)蜘蛛有問題,就通過其標(biāo)識來和其所者聯(lián)系。

搜索引擎蜘蛛進(jìn)入一個(gè)網(wǎng)站,一般會(huì)訪問一個(gè)特殊的文本文件robots.txt。這個(gè)文件一般放在網(wǎng)站服務(wù)器的根目錄下,網(wǎng)站管理員可以通過robots.txt來定義哪些目錄搜索引擎蜘蛛不能訪問,或者那些目錄對于某些特定的搜索引擎蜘蛛不能訪問。例如,有些網(wǎng)站的可執(zhí)行文件目錄和臨時(shí)文件目錄不希望被搜索引擎到,那么網(wǎng)站管理員就可以把這些目錄定義為拒絕訪問目錄。robots.txt語法也很簡單,如果對目錄沒有任何限制,可以用以下兩行來描述。

user-agent*

Disallow:

當(dāng)然,robots.txt只是一個(gè)協(xié)議,如果搜索引擎蜘蛛的設(shè)計(jì)者不遵循這個(gè)協(xié)議,網(wǎng)站管理員也無法阻止搜索引擎蜘蛛對于某些頁面的訪問。但一般的搜索引擎蜘蛛都會(huì)遵循這些協(xié)議,而且網(wǎng)站管理員還可以通過其他方式來拒絕搜索引擎蜘蛛對某些網(wǎng)頁的抓取。

搜索引擎蜘蛛在下載網(wǎng)頁的時(shí)候,會(huì)去識別網(wǎng)頁的HTML代碼,在其代碼的部分,會(huì)有meta標(biāo)識。這些標(biāo)識可以告訴搜索引擎蜘蛛本網(wǎng)頁是否需要被抓取,還可以告訴搜索引擎蜘蛛本網(wǎng)頁中的鏈接是否需要被繼續(xù)跟蹤。例如,表示本網(wǎng)頁不需要被抓取,但是網(wǎng)頁內(nèi)的鏈接需要被跟蹤。

現(xiàn)在一般的網(wǎng)站都希望搜索引擎能更全面地抓取自己的網(wǎng)站的網(wǎng)頁,因?yàn)檫@樣可能讓更多的訪問者通過搜索引擎能找到此網(wǎng)站。為了讓本網(wǎng)站的網(wǎng)頁更全面被抓取到,網(wǎng)站管理員可以建立一個(gè)網(wǎng)站地圖,即sitemap。許多搜索引擎蜘蛛會(huì)把sitemap,htm文件作為一個(gè)網(wǎng)站網(wǎng)頁爬取得入口,網(wǎng)站管理員可以把網(wǎng)站內(nèi)容內(nèi)部所有網(wǎng)頁的鏈接放在這個(gè)文件里面,那么搜索引擎蜘蛛可以很方便地把整個(gè)網(wǎng)站抓取下來,避免遺漏某些網(wǎng)頁,也會(huì)減小服務(wù)器的負(fù)擔(dān)(Google專門為網(wǎng)站管理嚴(yán)提供了XML的Sitemap)。

展開全文

搜索引擎建立網(wǎng)頁索引,處理的對象是文本文件。對于搜索引蜘蛛來說,抓取下來網(wǎng)頁包括各種格式,包括HTML、圖片、doc、PDF、多媒體、動(dòng)態(tài)網(wǎng)頁極其他格式。把這些文件抓取下來后,需要把這些文件中的文本信息提取出來。準(zhǔn)確提取這些文檔的信息,一方面對搜索引擎的搜索引擎準(zhǔn)確性有重要的作用,另一方面對于搜索引擎蜘蛛正確跟蹤其他鏈接有一定影響。

對于doc、PDF等文檔,這種由專業(yè)廠商提供的軟件生成的文檔,廠商都會(huì)提供相應(yīng)的文本提取接口。搜索引擎的搜索只需要調(diào)用這些插件的接口,就可以輕松地提取文檔中的文本信息和文件的其他相關(guān)的信息。

HTML等文檔不一樣,HTML有一套自己的語法,通過不同的命令標(biāo)識符來標(biāo)識不同的字體、顏色、位置等,提取文本信息時(shí)需要把這些標(biāo)識符都過濾掉。過濾標(biāo)識符并非難事,因?yàn)檫@些標(biāo)識符都有一定的規(guī)則,只要按照不同的標(biāo)識符取得相應(yīng)的信息即可。但在識別這些信息的時(shí)候,需要同步記錄許多版式信息。

網(wǎng)頁設(shè)計(jì)導(dǎo)航欄代碼(網(wǎng)頁設(shè)計(jì)導(dǎo)航欄代碼介紹)

除了標(biāo)題和正文以外,會(huì)有許多廣告鏈接以及公共的頻道鏈接。這些鏈接和文本正文一點(diǎn)關(guān)系也沒有,在提取網(wǎng)頁內(nèi)容的時(shí)候,也需要過濾這些無用的鏈接。例如,某個(gè)網(wǎng)站有“產(chǎn)品介紹”頻道,因?yàn)閷?dǎo)航條在網(wǎng)站內(nèi)每個(gè)網(wǎng)頁都會(huì)搜索到,無疑會(huì)帶來大量垃圾信息,過濾這些無效鏈接需要統(tǒng)計(jì)大量的網(wǎng)頁結(jié)構(gòu)規(guī)律,抽取一些共性,統(tǒng)一過濾;對于一些重要而結(jié)果特殊的網(wǎng)站,還需要個(gè)別處理。這就需要搜索引擎蜘蛛的設(shè)計(jì)有一定的擴(kuò)展性。

以上就是對深度了解蜘蛛spider抓取原理的介紹,感謝收看與關(guān)注,明天繼續(xù)更新,還望朋友們多多關(guān)注。

掃描二維碼推送至手機(jī)訪問。

版權(quán)聲明:本文由飛速云SEO網(wǎng)絡(luò)優(yōu)化推廣發(fā)布,如需轉(zhuǎn)載請注明出處。

本文鏈接:http://m.atlasseeker.com/post/121909.html

“網(wǎng)頁設(shè)計(jì)導(dǎo)航欄代碼(網(wǎng)頁設(shè)計(jì)導(dǎo)航欄代碼介紹)” 的相關(guān)文章

工控軟件開發(fā)(工控軟件開發(fā)前景怎么樣)

工控軟件開發(fā)(工控軟件開發(fā)前景怎么樣)

今天給各位分享工控軟件開發(fā)的知識,其中也會(huì)對工控軟件開發(fā)前景怎么樣進(jìn)行解釋,如果能碰巧解決你現(xiàn)在面臨的問題,別忘了關(guān)注本站,現(xiàn)在開始吧!本文目錄一覽: 1、國內(nèi)工業(yè)控制軟件的發(fā)展如何? 2、工控板軟件開發(fā)用什么語言 3、工控軟件開發(fā)有前景嗎? 4、labview工業(yè)控制軟件開發(fā)可靠性如何...

做一個(gè)app多少錢及維護(hù)(制作一個(gè)app并維護(hù)需要多少費(fèi)用)

做一個(gè)app多少錢及維護(hù)(制作一個(gè)app并維護(hù)需要多少費(fèi)用)

本篇文章給大家談?wù)勛鲆粋€(gè)app多少錢及維護(hù),以及制作一個(gè)app并維護(hù)需要多少費(fèi)用對應(yīng)的知識點(diǎn),希望對各位有所幫助,不要忘了收藏本站喔。 本文目錄一覽: 1、做一個(gè)app需要多少錢? 2、做一個(gè)聊天用的APP大概要多少錢?維護(hù)費(fèi)要多少錢? 3、做個(gè)app軟件大約多少錢? 4、做一個(gè)APP要...

2萬粉絲一天收入(1萬粉絲一天收入)

2萬粉絲一天收入(1萬粉絲一天收入)

本篇文章給大家談?wù)?萬粉絲一天收入,以及1萬粉絲一天收入對應(yīng)的知識點(diǎn),希望對各位有所幫助,不要忘了收藏本站喔。 本文目錄一覽: 1、抖音上有2千萬粉絲可以賺多少錢 2、162萬粉絲看直播2萬人,一月收入多少 3、抖音二萬多粉絲能賣多少錢 4、抖音粉絲二千萬收入多少 5、兩萬粉絲快手號...

如何在電腦上找到所有的軟件(怎么找到電腦所有軟件)

如何在電腦上找到所有的軟件(怎么找到電腦所有軟件)

今天給各位分享如何在電腦上找到所有的軟件的知識,其中也會(huì)對怎么找到電腦所有軟件進(jìn)行解釋,如果能碰巧解決你現(xiàn)在面臨的問題,別忘了關(guān)注本站,現(xiàn)在開始吧!本文目錄一覽: 1、如何查看電腦上安裝的所有軟件 2、怎么查找電腦中的軟件? 3、怎么查找電腦里面所有的軟件 如何查看電腦上安裝的所有軟件 一...

新手怎么把源碼做成軟件(新手怎么把源碼做成軟件手機(jī)操作)

新手怎么把源碼做成軟件(新手怎么把源碼做成軟件手機(jī)操作)

今天給各位分享新手怎么把源碼做成軟件的知識,其中也會(huì)對新手怎么把源碼做成軟件手機(jī)操作進(jìn)行解釋,如果能碰巧解決你現(xiàn)在面臨的問題,別忘了關(guān)注本站,現(xiàn)在開始吧!本文目錄一覽: 1、想要將一段源代碼改變成一個(gè)程序,怎樣做才能成功? 2、用C語言編寫的程序怎么把它做成可以運(yùn)用的軟件 3、如何自己編程序...

html訪問人數(shù)統(tǒng)計(jì)代碼(網(wǎng)站訪問人數(shù)統(tǒng)計(jì)代碼)

html訪問人數(shù)統(tǒng)計(jì)代碼(網(wǎng)站訪問人數(shù)統(tǒng)計(jì)代碼)

今天給各位分享html訪問人數(shù)統(tǒng)計(jì)代碼的知識,其中也會(huì)對網(wǎng)站訪問人數(shù)統(tǒng)計(jì)代碼進(jìn)行解釋,如果能碰巧解決你現(xiàn)在面臨的問題,別忘了關(guān)注本站,現(xiàn)在開始吧!本文目錄一覽: 1、不用后臺(tái)數(shù)據(jù)庫可不可以統(tǒng)計(jì)網(wǎng)站日訪問量?asp代碼怎么寫? 2、如何在靜態(tài)網(wǎng)頁中統(tǒng)計(jì)并顯示訪問數(shù)和在線人數(shù) 3、編寫一個(gè)網(wǎng)頁,...