原標(biāo)題:robot爬蟲協(xié)議是什么(爬蟲協(xié)議是什么意思)
想要網(wǎng)站健康收錄,那一定離不開Robots協(xié)議的設(shè)置以及robots正確寫法,如何設(shè)置robots協(xié)議,首先從了解robots協(xié)議開始。
第一:認(rèn)識(shí)Robots
Robots簡(jiǎn)單來(lái)說(shuō)就是搜索引擎和我們網(wǎng)站之間的一個(gè)協(xié)議,用于定義搜索引擎抓取和禁止的協(xié)議。robots基本語(yǔ)法符號(hào):/ 、* 、$
/ 在允許和禁止的文件和文件夾前寫; * 通配符,能夠匹配所有的英文字符包括數(shù)字0; $ 表示結(jié)束符,用于屏蔽圖片時(shí)候用。
第二:Robots.txt正確寫法注意事項(xiàng)
①要頂格寫。不要前面空幾格。
爬蟲
②要在英文輸入法下寫語(yǔ)句。因?yàn)橹形南碌拿疤?hào)和英文冒號(hào)不一樣。
③開頭要大些。如:User-agent,Baiduspider④冒號(hào)后要空一格。User-agent: /Baiduspider
第三:實(shí)操Robots寫法
在寫robots協(xié)議時(shí),首先先要定義協(xié)議什么樣的蜘蛛,如:User-agent: Baiduspider 指的就是定義百度蜘蛛,除了百度蜘蛛外還包括谷歌機(jī)器人、搜狗蜘蛛等等。
其次在下一行寫上允許和禁止的語(yǔ)句,如:
如何屏蔽整站:Disallow: / 指的就是屏蔽整個(gè)網(wǎng)站(/單個(gè)符號(hào)搜索引擎認(rèn)為是根目錄);
如何屏蔽具體路徑:Disallow: /toutiao.com/forum-53-1.html 指的是屏蔽具體某一個(gè)路徑;
如何屏蔽文件和文件夾:Disallow: /uploads 指的是屏蔽uploads開頭的文件和文件夾;
意思如何屏蔽文件夾:Disallow: /uploads/ 指的是只屏蔽uploads文件夾;
如何屏蔽動(dòng)態(tài)路徑:例如:toutiao.com/speedtest.aspx?host=bbs.moonseo.cn為動(dòng)態(tài)路徑,問(wèn)號(hào)robot前toutiao.com/speedtest.aspx可以用通配符*代替,接著一個(gè)問(wèn)號(hào),然后問(wèn)號(hào)后host=toutiao.com也可以用一個(gè)通配符*代替,所以其語(yǔ)句可以這樣寫:Disallow: /*?*
如何屏蔽圖片:Disallow: /*.jpg$ 如果單純的寫Disallow: /*.jpg是屏蔽不了圖片的,所以要在圖片后面寫上結(jié)束符$,指的是屏蔽所以jpg格式的圖片;
那么相應(yīng)的Allow語(yǔ)句寫法也是如上所說(shuō)。
?
版權(quán)聲明:本文來(lái)自互聯(lián)網(wǎng)整理發(fā)布,如有侵權(quán),聯(lián)系刪除
原文鏈接:http://www.freetextsend.comhttp://www.freetextsend.com/qingganjiaoliu/15540.html