在線robots.txt文件生成工具,可以幫助站長快速生成標準的robots.txt文件,支持一鍵導出,直接傳到網站根目錄即可。
小經驗:強烈建議每個站根目錄都放置一個robots.txt的文件,可以直接留空,但一定要放,避免因程序問題導致/robots.txt返回其他錯誤響應內容造成不可預知的結果,如搜索引擎不收錄等。
Robots協(xié)議(爬蟲協(xié)議)是國際互聯(lián)網界通行的道德規(guī)范,一般是在一個web站點的根目錄下寫的robots.txt文件,用來告知搜索引擎哪些頁面能被抓取,哪些頁面不能被抓取,可以屏蔽一些網站中比較大的文件,如:圖片,音樂,視頻等,節(jié)省服務器帶寬;可以屏蔽站點的一些死鏈接。方便搜索引擎抓取網站內容;設置網站地圖連接,方便引導蜘蛛爬取頁面。
robots.txt基本用法
User-agent
User-agent是用來匹配爬蟲的,每個爬蟲都會有一個名字,如果你有安裝awstats統(tǒng)計工具,你就能查看到爬蟲的名字,比如百度的爬蟲叫BaiDuSpider,Google的爬蟲叫Googlebot,*表示所有爬蟲。
Disallow
Disallow表示禁止爬蟲訪問的目錄。Disallow: / 表示攔截整站。
Allow
Allow表示允許爬蟲訪問的目錄。Allow: / 表示允許整站。
Sitemap
Sitemap用來指定sitemap的位置。
Crawl-delay
Crawl-delay用來告訴爬蟲兩次訪問的間隔,單位是秒。爬蟲如果爬得很勤,對動態(tài)網站來說,壓力有點大,可能會導致服務器負載增高,用戶訪問變慢。
還可以使用通配符
*:匹配任意多個字符
$:表示URL的結尾
Robots.txt舉例
不管是Disallow,Allow還是Sitemap,每行只能寫一條規(guī)則。
攔截部分文件或目錄
User-agent: *
Disallow: /cgi-bin/
Disallow: /aaa.html
允許爬蟲訪問所有的目錄,有兩種寫法
User-agent: *
Disallow:
User-agent: *
Allow: /
通配符的使用,攔截.gif文件
User-agent: *
Disallow: /*.gif$
攔截帶有?的文件
User-agent: *
Disallow: /*?
Sitemap例子
Sitemap: https://www.36jxs.com/too/sitemap.xml