亚洲中文字幕视频国产|99RE久久精品国产|国产精品丝袜拍在线观看|国产成人精品午夜视频'|日韩欧美中文字幕在线一区|一区二区三区在线免费电影|国内精品久久久人妻中文字幕|精品人妻系列无码人妻免费视频

English | 簡體中文 | 繁體中文

Robots.txt文件生成工具

限制目錄 (每個目錄必須以/開頭)
Sitemap 文件 (留空為無)
檢索間隔 (單位秒)留空為不限
所有搜索引擎
國內搜索引擎
百度爬蟲
搜狗爬蟲
有道爬蟲
SOSO爬蟲
頭條爬蟲
神馬爬蟲
國外搜索引擎
Google爬蟲
Bing爬蟲
雅虎爬蟲
Ask/Teoma爬蟲
Alexa爬蟲
MSN爬蟲
Scrub The Web爬蟲
DMOZ爬蟲
GigaBlast爬蟲
MJ12 爬蟲
Maui 爬蟲
BLEX 爬蟲
Ahrefs 爬蟲
Dot 爬蟲
Semrush 爬蟲
MegaIndex.ru 爬蟲
華為花瓣 爬蟲
Zoominfo 爬蟲
ExtLinks 爬蟲
俄羅斯 爬蟲
特殊搜索引擎
Google Image爬蟲
Google Mobile爬蟲
Yahoo MM爬蟲
Yahoo Blogs爬蟲
MSN PicSearch爬蟲
Robots.txt文件生成工具

在線robots.txt文件生成工具,可以幫助站長快速生成標準的robots.txt文件,支持一鍵導出,直接傳到網站根目錄即可。

小經驗:強烈建議每個站根目錄都放置一個robots.txt的文件,可以直接留空,但一定要放,避免因程序問題導致/robots.txt返回其他錯誤響應內容造成不可預知的結果,如搜索引擎不收錄等。

Robots協(xié)議(爬蟲協(xié)議)是國際互聯(lián)網界通行的道德規(guī)范,一般是在一個web站點的根目錄下寫的robots.txt文件,用來告知搜索引擎哪些頁面能被抓取,哪些頁面不能被抓取,可以屏蔽一些網站中比較大的文件,如:圖片,音樂,視頻等,節(jié)省服務器帶寬;可以屏蔽站點的一些死鏈接。方便搜索引擎抓取網站內容;設置網站地圖連接,方便引導蜘蛛爬取頁面。

robots.txt基本用法

User-agent

User-agent是用來匹配爬蟲的,每個爬蟲都會有一個名字,如果你有安裝awstats統(tǒng)計工具,你就能查看到爬蟲的名字,比如百度的爬蟲叫BaiDuSpider,Google的爬蟲叫Googlebot,*表示所有爬蟲。

Disallow

Disallow表示禁止爬蟲訪問的目錄。Disallow: / 表示攔截整站。

Allow

Allow表示允許爬蟲訪問的目錄。Allow: / 表示允許整站。

Sitemap

Sitemap用來指定sitemap的位置。

Crawl-delay

Crawl-delay用來告訴爬蟲兩次訪問的間隔,單位是秒。爬蟲如果爬得很勤,對動態(tài)網站來說,壓力有點大,可能會導致服務器負載增高,用戶訪問變慢。

還可以使用通配符

*:匹配任意多個字符

$:表示URL的結尾

Robots.txt舉例

不管是Disallow,Allow還是Sitemap,每行只能寫一條規(guī)則。

攔截部分文件或目錄

User-agent: *

Disallow: /cgi-bin/

Disallow: /aaa.html

允許爬蟲訪問所有的目錄,有兩種寫法

User-agent: *

Disallow:

User-agent: *

Allow: /

通配符的使用,攔截.gif文件

User-agent: *

Disallow: /*.gif$

攔截帶有?的文件

User-agent: *

Disallow: /*?

Sitemap例子

Sitemap: https://www.36jxs.com/too/sitemap.xml

分享鏈接