Robots檢視原始碼討論檢視歷史
robots協議也叫robots.txt(統一小寫)是一種存放於網站根目錄下的ASCII編碼的文本文件,它通常告訴網絡搜索引擎的漫遊器(又稱網絡蜘蛛),此網站中的哪些內容是不應被搜索引擎的漫遊器獲取的,哪些是可以被漫遊器獲取的。因為一些系統中的URL是大小寫敏感的,所以robots.txt的文件名應統一為小寫。
robots.txt應放置於網站的根目錄下。如果想單獨定義搜索引擎的漫遊器訪問子目錄時的行為,那麼可以將自定的設置合併到根目錄下的robots.txt,或者使用robots元數據(Metadata,又稱元數據)。 robots協議並不是一個規範,而只是約定俗成的,所以並不能保證網站的隱私。
robots簡介
搜索引擎通過一種程序robot(又稱spider),自動訪問互聯網上的網頁並獲取網頁信息。
您可以在您的網站中創建一個純文本文件robots.txt,在這個文件中聲明該網站中不想被robot訪問的部分,這樣,該網站的部分或全部內容就可以不被搜索引擎收錄了,或者指定搜索引擎只收錄指定的內容。
robots.txt(統一小寫)是一種存放於網站根目錄下的ASCII編碼的文本文件,它通常告訴網絡搜索引擎的漫遊器(又稱網絡蜘蛛),此網站中的哪些內容是不能被搜索引擎的漫遊器獲取的,哪些是可以被(漫遊器)獲取的。 因為一些系統中的URL是大小寫敏感的,所以robots.txt的文件名應統一為小寫。robots.txt應放置於網站的根目錄下。如果想單獨定義搜索引擎的漫遊器訪問子目錄時的行為,那麼可以將自定的設置合併到根目錄下的robots.txt,或者使用robots元數據。
Robots.txt協議並不是一個規範,而只是約定俗成的,所以並不能保證網站的隱私。注意Robots.txt是用字符串比較來確定是否獲取URL,所以目錄末尾有和沒有斜槓「/」這兩種表示是不同的URL,也不能用"Disallow: *.gif"這樣的通配符。
其他的影響搜索引擎的行為的方法包括使用robots元數據:
<meta name="robots" content="noindex,nofollow" />
這個協議也不是一個規範,而只是約定俗成的,通常搜索引擎會識別這個元數據,不索引這個頁面,以及這個頁面的鏈出頁面
robots.txt文件放在哪裡?
robots.txt文件應該放在網站根目錄下。舉例來說,當robots訪問一個網站時,首先會檢查該網站中是否存在這個文件,如果機器人找到這個文件,它就會根據這個文件的內容,來確定它訪問權限的範圍。
使用誤區
誤區一:我的網站上的所有文件都需要蜘蛛抓取,那我就沒必要在添加robots.txt文件了。反正如果該文件不存在,所有的搜索蜘蛛將默認能夠訪問網站上所有沒有被口令保護的頁面。
每當用戶試圖訪問某個不存在的URL時,服務器都會在日誌中記錄404錯誤(無法找到文件)。每當搜索蜘蛛來尋找並不存在的robots.txt文件時,服務器也將在日誌中記錄一條404錯誤,所以你應該做網站中添加一個robots.txt。
誤區二:在robots.txt文件中設置所有的文件都可以被搜索蜘蛛抓取,這樣可以增加網站的收錄率。
網站中的程序腳本、樣式表等文件即使被蜘蛛收錄,也不會增加網站的收錄率,還只會浪費服務器資源。因此必須在robots.txt文件里設置不要讓搜索蜘蛛索引這些文件。
具體哪些文件需要排除, 在robots.txt使用技巧一文中有詳細介紹。
誤區三:搜索蜘蛛抓取網頁太浪費服務器資源,在robots.txt文件設置所有的搜索蜘蛛都不能抓取全部的網頁。
如果這樣的話,會導致整個網站不能被搜索引擎收錄。
使用技巧
1. 每當用戶試圖訪問某個不存在的URL時,服務器都會在日誌中記錄404錯誤(無法找到文件)。每當搜索蜘蛛來尋找並不存在的robots.txt文件時,服務器也將在日誌中記錄一條404錯誤,所以你應該在網站中添加一個robots.txt。
2. 網站管理員必須使蜘蛛程序遠離某些服務器上的目錄——保證服務器性能。比如:大多數網站服務器都有程序儲存在「cgi-bin」目錄下,因此在robots.txt文件中加入「Disallow: /cgi-bin」是個好主意,這樣能夠避免將所有程序文件被蜘蛛索引,可以節省服務器資源。一般網站中不需要蜘蛛抓取的文件有:後台管理文件、程序腳本、附件、數據庫文件、編碼文件、樣式表文件、模板文件、導航圖片和背景圖片等等。
3. 如果你的網站是動態網頁,並且你為這些動態網頁創建了靜態副本,以供搜索蜘蛛更容易抓取。那麼你需要在robots.txt文件里設置避免動態網頁被蜘蛛索引,以保證這些網頁不會被視為含重複內容。
4. robots.txt文件里還可以直接包括在sitemap文件的鏈接。就像這樣:
Sitemap: http://www.***.com/sitemap.xml
目前對此表示支持的搜索引擎公司有Google, Yahoo, Ask and MSN。而中文搜索引擎公司,顯然不在這個圈子內。這樣做的好處就是,站長不用到每個搜索引擎的站長工具或者相似的站長部分,去提交自己的sitemap文件,搜索引擎的蜘蛛自己就會抓取robots.txt文件,讀取其中的sitemap路徑,接着抓取其中相鏈接的網頁。
5. 合理使用robots.txt文件還能避免訪問時出錯。比如,不能讓搜索者直接進入購物車頁面。因為沒有理由使購物車被收錄,所以你可以在robots.txt文件里設置來阻止搜索者直接進入購物車頁面。
robots.txt語法實例
用幾個最常見的情況,直接舉例說明:
1. 允許所有SE收錄本站:robots.txt為空就可以,什麼都不要寫。
2. 禁止所有SE收錄網站的某些目錄:
User-agent: *
Disallow: /目錄名1/
Disallow: /目錄名2/
Disallow: /目錄名3/
3. 禁止某個SE收錄本站,例如禁止百度:
User-agent: Baiduspider
Disallow: /
4. 禁止所有SE收錄本站:
User-agent: *
Disallow: /
robot.txt在SEO中的作用
在進行網站優化的時候,經常會使用robots文件把一些內容不想讓蜘蛛抓取,以前寫過一篇網站優化robots.txt文件的運用 現在寫這篇文章在補充一點點知識!什麼是robots.txt文件
搜索引擎通過一種爬蟲spider程序(又稱搜索蜘蛛、robot、搜索機器人等),自動搜集互聯網上的網頁並獲取相關信息。
鑑於網絡安全與隱私的考慮,搜索引擎遵循robots.txt協議。通過根目錄中創建的純文本文件robots.txt,網站可以聲明不想被robots訪問的部分。每個網站都可以自主控制網站是否願意被搜索引擎收錄,或者指定搜索引擎只收錄指定的內容。當一個搜索引擎的爬蟲訪問一個站點時,它會首先檢查該站點根目錄下是否存在robots.txt,如果該文件不存在,那麼爬蟲就沿着鏈接抓取,如果存在,爬蟲就會按照該文件中的內容來確定訪問的範圍。
robots.txt必須放置在一個站點的根目錄下,而且文件名必須全部小寫。robots.txt文件的格式
User-agent: 定義搜索引擎的類型
Disallow: 定義禁止搜索引擎收錄的地址
Allow: 定義允許搜索引擎收錄的地址 [1]
視頻
什麼是robots協議?
2016網站優化seo0基礎入門教程—robots協議(下)