阻止搜尋引擎機器人搜尋

搜尋引擎機器人 (Robot),又稱網路蜘蛛 (Spider)、網路爬蟲 (Crawler)
它會遍歷所有它能觸及的網站,並進行資料庫建檔、分類等等
才能讓搜尋引擎使用者在鍵入關鍵字後快速地找到想找的網站

但總是有些時候網站的擁有者不想讓私有用途的網站曝光
所以會有正規的方法阻止 Robot 瀏覽網站
常見的兩個方法是 robots.txt 跟 meta 標簽:

1. robots.txt

首先必須在網站根目錄建立 robots.txt 純文字檔
如果你的網址是
http://www.mysite.com
robots.txt 必須是在
http://www.mysite.com/robots.txt
搜尋引擎機器人到了這個網站會首先讀到這個檔案,來知道哪些東西是不可以看的

上面的語法是一行機器人的名字、一行不允許的網址(根目錄後面)

User-agent: Googlebot
Disallow: /disable/

這樣就可以不讓 Googlebot 抓取 http://www.mysite.com/disable/ 這樣開頭的網址

要一次阻止所有機器人的話可以用

User-agent: *
Disallow: /disable/

用 * 的話對所有機器人皆有效

google 自己的 robots.txt 可以當一個很好的範例
https://www.google.com.tw/robots.txt

2. meta 標簽

這個方法目前雖然還沒有廣泛地被搜尋引擎機器人支援,不過正在慢慢地增加當中
相當容易的一個方法

只要在 html head 再加上一個跟一般一樣的 meta 標簽
<meta name="" content="" />

這邊 name 必須填上機器人的名稱,例如:Googlebot、Baiduspider…等等
或是填上 robots ,表示對所有機器人皆有用

content 的部分有兩個相關的參數 index 跟 follow 可以做調整
index:本頁的部分
follow :本頁上其他的連結

所以會有四種 content:
1.  content="index,follow"             <!– 允許抓取本頁跟上面的鏈結–>
(也可以寫成 content="all")
2.  content="index,nofollow"        <!– 允許抓取本頁但不允許抓取上面的鏈結–>
3.  content="noindex,follow"        <!– 不允許抓取本頁但允許抓取上面的鏈結–>
4.  content="noindex,nofollow"   <!– 不允許抓取本頁也不允許抓取上面的鏈結–>
(也可以寫成 content="none")

所以

<meta name="robots" content="none" />

就是不允許任何機器人抓取本頁跟上面的鏈結

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / 變更 )

Twitter picture

You are commenting using your Twitter account. Log Out / 變更 )

Facebook照片

You are commenting using your Facebook account. Log Out / 變更 )

Google+ photo

You are commenting using your Google+ account. Log Out / 變更 )

連結到 %s