用robots.txt探索Google Baidu隱藏的秘密[圖]-IT浪潮-北方網
新聞 | 天津 | 民生 | 廣電 | 津抖雲 | 微視 | 讀圖 | 文娛 | 體育 | 圖事 | 理論 | 志願 | 專題 | 工作室 | 不良信息舉報
教育 | 健康 | 財經 | 地產 | 天津通 | 旅游 | 時尚 | 購物 | 汽車 | IT | 親子 | 會計 | 訪談 | 場景秀 | 發布系統

"津雲"客戶端
  您當前的位置 : 北方網  >  IT浪潮  >  北方學院  >  軟件文庫  >  網絡相關
關鍵詞:

用robots.txt探索Google Baidu隱藏的秘密[圖]


http://www.enorth.com.cn  2006-10-10 13:47
  搜索引擎通過一種程序robot(又稱spider),自動訪問互聯網上的網頁並獲取網頁信息。但是,如果網站的某些信息不想被別人搜索到,可以創建一個純文本文件robots.txt,放在網站根目錄下。這樣,搜索機器人會根據這個文件的內容,來確定哪些是允許搜尋的,哪些是不想被看到的。

  有趣的是,這種特性往往用來作為參考資料,猜測網站又有什麼新動向上馬,而不想讓別人知道。例如通過分析Google的robots.txt變化來預測Google將要推出何種服務。

  有興趣的讀者可以看一下Google的robots.txt文件,注意到前幾行就有『Disallow: /search』,而結尾新加上了『Disallow: /base/s2』。

  現在來做個測試,按照規則它所隱藏的地址是http://www.Google.com/base/s2,打開之後發現Google給出了一個錯誤提示:『服務器遇到一個暫時性問題不能響應您的請求,請30秒後再試。』

圖1

  但是把s2最後的數字換成1、3或者別的什麼數字的時候,錯誤提示又是另一個樣子:『我們不知道您為什麼要訪問一個不存在的頁面。』

圖2

  很顯然『/base/s2』是一個特殊的頁面,鑒於Google曾表示過今年的主要焦點是搜索引擎,我們推測一下,所謂的『s2』是否表示『search2』,也就是傳說中的第二代搜索引擎?

  出於好奇,嘗試了一下百度的robots.txt,比密密麻麻的Google簡潔了許多,只有短短幾行:

  User-agent: Baiduspider
  Disallow: /baidu

  User-agent: *
  Disallow: /shifen/dqzd.html

  第一段就不用說了,第二段也遇到了同樣打不開的錯誤,不過,按以前的資料來看,這是百度曾經的競價排名的區域核心代理一覽表以及地區總代理一覽表,出於某些可以理解的原因做了模糊處理。

圖3

  有興趣的朋友可以繼續嘗試探索其他網站的robots.txt,發現好玩的東西不要忘記發到我們論壇與大家分享。

編輯:趙國棟
[進入IT論壇]
請您文明上網、理性發言並遵守相關規定,在注冊後發表評論。
 北方網精彩內容推薦
無標題文檔
天津民生資訊
天氣交通 天津福彩 每月影訊 二手市場
空氣質量 天津股票 廣播節目 二手房源
失物招領 股市大擂臺 天視節目 每日房價
熱點專題
北京奧運聖火傳遞和諧之旅 迎奧運 講文明 樹新風
解放思想 乾事創業 科學發展 同在一方熱土 共建美好家園
2008天津夏季達沃斯論壇 《今日股市觀察》視頻
北方網網絡相聲頻道在線收聽 2008高考招生簡章 復習衝刺
天津自然博物館館藏精品展示 2008年天津中考問題解答
帶你了解08春夏服飾流行趨勢 完美塑身 舞動肚皮舞(視頻)
C-NCAP碰撞試驗—雪佛蘭景程 特殊時期善待自己 孕期檢查
熱點新聞排行 財經 體育 娛樂 汽車 IT 時尚 健康 教育

Copyright (C) 2000-2021 Enorth.com.cn, Tianjin ENORTH NETNEWS Co.,LTD.All rights reserved
本網站由天津北方網版權所有