余計なアクセス弾き編 2006年8月版 Baiduspider & IRLbot

総閲覧回数:4,201,088回 / ブログ拍手:2,793
作品DB等各サービスの機能追加情報や、技術系・面白系記事を中心に提供。
記事の投稿は基本Twitterでも告知させて頂いています。
連絡は作品DBの論客の方なら私書、DB外ユーザの方ならメールTwitterで可能です。
アクセス記録[推移 / PV内訳(過去1日 / 過去1週間) / 外部アクセス元 (昨日 / 過去1週間) / ログイン論客足跡]
プロフィール私書(メール)
   /   /送済
評価(一覧   /)
投票   /共:   /
ファン登録
作品/情報/
DB構築()
ブログ
[書く]
攻略記事リンク集
My Play List
<=次の記事 「最高の中の最高」の投票者一覧 & 上位作品リスト
=>前の記事 動画埋め込み機能 & その他 x 4

1.
2006/08/15 検索エンジン&SEO > クローラー > 余計なアクセス弾き編 2006年8月版 Baiduspider & IRLbot」
[この書込みのみ表示(記事URL紹介用) / 編集 / 削除 / トラバ送信 / 共有分類に追加(タグ付け)]

1. 最近目立つ余計なクローラー
2. Baiduspider
3. IRLbot

1. 最近目立つ余計なクローラー

昨日のクローラーのアクセスの状況では、以下の見慣れないクローラーが目立った。
4位17,696回Baiduspider ( http://www.baidu.com/search/spider.htm)
5位5,081IRLbot/2.0

2. Baiduspider

Baiduspiderの方は、robots.txtで弾く設定をしたのだが、それを反映した行動をしてくれなかったので、httpd.confで弾くようにした。
Baidu.comは、中国のNo.1検索サイトではあるが、日本語と英語の当サイトをクロールされても、価値はないだろうと判断した。
3. IRLbot

IRLbotは、テキサスA&M大学のインターネット研究所のクローラーであるようだが、研究用のクロールなどは当サイトにとっては価値がなく、その割にアクセス数が目立つので、とりあえずrobots.txtで弾く設定にしてみた。
設定に従ってくれるかは、これから観察。
ちなみに、クローラー元の説明ページは、以下のURL(英語です)。
http://irl.cs.tamu.edu/crawler/

コメントする


[他の記事も読む]
<=次の記事 「最高の中の最高」の投票者一覧 & 上位作品リスト
=>前の記事 動画埋め込み機能 & その他 x 4


大分類が「検索エンジン&SEO」の記事
この論客の記事全て
↑上へ