外部サイトデッドリンクチェック機能

[ガラケー版(QRコード)] 総閲覧回数:3,938,775回 / ブログ拍手:2,567
作品DB等各サービスの機能追加情報や、技術系・面白系記事を中心に提供。
記事の投稿は基本Twitterでも告知させて頂いています。
連絡は作品DBの論客の方なら私書、DB外ユーザの方ならメールTwitterで可能です。
アクセス記録[推移 / PV内訳(過去1日 / 過去1週間) / 外部アクセス元 (昨日 / 過去1週間) / ログイン論客足跡]
プロフィール私書(メール)
   /   /送済
評価(一覧   /)
投票   /共:   /
ファン登録
作品/情報/
DB構築()
ブログ
[書く]
攻略記事リンク集
My Play List
<=次の記事 Youtube API::色々YoutubeのAPIを眺めていて気づいた事
=>前の記事 1月開始アニメ整備終了

1.
2009/01/14 同日2番目 作品DB開発/運用 > 外部サイトデッドリンクチェック機能」
[この書込みのみ表示(記事URL紹介用) / 編集 / 削除 / トラバ送信 / 共有分類に追加(タグ付け)]

攻略サイトや公式サイトなどの外部サイトのデッドリンク自動チェック機能を組み込みました。
またYoutubeの動画削除の認識にも対応させました。
1日1回定期的に走らせるので、これによりリンクをクリックしてNot Foundなどに想定する可能性は相当低下する予定です。

なお、以降以下のURLにて、Not FoundになったURLの認識をする事ができます。
今のところ、作品の情報と、情報DBの情報と、Youtubeの情報を分けて認識することができます。
http://www.accessup.org/anime/tab_text_reader.asp
作品DBの情報の整備において、役に立つことがあるかもしれません。

なお、色々実験しながら走らせていたので、古い処理の方は時間が全部一緒という不適切な状態になっていますが、後の方で対応してあります。

コメントする


管理人さん さんのコメント (2009/01/15) [編集/削除(書込み者/所有者が可能)]
> 「サーバーのレンタル期限が切れて、サーバー会社の広告になっているページ」
正確に言うと、ドメインの契約期限が切れたものを別の会社が取得している、ということですね(伏字で書かれているのはそうした例)。

ドメインの有効期限が切れたものを他の会社が取得する理由(インセンティヴ)は
1. ドメインを他の人に売りつける(期限切れに気付かず切れちゃった人がいた場合には確実に高く売れるでしょうね)。
2. 広告を載せる(後述する理由によりドメインを「乗っ取る」ことは0からスタートするより効率が良い)
3. 新しくサービスをしたり、コピーサイトを作る場合に、既にリンクが張られて時間が経過しているドメインは、0からスタートするより検索エンジンに被リンクがあるので高く評価されやすいので、取得する価値がある。
例えばギアスの公式がドメインの期限切れを迎えて、それを取得したら、全然関係無いサービスを提供しつつも、サーチエンジンによるドメインの評価が高いところからスタートできる。

といったところがあると思います。
これはHTTP Statusで対応できる問題とは別のことなので、
内容によって認識できるようにして一つ一つ潰していくしかないと思いますが、
・タイトル等に特定キーワードを含むものは入れれないようにする(変なサイトに乗っ取られた場合対策)
・広告/ドメインセールスのサイトについてはパターンを見つけてはじけるようにする
といったところが、できることになるかなと思います。
あくまで、個別対応にはなりますが、その積み重ねで対応パターンを増やしていくしかないかなと。

ということで、とりあえず禁止キーワードについて、早速作業してみようと思います。
ご指摘ありがとうございました。
Barnirun さんのコメント (2009/01/15) [編集/削除(書込み者/所有者が可能)]
早速の対応どうもです。こんな技術が使いこなせるって凄い!!!

4. 2009/01/15 03:41:13 500 配島邦明 公式サイト : Haishima Kuniaki Book [島邦明]
みたいなのも、今アクセスしたら表示されたのでそのうち復旧するでしょう。

っていってる傍からもう1つ問題点を発見しました。

44. 2009/01/15 02:48:06 500 trinet-ent.com [デッドガールズ]
46. 2009/01/15 02:42:35 500 trinet-ent.com [W~Wish~ ( ダブルウィッシュ )]

のトライネットエンタテインメントのような、「サーバーのレンタル期限が切れて、サーバー会社の広告になっているページ」は何とかならないものでしょうか???
トライネット系のアニメのリンクを直す作業をしていたら
         
         

なんてのがあって吹き……を通り越して引きましたorz
管理人さん さんのコメント (2009/01/14) [編集/削除(書込み者/所有者が可能)]
Barnirunさん、コメント有難うございます。
本当に一時的なエラーかずっと続くものかどうかは分からないので、
エラーが出て取得出来なかったサイトはエラーサイトとして扱わざるを得ませんが、
500系のエラー(とりわけ言及されている502, 503系)については適切なタイミング(今のところ1日1回)で定期的にサイトの状態を再確認させることで対応させようと思っています。
そこでHTTP Status 200に戻っていれば、また利用可能サイトとして戻すということで。
とりあえず、その処理を走らせてみたところ、「マーガレット・ホイットン」のURLについては戻ったようです。
Barnirun さんのコメント (2009/01/14) [編集/削除(書込み者/所有者が可能)]
削除リストの上のほうにある「マーガレット・ホイットン」を見てみたんですが……

http://www.accessup.org/anime/attr.asp?mode=info&key=%A5%DE%A1%BC%A5%AC%A5%EC%A5%C3%A5%C8%A5%DB%A5%A4%A5%C3%A5%C8%A5%F3&title=%A5%DE%A1%BC%A5%AC%A5%EC%A5%C3%A5%C8%A1%A6%A5%DB%A5%A4%A5%C3%A5%C8%A5%F3&edit=1

エラーの種類が特定できるのなら、502や503のような一時的なものは外すべきではないかと思います>_<
しかも一度エラーサイトとして認定されると情報DBに再登録できませんしorz


[他の記事も読む]
<=次の記事 Youtube API::色々YoutubeのAPIを眺めていて気づいた事
=>前の記事 1月開始アニメ整備終了


大分類が「作品DB開発/運用」の記事
この論客の記事全て
↑上へ