外部サイトデッドリンクチェック機能

[ガラケー版(QRコード)] 総閲覧回数:3,630,588回 / ブログ拍手:2,145
作品DB等各サービスの機能追加情報や、技術系・面白系記事を中心に提供。
記事の投稿は基本Twitterでも告知させて頂いています。
連絡は作品DBの論客の方なら私書、DB外ユーザの方ならメールTwitterで可能です。
アクセス記録[推移 / PV内訳(過去1日 / 過去1週間) / 外部アクセス元 (昨日 / 過去1週間) / ログイン論客足跡]
プロフィール私書(メール)
   /   /送済
評価(一覧   /)
投票   /共:   /
ファン登録
作品/情報/
DB構築()
ブログ
[書く]
攻略記事リンク集
My Play List
<=新記事2009/01/15 Youtube API::色々YoutubeのAPIを眺めていて気づいた事
=>古記事2009/01/14 1月開始アニメ整備終了

1.
2009/01/14 同日2番目 作品DB開発/運用 > 外部サイトデッドリンクチェック機能」
[この書込みのみ表示(記事URL紹介用) / 編集 / 削除 / トラバ送信 / 共有分類に追加(タグ付け)]

攻略サイトや公式サイトなどの外部サイトのデッドリンク自動チェック機能を組み込みました。
またYoutubeの動画削除の認識にも対応させました。
1日1回定期的に走らせるので、これによりリンクをクリックしてNot Foundなどに想定する可能性は相当低下する予定です。

なお、以降以下のURLにて、Not FoundになったURLの認識をする事ができます。
今のところ、作品の情報と、情報DBの情報と、Youtubeの情報を分けて認識することができます。
http://www.accessup.org/anime/tab_text_reader.asp
作品DBの情報の整備において、役に立つことがあるかもしれません。

なお、色々実験しながら走らせていたので、古い処理の方は時間が全部一緒という不適切な状態になっていますが、後の方で対応してあります。

コメントする


管理人さん さんのコメント (2009/01/15) [編集/削除(書込み者/所有者が可能)]
> 「サーバーのレンタル期限が切れて、サーバー会社の広告になっているページ」
正確に言うと、ドメインの契約期限が切れたものを別の会社が取得している、ということですね(伏字で書かれているのはそうした例)。

ドメインの有効期限が切れたものを他の会社が取得する理由(インセンティヴ)は
1. ドメインを他の人に売りつける(期限切れに気付かず切れちゃった人がいた場合には確実に高く売れるでしょうね)。
2. 広告を載せる(後述する理由によりドメインを「乗っ取る」ことは0からスタートするより効率が良い)
3. 新しくサービスをしたり、コピーサイトを作る場合に、既にリンクが張られて時間が経過しているドメインは、0からスタートするより検索エンジンに被リンクがあるので高く評価されやすいので、取得する価値がある。
例えばギアスの公式がドメインの期限切れを迎えて、それを取得したら、全然関係無いサービスを提供しつつも、サーチエンジンによるドメインの評価が高いところからスタートできる。

といったところがあると思います。
これはHTTP Statusで対応できる問題とは別のことなので、
内容によって認識できるようにして一つ一つ潰していくしかないと思いますが、
・タイトル等に特定キーワードを含むものは入れれないようにする(変なサイトに乗っ取られた場合対策)
・広告/ドメインセールスのサイトについてはパターンを見つけてはじけるようにする
といったところが、できることになるかなと思います。
あくまで、個別対応にはなりますが、その積み重ねで対応パターンを増やしていくしかないかなと。

ということで、とりあえず禁止キーワードについて、早速作業してみようと思います。
ご指摘ありがとうございました。
Barnirun さんのコメント (2009/01/15) [編集/削除(書込み者/所有者が可能)]
早速の対応どうもです。こんな技術が使いこなせるって凄い!!!

4. 2009/01/15 03:41:13 500 配島邦明 公式サイト : Haishima Kuniaki Book [島邦明]
みたいなのも、今アクセスしたら表示されたのでそのうち復旧するでしょう。

っていってる傍からもう1つ問題点を発見しました。

44. 2009/01/15 02:48:06 500 trinet-ent.com [デッドガールズ]
46. 2009/01/15 02:42:35 500 trinet-ent.com [W~Wish~ ( ダブルウィッシュ )]

のトライネットエンタテインメントのような、「サーバーのレンタル期限が切れて、サーバー会社の広告になっているページ」は何とかならないものでしょうか???
トライネット系のアニメのリンクを直す作業をしていたら
         
         

なんてのがあって吹き……を通り越して引きましたorz
管理人さん さんのコメント (2009/01/14) [編集/削除(書込み者/所有者が可能)]
Barnirunさん、コメント有難うございます。
本当に一時的なエラーかずっと続くものかどうかは分からないので、
エラーが出て取得出来なかったサイトはエラーサイトとして扱わざるを得ませんが、
500系のエラー(とりわけ言及されている502, 503系)については適切なタイミング(今のところ1日1回)で定期的にサイトの状態を再確認させることで対応させようと思っています。
そこでHTTP Status 200に戻っていれば、また利用可能サイトとして戻すということで。
とりあえず、その処理を走らせてみたところ、「マーガレット・ホイットン」のURLについては戻ったようです。
Barnirun さんのコメント (2009/01/14) [編集/削除(書込み者/所有者が可能)]
削除リストの上のほうにある「マーガレット・ホイットン」を見てみたんですが……

http://www.accessup.org/anime/attr.asp?mode=info&key=%A5%DE%A1%BC%A5%AC%A5%EC%A5%C3%A5%C8%A5%DB%A5%A4%A5%C3%A5%C8%A5%F3&title=%A5%DE%A1%BC%A5%AC%A5%EC%A5%C3%A5%C8%A1%A6%A5%DB%A5%A4%A5%C3%A5%C8%A5%F3&edit=1

エラーの種類が特定できるのなら、502や503のような一時的なものは外すべきではないかと思います>_<
しかも一度エラーサイトとして認定されると情報DBに再登録できませんしorz


[他の記事も読む]
<=新記事2009/01/15 Youtube API::色々YoutubeのAPIを眺めていて気づいた事
=>古記事2009/01/14 1月開始アニメ整備終了


大分類が「作品DB開発/運用」の記事
この論客の記事全て
RSS購読
RSS
ブログ表示スタイル
リスト/携帯(QRコード)
画像/動画/音声/リンク
表示開始年月
分類
全て
1.このサイトについて
2.作品DB開発/運用
3.ホームページ制作技術
4.Perl
5.C言語 / C++
6.検索エンジン&SEO
7.サッカー
8.自分のこと
9.Linux
10.旅行
11.思ったこと
12.パソコン
13.Berkeley DB
14.その他技術系
15.企画
16.スマートフォン
17.鑑賞
18.皆声.jpニュース
19.インターネット業界
20.運用マニュアル(自分用)
21.技術系以外実用書
22.料理
23.ALEXA
24.アニメ
25.会計
26.漫画
27.設計書
28.色々サイト作成
29.サーバー
30.自分専用
31.生活
32.OP/ED/PV
33.ゲーム
34.DB整備
35.新規開始作品紹介
36.英語圏の話題
37.大道芸
38.映画
39.PHP
40.ダイエット
41.Mac
42.JavaScript
43.MySQL
44.介護
45.作品DB作品追加作業
46.BI
47.Web API
48.パフォーマンス
49.インターネットの活用方法
50.Riak
51.Androidアプリ開発
52.Cassandra
53.スパム
54.写真
55.iOSアプリ開発
56.AWS
57.マーケティング
58.Web漫画
59.法律
60.mongodb
61.開発環境整備
62.Google Apps Script
63.meteor
64.Pentaho
65.Ansible
66.VPS
67.技術書メモ
68.Vagrant
69.Docker
70.dokuwiki
71.Apple Watch
72.Webサービス
73.セキュリティ
74.Elastic Search
75.Wordpress
76.クラウド
77.英語
78.MVNO
79.シンガポール
80.マレーシア
81.管理人さん
82.管理人さん
83.管理人さん
日記の主な内容
サイト運営/開発
検索エンジン情報
・技術ネタ(Berkeley DB,
Linux, Perl, サイト作成)等

サイト管理
全まとめ
サーバー管理
定期処理状況
開発予定
削除提案
作品追加依頼
OP/ED追加依頼
OP/ED not found
作品提案承認欄

格言 fromスクライド
この世の理は即ち速さ
20年かければ馬鹿でも
傑作小説を書ける

助けられたら助け返す
それが俺のルール

強くなるには
一番弱い考えをする事だ
そしてその考えに反逆する




右側に何か入れてみるテスト


仕事でのサイト
介護DB
Helpyou
Doctor career
Nurse career
上へ ↑上へ 最速検索作品DB皆声