画像検索における「初音ミク」問題の正解となる答え(最終版)

[ガラケー版(QRコード)] 総閲覧回数:3,643,098回 / ブログ拍手:2,227
作品DB等各サービスの機能追加情報や、技術系・面白系記事を中心に提供。
記事の投稿は基本Twitterでも告知させて頂いています。
連絡は作品DBの論客の方なら私書、DB外ユーザの方ならメールTwitterで可能です。
アクセス記録[推移 / PV内訳(過去1日 / 過去1週間) / 外部アクセス元 (昨日 / 過去1週間) / ログイン論客足跡]
プロフィール私書(メール)
   /   /送済
評価(一覧   /)
投票   /共:   /
ファン登録
作品/情報/
DB構築()
ブログ
[書く]
攻略記事リンク集
My Play List
<=新記事2007/10/19 百度(Baidu)::Baidu(百度)、中国全土で検索エンジンをハッキング
=>古記事2007/10/13 インストール::Firefox用ステータスバーSparkyの紹介 & やっぱり生き残りそう

1.
2007/10/18 検索エンジン&SEO > 検索比較 > 画像検索における「初音ミク」問題の正解となる答え(最終版)」
[この書込みのみ表示(記事URL紹介用) / 編集 / 削除 / トラバ送信 / 共有分類に追加(タグ付け)]

1. 事件のあらまし
2. でも答えは簡単
3. インデックス対象の時期特定の理由
4. 検索エンジンの仕組みのリマインド
5. 一応他の語でも検証してみた
6. MSNについてはタイミング的なものも考慮しておく必要はある
7. 小さいところにできて何故大手ができないのかの理由
8. GoogleはGoogleでどちらにせよ質の問題がある
9. 画像検索自体の順位付け
10. accessup.orgへの上記評価の反映
11. 「初音ミク」に関する検索結果の日々のトレース (その後の展開はこちら)
12. 蛇足1. 気付いたこと(Googleの画像件数のヒット件数滅茶苦茶)
13. 蛇足2. 周期の秘密(検索エンジンの行動を考えるにあたって参考になるベースの知識)
14. 蛇足3. アダルトフィルターについて
15. 蛇足4. 形態素の単位がずれているってことはないの?
16. 外部の参考資料紹介

    1. 事件のあらまし

巷では初音ミクの画像が大手検索エンジンにて検索できないことが、
陰謀説として盛り上がっています(TBS問題とかがあったから)。
http://www.itmedia.co.jp/news/articles/0710/18/news040.html
http://gigazine.net/index.php?/news/comments/20071018_vocaloid2_image/
http://gigazine.net/index.php?/news/comments/20071018_vocaloid2_image_tel/
    2. でも答えは簡単

画像検索は完全領域外なので(中の人になったことないので = 範囲外だから答え書いても良いよね?という意味です)答えを書いてしまうと、「検索結果に出ない組」の画像検索のインデックスは2007年8月31日(=「初音ミク」の発売日)以前に収集した画像を検索対象にしているからでしょう(無いものは検索できない)。
    3. インデックス対象の時期特定の理由

「初音ミク」という言葉自体、発売日前にほとんど書かれるものではなかった為、8/31(発売日)前に検索対象化できる形で言葉ときちんとセットで提示されていた画像がそうそうあったとは思えません
(ブログ検索結果の期間をづらしてそう判断しました: 検索結果/期限が過ぎると見えなくなるでしょうが)。
ちなみに、↑の検索結果の一番初めのブログ記事(07/12 メディアファージ事業部 ブログ)を書いた人は、「初音ミク」の中の人の一人のようなので、そこ(07/12)からが理論的には「初音ミク」を検索対象にするチャンスが検索エンジンに与えられ始めた時期になります。
ただ、仮にその「内部情報出し」後の時期をクロールしていても、あくまで激烈にブレークしたのはリリース後のニコニコの展開があったからなので、検索エンジンが「初音ミク」という形で認識できる画像はなかった可能性は高いでしょう。
画像検索は、ホームページ上の記述と画像を結びつけることで可能にするものなので(従来のは/Flickrのようにタグ情報有りは別)、レラバンシー(関連度)を高めるためにはaltのような情報をきちんと入れてある画像が必要になります。
ただ存在するだけでは検索対象になりません(ホームページのタイトルでもO.K!等、確度を緩くすると網羅性は上がるが、レラバンシーは落ちる / ここに各画像検索の思考レベルの差が現れる)。
その為、ある程度の画像投稿数(盛り上がり)が、キーワードと綺麗かつきちんと結びついた結果を出すには必要になるのは事実です。

ただ、確実なのは、初音ミクは9月に入ってからは漏れようがない位の大ブレークをしたわけで、少なくとも8/31以降については、認識できる形式の画像がなかったということはできません。
よって、今検索結果に出せていない画像検索エンジンは、少なくとも直近約1・2ヶ月以内のものは検索対象に出来ないだろう、と結果が導きだせます(もっと長い期間無理かもしれませんが)。
    4. 検索エンジンの仕組みのリマインド

ブログ検索など投稿されてから1分以内の記事も検索できるようなエンジンが出てきて皆忘れてしまったのかもしれませんが、
クロール→検索対象化→検索結果のQA(ここでミスが発覚すると世界中のウェブサイトのクロールからやり直し)→リリース
のサイクルは数ヶ月以上かかるのは世界レベルで収集する検索エンジンでは昔は常識でした。

ヤフーの画像検索のインデックスの更新は半年に一回とか言われていた位ですので、最近1・2ヶ月内に登場した画像?、そんな新しい画像は検索できないよー、というのは何ら不思議なことではありません。
今まで通りです(改善されてませんね、というだけ)。

Googleについては、関係無いものばかりとはいえ一応結果を返してきてしまっているので、状況は詳しく見ないとわかりません(これは周期以外の問題もありえる)。
ただ、一昔どこの画像検索が良いのかな、思ってみてた時には、デッドリンク率が高く(他も高いですがGoogleは頭抜けていた)、画像検索のインデックス古いんだな、と思ってたものです。
Googleの画像検索が一番デッドリンク(Not Found)率が高く、当時は20%超えていました(Yahooや当時はあったNaverの倍)。
あくまで当時の話になりますが、収集した時のページの20%以上がNot Foundになるということは、どれ位か分かりませんが、相当古いものが検索対象になっていたということです。
月日が経っているので、今は改善しているでしょうが、当時はそんな状態だったので、最近一ヶ月内のが少なくともまともに検索出来ないの位、これまた全然驚きじゃないです。

ただ、外部から問い合わせられても、他検索エンジンと比較されている以上、検索結果出せない会社さんは、そこまでのこと(他より古いのしか検索できないこと)は外には言いたくないでしょうね。
結論としては、結果を出せる検索エンジンと出せない検索エンジンの差は、規制・削除されたというわけではなく、画像検索結果のフレッシュさの差ということです。
騒動の構造は、当然検索できるだろう、という皆の期待値が(ウェブ検索をベースにした考え)、今回駄目だった画像検索エンジンの性能を上回っているということでしょう。
    5. 一応他の語でも検証してみた

(10/22での調査なので、状況が変わってしまっている恐れはありますが)
Ask.jpの半年のブログ検索キーワードをさかのぼれるデーターベースで目を付けたのは
「相関図ジェネレータ」
09/27に登場しています。
http://ask.jp/trend/keyword.asp?date=2007/09/27

これで検索してみると...
検索結果
Yahoo: 0件(正確に言うと2件出ているがこのキーワードの指すものではない)
Goo: 16件 (O.K!)
Google: 4,340件 但しデタラメばかり。テキストにヒットさせながらもデタラメな画像を出すというのが、最新の画像に対する対処なのか?テキストの検索対象化と、画像の収集/結びつけの周期(こいつが遅い)が別なのかもしれませんね。
MSN: 145件 (O.K!)
PicSearch: 0件
初音ミクと同じようなかんじの結果で、Yahoo, PicSearchが収集時期が最近現れた語に対応できていない組、Goo, MSNが収集記事があっている組(フレッシュ話題対応可)、Googleがテキストだけ合致していて画像は滅茶苦茶組、と同じような結果ですね。
Googleのテキストと画像の複雑骨折的な結果は、予想の斜め上かつ中の人じゃないと正確な理解が出来ない状態ですが、同じような結果なのでほぼ想定通りです。

次いで検索してみたのは「時津風部屋」
Yahoo: 95件
Goo: 238件
Google: 4,050件(相変わらずノイズが多いが...)
MSN: 171件
PicSearch: 27件
これでやるとYahooとGoogleも、結果がちょっと出てきます(Goo / MSNに負ける数ですが)。
ニュースは新語の発生源である故に、ウェブ検索でも特殊なクロールのされ方がされていますが(その日のうちに検索できるようになったりする)、画像検索の方も全体のメインインデックスとは別にニュース専用の別周期で早く反映できるパーティションがありそうな雰囲気ですね。

「内藤 亀田」
Yahoo: 2件 <= ニュースサイトからのみ(試合前のものですが)
Goo: 63件
Google: 9,450件 <= Reutersのようなニュースサイトのみ画像はあっている模様
MSN: 169件
PicSearch: 0件
上と同じようなかんじですね。
Googleは少なくともニュースサイトに掲載された情報については、画像格納が別周期で動いている模様です。
でもその他は滅茶苦茶でヒット数の多さが、単にノイズの多さに化けてしまっています。
PicSearchはフレッシュネスに対する工夫が無さ過ぎですね。。。

「"こどもの時間第一話"」
検索結果
10日前に出てきた話題です。
http://ask.jp/trend/video.asp?date=2007/10/12
Yahoo: 0件
Goo: 2件
Google: 423件(スクールデイズとか相変わらず滅茶苦茶な画像ばかりですけど)
MSN: 12件
PicSearch: 0件
フレッシュな話題にはMSNを是非どうぞ、という結論ですね。
MSNとGooはフレッシュネスに強い模様ですが、その中で序列をつけるとしたら、
MSN > Goo
の関係が成り立つのかも(定期的に定点観測しないと分りませんが)。
    6. MSNについてはタイミング的なものも考慮しておく必要はある

今回の騒動はMSNの日本のウェブ検索の評価結果は
Yahoo > MSN > Google
という自己診断プレスリリース「Googleの検索精度はMSNに劣る――MSが自社計測もとに指摘」
http://headlines.yahoo.co.jp/hl?a=20071017-00000002-zdn_ait-sci
と重なったので(それが各検索エンジン結果の比較が始まるきっかけだったので/TBS問題もありますが)、結果的にMSNの新インデックスのリリースが近く、インデックスの内容が比較的新しい状態で、MSNにとって有利な「時期」に出されたという要素もMSNの良い結果にはあるかもしれません。ただ、どちらにせよ、9月の画像を10月にインデックス化して出せるということは、フレッシュネスの観点で有望です。

なお、別の話になりますが、MSNが自分で自分を褒めることはそのまま信頼はできませんが、日本においては、検索結果の質で、「Yahoo > Google」というのが、検索専門の第三者により結論付けられたのは、面白いことです(私も同じような結果になるテスト結果をhttp://find.accessup.org/kensaku/で何度か発表してきましたが)。
    7. 小さいところにできて何故大手ができないのかの理由

ちなみに、ここで、何故大手ウェブ検索の方が、gooとかlivedoorのようなとこと異なり(gooやlivedoorは日本のブログをソースにしている/ブログ検索は自社製だから)、それが出来ていないのかというと、
ウェブ検索用にクロール(世界中だから1サイクルに時間がかかる)

そこから画像検索用の文章を抽出
という、画像検索に集中していない集め方をしているからじゃないかな、と思います(画像検索は中の人じゃないから推測)。
ウェブサイトを集めてから、imgタグを分析して画像を引っこ抜きます。
ウェブ検索用文章収集ついで(派生して)に、画像検索用のインデックスを作らせてもらうというのは、大量のアクセスをウェブサイトにしかける検索エンジンとしては、合理的な選択だと思います。
なので、一般的に、ウェブ検索のインデックス更新サイクルよりも画像検索のインデックス更新サイクルの方が時間がかかるでしょう。

ただ、それに加えて、画像共有サイトも検索対象にしたり(そこはタグ付けがされているので簡単に画像検索対象にできるし取得に無駄がない)高速にインデックス化するブログ検索の仕組みを活用して、そこは別サイクルで回して結果に混ぜて出せるような小型パーティッションを作っていたりしたら、最新の結果が出ないことで規制されていると誤解されるような問題は起きなかったのでしょうが。
要するに、ウェブ検索と同じで、メインインデックスとは別に、ブログやソーシャルタグを対象にした小型の高速更新インデックスも混ぜておけば、対象が巨大なウェブ検索会社でも解決できる問題です。
    8. GoogleはGoogleでどちらにせよ質の問題がある

なお、フレッシュネスというのは、検索結果の評価においては一部の要素でしかないので、それをもってどうこうということはないのですが、ただ、結果を出した上で、その結果が滅茶苦茶なものばかりのGoogleは、検索結果について根本的に改善しないといけないところがあるんでしょうね(画像をひっかける条件がゆる過ぎなのか、バグなのか / 複数の語で見たところ、どうもテキストはウェブ検索と同じようにかなり早く当てれるようになるが、画像はニュースのようなウェブでも特別なクロールをしているところ以外、周回遅れという雰囲気/よって滅茶苦茶な結果が見える)。
    9. 画像検索自体の順位付け

ちなみに、初音ミクだけを見ると、
MSN > Goo > Yahoo or PicSearch(ask.jpが借りている) > Google
という結果になってしまいますが、ある程度時間が経てば(格納されれば)、
より大きい領域から集めているYahooやGoogleの検索可能件数がMSNやGooより多くなります。
なので、それだけの問題をもって、MSNはGoogleやYahooより優れている、と言えるわけではりません(ただフレッシュネスの面でMSNの画像検索が強いのは分かりました)。
むしろ、画像検索はユーザーインターフェースが検索エンジン毎にかなり違うので、それの出来がどうなっているかが大きく利用経験を分けると個人的には思います。
で、私が画像検索について順位をつけるとしたら、
1位Yahoo画像をクリックしたら画像が表示される唯一つの「画像検索」エンジン。世界最大の画像共有サイトFlickrを傘下に持っているのが大きい
2位goo今回ので気づいたけれども件数はともかく収集したものの反映が速い組だから
3位MSNフレッシュネスさなど内容が評価できるのに、ユーザーインターフェースが使いづらい。またクライシスコアで比較して気付いたことですが、同じ画像の認識/除外する能力が低い(もしくは無いのが痛い) 検索結果
4位Google初音ミクだけならフレッシュネスの問題だから...とそんなに思いませんでしたが、他も見てみるとノイズが惨憺たる状況だったので(フレッシュ語で試したとはいえ)、順位を下げました。ヒット件数があまりにも信頼できないのも痛いです。とりあえず史上最強の画像検索という文句については考え直した方が良いかも。
5位PicSearch画像検索専用の会社だが規模が競合に比べて足りない(MSNやask.comから契約切られちゃったしこれ以上の投資は不可能か?)
というとこですね。
    10. accessup.orgへの上記評価の反映

これに従って、画像一括検索と、画像集ページの順位と構成を変えてみました。

・画像一括検索
検索結果
↑初音ミクの画像検索結果 / いつインデックスが更新されるのか、今後の監視に使ってみると良いかと思います。
    11. 「初音ミク」に関する検索結果の日々のトレース (その後の展開はこちら)

検索結果
を使って日々の変化を観測してインデックスの中身の変化をトレースしていきます。
10/18 Yahoo 0 / Google 約40,800
...
10/21 Yahoo 0 => 0 or 146 or 280 / Google 約20,800
10/22 Yahoo 0 or 134 or 146 or 280 / Google 約20,800 => 約58,400=> 約54,700
10/23 Yahoo 280 or 405 / Google 約20,700=>約45,600(このセットで初音ミクが出たが1ページ目にしかない) / Goo 420=>662 / MSN 1,761 / PicSearch 13
10/18 10/18のデータに限りですが、これは自分で確認したわけではなく、IT Mediaさんの画像から得た数字です

...

10/21 Googleのヒット件数が半減。といってもミスマッチばかりは変わりませんが。↓にも書いていますがgoogleの約って適当だなぁ...

10/22 Yahoo!が微妙な件数ですが少し出るようになりました。
外れているのも結構あるし、件数から見るとまだ出始め、といった感じですね。
かなり最近のもあります。
Yahooの検索結果の不安定さはロードバランサーの先のサーバーの状態の違いによるものと思われます
件数が少ないのに今回のミク消失騒動の画像を複数含むというアンバランスさを考えると、通常の周期でメインのインデックスが更新されたわけではなさそう(メインインデックス更新の規模・周期とは別のもの)。
画像の元のソースはブログばかりで、
http://api.plaza.rakuten.ne.jp/komuramaisblog/rss/
http://pocketgraphic.blog109.fc2.com/?xml
http://www.akibablog.net/index.rdf
のようなRSSばかりソースになっています。
Livedoor、GooとかブログのRSSをソースとした高速反映用小型検索パーティッションなのか、それとも指定したURLを緊急クロールして混ぜれるパーティションのか分かりませんが、画像検索のパーティション構成も一つの巨大なものだけではなさそうですね
(そっちのパーティッションを騒動に押されて緊急更新したのか...私が↑に書いた1タイプのインデックスだけじゃない周期/性質別のインデックスからも結果を出すという解決策をすでにYahoo! Japanは仕組み上はもっていたということですね(といってもリクエストベースの手動機能ではその効果は微々たるものですが / これからどの間隔でヒット件数が変わっていくかに注目です)。
Googleさんは件数が多いけれども、画像はまだ滅茶苦茶です(新語状態のまま)。

10/23 せっかくなので、goo, msn, picsearchも計測対象に入れました。
Googleはヒット件数は相変わらずランダムに動くかのような挙動不審ぶり。
こうして精査されてしまうと、何事も大きくみせかけれれば良いというものではないですね。
変化を見る上で考えることは、ガンっと一気に変わるのがメインインデックス更新、ちょびちょび変わるのがサブインデックス更新。
そうした性質が見えればなと思います。
Googleはヒット数の変化が参考にならないので、結果を眺めて判断するしかない模様ですが。

10/23夜 Googleの1ページ目に9/16個出る。
ITMediaさんも今度は余計な推測を入れずに事実だけを報道しています。
http://www.itmedia.co.jp/news/articles/0710/23/news126.html
ただ、「復帰」という言葉だと、元々「初音ミク」という画像がきちんと検索できていたことを意味していますので、「NGワード」に続く虚偽記事なわけではあるのですが、まあ最初に「消失」と間違えた事実を書いてしまったからには、最後まで間違い続けるという姿勢もありなのでしょう。

但し、その後30ページ目(画像にして540個目)までめくってみたけど、合致する画像が全く出ないという画像の検索結果としては逆に不自然な結果。
1ページ目に9/16出ながら次のページから全然出ないというのが、検索エンジンの通常動作としてありえない。
あと、特徴として「選ばれた」画像以外には、「初音ミク」の前後に文章が付いているけれども、選ばれたものには付いていない。
altタグに"「VOCALOID初音ミク」体験版が付属する「DTMマガジン」"と付いていても「初音ミク」とだけ文字が表示されているのが特異。


補足:Googleの画像検索にニュースパーティッションの存在が確認されました。そこに入れて何とか対応した模様(「初音ミク」で出てきているサイトは必ずしもニュースサイトではありませんが)。メインパーティションの遅さを今回はニュースパーティションと手動の何らかの操作で無理矢理解決させたということですね。推測は正しかったということでFA。GoogleもYahoo!もウェブ検索だけでなく、画像検索も多重構成のインデックスが確認されたということで(但しメインインデックス(つまりは全体)のフレッシュネスが遅いことは変わりない)。


「相関図ジェネレータ」「"こどもの時間第一話"」などはyahoo, google共にまだ結果を出せていない(yahooは0件/googleは出鱈目画像)。

10/24 Yahoo!は株主総会でこの件について質問されて、
http://www.itmedia.co.jp/news/articles/0710/24/news091.html
・「NGワード」は設定していない <= ITメディアの推測否定
・機械的な問題。収集対象になっていなかった <= つまりは時期的な問題でメインの自動クロールの周期の時には検索対象にできなかった(出来るものが無かった)の肯定

結局、この件については単なる大きな空騒ぎになりましたが、その過程でITメディアというメディアが、匿名掲示板やら、匿名技術者やらの情報をそのままに「消えた」、「NGワードではないか」などという言葉そのまま取り上げたのが大きな問題だったと思います。

ITメディアの今回の件に関する記事履歴(の部分が虚偽/ミスリードさせる「部分切取」/「推測」言葉)
「初音ミク」画像がネットから"消えた"?
"消えた初音ミク"問題 ヤフーとGoogle「原因を調査中」
「意図的に落としたということは、100%ない」 「クローリングが遅い」せい? 検索キーワードとしても「特殊ではない」 gooは「検索結果に手を加えていないので」適切に表示 検索結果は「正しい」のか
「意図的削除はしていない」が…… 謎深まる"消えた初音ミク"問題
「初音ミク」画像、Googleに復帰
初音ミク消えたのは「たまたま」? ヤフー決算会見で説明
せめて中の人の「意図的なことはしていない」「特殊なキーワードではない」という中の人の発言は踏まえるべきだったと思います
中の人の発言を疑うのはもちろん必要でしょうが、書く側が状況をよく理解していない状況で(しかも匿名の外部の技術者の推測でそれを上書きするということは)、取るべき手段ではないと思います。
中の人にコンタクト出来る(根拠付けを通常の人が得られない方法で出来る)という優位な立場にあるのですから、それはきちんと活用して頂きたいです。
結果的にいえば、デマの拡散によるデメリットだけではなく、色々な事実の情報も拡散しているので、必ずしもデメリットばかりではなかったとは思いますが、そうした溢れる情報の中で「これが信頼に足る情報」とある程度のお墨付けすることができる立場にあることが大手メディアさんの存在意義の一つなので、その立場の有意な面をもっと意識した確度の高い(少なくともデマになることは排した)記事を書いて頂きたいと思いました。

10/26
http://www.itmedia.co.jp/news/articles/0710/26/news098.html
同社の画像検索エンジンは「世界中のWebを対象とし、大規模な情報をクロールすることを得意としてきた」という。ただ「日本で急に話題になった言葉を対象とする画像データの収集が十分でなく、遅れがあった」と認めた。
無駄に大きくなった騒ぎの結果として、結局最近に現れた画像は収集出来ていない、ということをYahoo!は公開。
匿名掲示板で盛り上がっているとしてそれを記事にして、ずっと「編集説」をとってきたITメディアさんでしたが、最後の記事は余計な言葉がなくて良かったと思います。
匿名掲示板の説をそのまま採用するのではなく、こういうインタビューの裏付け記事を紹介してくれることにマスコミの意味がある。
そうでなければ、匿名掲示板やブログの1参加者としていれば良い(それ以上の価値がない)記事になってしまいますから。

以上、「初音ミク」が画像検索の結果から「消えた(←本当は消えたのではなく元からいなかっただけなのですが)」騒動終了までの流れでした。

・画像集ページ(これは作品DB(http://accessup.org/anime/)の方のお話で今回のとは関係ないです)
http://www.accessup.org/ani_imgj/7_Raki_20Suta.html
    12. 蛇足1. 気付いたこと(Googleの画像件数のヒット件数滅茶苦茶)

Googleの画像検索の結果が、「らき☆すた」で検索すると、時によって約 715 件と出てきたり、約 27400件と出てきたり。
それでいて検索結果が同じだったり。
「約」をつけているといっても、715件と27400件って差有りすぎでしょ。
一体全体どれ位このヒット数というのは信頼できるんだろう?
なんかGoogleの画像検索って品質管理緩いですね。。。

715件


27400件


ちなみに、「約」とは、本当は数えていないよ、ということを意味するので(=推測数字)、検索エンジンの収集力を測る時には、ヒット数が少ないもので比較しないといけません(1000ヒットを超えるもの/検索結果上で確認できないものでは無意味)。
そうでないと、検索エンジン側が、虚勢を張って、大きい数字が出るように推測値のアルゴリズムを作って、利用しているかもしれないので。
古いですが2005年にそういうことも踏まえてYahoo!とGoogleを比較した記事。
今振り返るとそんな昔から検索結果の質の逆転が起きていたんですね。
http://www.accessup.org/pj/6_B4C9CDFDBFCDA4B5A4F3/20051120.html

ちなみに、一番最近にYahoo!とGoogleを比較した記事はこちら
http://www.accessup.org/pj/6_B4C9CDFDBFCDA4B5A4F3/20070126.html
    13. 蛇足2. 周期の秘密(検索エンジンの行動を考えるにあたって参考になるベースの知識)

・検索エンジンによってクロール→解析→インデックス化→QA→リリースの周期は異なる
・検索エンジンの結果に出てくるのは一つの結果だけれども、その下には別々の周期のインデックスが存在しえる(そういう構成で作っているところなら)。メインインデックスは巨大な時間がかかるけれども、特定目的のインデックスは遥かに短期に回ったりする。うまく組み合わせることで、規模と見かけのフレッシュネスを実現できる。フレッシュネスの判断には、特定領域(インデックス)だけ新しいのか、メインインデックス自体が新しいのか(こっちは主にNot found率や存在数で見極め可能)見極めることが必要
    14. 蛇足3. アダルトフィルターについて

ちなみに、アダルト語/画像は見せ方については特殊な処理があり、画像自体にアダルト判定がかけられていて、検索パラメーターの投げ方によって結果が変わります。
これについてはBaidu.jp(百度)のデフォルト状態での緩さは有名ですね。
baidu.jpはウェブ検索としてはいまいちだけど(accessup.orgもbaidu.jpのクローラーを現在弾いています)、アダルト画像検索として利用者数を結果的に稼いでいます(アダルトフィルターOFFがデフォルト状態なのか、無いのか)。
http://www.alexa.com/data/details/traffic_details?url=http%3A%2F%2Fbaidu.jp%2F
image.baidu.jp81%
baidu.jp19%
画像検索のドメインの利用者が8割を超えていますね。
まあ、baiduは問題のある企業ですが、
http://www.accessup.org/pj/6_B4C9CDFDBFCDA4B5A4F3/20071019.html
それはそれでそれなりの役割を果たしているということです。
検索エンジンは一つのものを使うより、上手く使い分けることができれば、より楽に探しものを見つけることができます。
    15. 蛇足4. 形態素の単位がずれているってことはないの?

初音
という言葉は辞書語にあり、検索結果のヒットを見ると、既に登録されているようです。
"初音"のヒット件数 >>>>>>>>>>>>>>>>>>> "初 音"のヒット件数
なのでインデックスを作った時と、現在の検索側の辞書がずれているということはありません。
    16. 外部の参考資料紹介

Google内部の人がGoogleのクロール周期の進化とインデックス構造の多層化について語った内容
http://www.mattcutts.com/blog/minty-fresh-indexing/
2000年の頃はウェブ検索は3・4ヶ月以上の時間をかけてインデックスを更新していたという話。
その後ウェブ検索は更新タイミングがどんどん早くなっていきましたが(正確に言うとフレッシュインデックスの割合が増えた)、特に収入に直結するわけではない画像検索は、かなり更新周期という面では取り残されているということですね。

コメントする


[他の記事も読む]
<=新記事2007/10/19 百度(Baidu)::Baidu(百度)、中国全土で検索エンジンをハッキング
=>古記事2007/10/13 インストール::Firefox用ステータスバーSparkyの紹介 & やっぱり生き残りそう


大分類が「検索エンジン&SEO」の記事
この論客の記事全て
RSS購読
RSS
ブログ表示スタイル
リスト/携帯(QRコード)
画像/動画/音声/リンク
表示開始年月
分類
全て
1.このサイトについて
2.作品DB開発/運用
3.ホームページ制作技術
4.Perl
5.C言語 / C++
6.検索エンジン&SEO
7.サッカー
8.自分のこと
9.Linux
10.旅行
11.思ったこと
12.パソコン
13.Berkeley DB
14.その他技術系
15.企画
16.スマートフォン
17.鑑賞
18.皆声.jpニュース
19.インターネット業界
20.運用マニュアル(自分用)
21.技術系以外実用書
22.料理
23.ALEXA
24.アニメ
25.会計
26.漫画
27.設計書
28.色々サイト作成
29.サーバー
30.自分専用
31.生活
32.OP/ED/PV
33.ゲーム
34.DB整備
35.新規開始作品紹介
36.英語圏の話題
37.大道芸
38.映画
39.PHP
40.ダイエット
41.Mac
42.JavaScript
43.MySQL
44.介護
45.作品DB作品追加作業
46.BI
47.Web API
48.パフォーマンス
49.インターネットの活用方法
50.Riak
51.Androidアプリ開発
52.Cassandra
53.スパム
54.写真
55.iOSアプリ開発
56.AWS
57.マーケティング
58.Web漫画
59.法律
60.mongodb
61.開発環境整備
62.Google Apps Script
63.meteor
64.Pentaho
65.Ansible
66.VPS
67.技術書メモ
68.Vagrant
69.Docker
70.dokuwiki
71.Apple Watch
72.Webサービス
73.セキュリティ
74.Elastic Search
75.Wordpress
76.クラウド
77.英語
78.MVNO
79.シンガポール
80.マレーシア
81.海外生活
日記の主な内容
サイト運営/開発
検索エンジン情報
・技術ネタ(Berkeley DB,
Linux, Perl, サイト作成)等

サイト管理
全まとめ
サーバー管理
定期処理状況
開発予定
削除提案
作品追加依頼
OP/ED追加依頼
OP/ED not found
作品提案承認欄

格言 fromスクライド
この世の理は即ち速さ
20年かければ馬鹿でも
傑作小説を書ける

助けられたら助け返す
それが俺のルール

強くなるには
一番弱い考えをする事だ
そしてその考えに反逆する




右側に何か入れてみるテスト


仕事でのサイト
介護DB
Helpyou
Doctor career
Nurse career
上へ ↑上へ 最速検索作品DB皆声