所謂全文型検索エンジンの実装をしました=>全作品検索が利用できるようになりました

総閲覧回数:4,022,642回 / ブログ拍手:2,623
作品DB等各サービスの機能追加情報や、技術系・面白系記事を中心に提供。
記事の投稿は基本Twitterでも告知させて頂いています。
連絡は作品DBの論客の方なら私書、DB外ユーザの方ならメールTwitterで可能です。
アクセス記録[推移 / PV内訳(過去1日 / 過去1週間) / 外部アクセス元 (昨日 / 過去1週間) / ログイン論客足跡]
プロフィール私書(メール)
   /   /送済
評価(一覧   /)
投票   /共:   /
ファン登録
作品/情報/
DB構築()
ブログ
[書く]
攻略記事リンク集
My Play List
<=次の記事 確定申告
=>前の記事 削除提案理由の追加

1.
2007/03/07 作品DB開発/運用 > 所謂全文型検索エンジンの実装をしました=>全作品検索が利用できるようになりました」
[この書込みのみ表示(記事URL紹介用) / 編集 / 削除 / トラバ送信 / 共有分類に追加(タグ付け)]

全ジャンルを対象とした検索機能は、実は今までも機能はあったのですが(最速一括検索から利用できた)、負荷の軽減の為分野別しか目立つところからは選べなくしていました。
それは今までの検索が作品数が増えると検索の負荷が比例して増えるgrep型(全部読んで探す型)検索であった為ですが、雪霞さんに
http://www.accessup.org/anime/tree/answer.asp?id=231&cat=anime%2560operation&lang=j
でご提案を頂いたこともあり、この度作業予定を早めて転置インデックス型(本の後ろの単語目録利用型)検索を実装させて頂きました。
今のところこの仕組みの適用範囲は作品系です(情報DBと論客の方にはしていません)。

grep型検索(旧)と転置インデックス型検索(新)の機能の差としては以下のようになります。
機能grep型検索(旧)転置インデックス型検索(新)
仕組み本の最初から最後まで読み込んで、部分一致する場所を探す単語が合致するものを探す。本の末尾の単語リストから該当ページを探す仕組み。
検索漏れ無い。但し意味を考えず、字面しかみないので(「東京都」という文章を「京都」という語でもヒットさせてしまう)、必要以上にヒットしてしまうこともある。文章から単語を切り出す辞書と検索語の整合性で上手くヒットさせれないこともありうる
検索速度検索対象文章量に比例して遅くなる。文章量が少ない時は良いが、多くなると遅い検索対象文章量が増えてもそんなに遅くならない。速い
更新性対象文章が更新されたら即座に検索可能になる対象文章が更新されても即座には更新されない。インデックス(=本の後ろの単語とページの関係リスト)生成作業が別途必要。インデックス生成作業は負荷が高い
AND検索出来ない出来る 例:「ハサウェイ ガンダム」 http://www.accessup.org/anime/search.asp?lang=j&kind=temp&key=%A5%CF%A5%B5%A5%A6%A5%A7%A5%A4+%A5%AC%A5%F3%A5%C0%A5%E0&hp=
フレーズ(連語)検索出来ない出来る 例:「"quest 8"」 http://www.accessup.org/anime/search.asp?lang=j&kind=temp&key=%22quest+8%22&hp=

転置インデックス型検索は、所謂GoogleやYahoo!などの検索エンジンと同じ仕組みと思って頂いて結構です。
作品を検索するという意味では、同じ検索機能ですが、検索の仕組みは全く異なる+転置インデックス型検索の方が仕組みが遥かに複雑なので、問題を見つけられましたら御知らせ宜しく御願い致します。

なお、新規作品登録の検索時は、検索漏れ除外を優先する為、処理が遅いですが今のところgrep検索のままにしておきます。
また、検索の仕組みの変更の結果、このままだと、新規登録されたら即検索できるというわけではなくなってしまいますが、新規登録された作品の分は当日はgrep検索、あとは定時に転置インデックスに組み込み、というコンビネーションでの検索を実装することで、即検索できるようにしようと思います(これはまだ実装していません)。

コメントする


雪霞 さんのコメント (2007/03/07) [編集/削除(書込み者/所有者が可能)]
管理人さん

なんと、こんなに早く実装していただけるとは。ありがとうございます !
これで、関連作品を探したり、日本映画だか特撮だかよくわからない作品を見つけたりするのが楽になります。
ためしに 「ガンダム」 で全ジャンル検索をしてみたら、132 件も出てきました――。こんなにあるのか、ガンダムと名の付くものが。
↑ (追記) 運用掲示板の方を読む前にここにコメントつけてしまったので、少し表現がずれてます(汗)。管理人さんもガンダムで検索されていたとは……。


[他の記事も読む]
<=次の記事 確定申告
=>前の記事 削除提案理由の追加


大分類が「作品DB開発/運用」の記事
この論客の記事全て
↑上へ