所謂全文型検索エンジンの実装をしました=>全作品検索が利用できるようになりました

[ガラケー版(QRコード)] 総閲覧回数:3,629,446回 / ブログ拍手:2,145
作品DB等各サービスの機能追加情報や、技術系・面白系記事を中心に提供。
記事の投稿は基本Twitterでも告知させて頂いています。
連絡は作品DBの論客の方なら私書、DB外ユーザの方ならメールTwitterで可能です。
アクセス記録[推移 / PV内訳(過去1日 / 過去1週間) / 外部アクセス元 (昨日 / 過去1週間) / ログイン論客足跡]
プロフィール私書(メール)
   /   /送済
評価(一覧   /)
投票   /共:   /
ファン登録
作品/情報/
DB構築()
ブログ
[書く]
攻略記事リンク集
My Play List
<=新記事2007/03/13 確定申告
=>古記事2007/02/19 削除提案理由の追加

1.
2007/03/07 作品DB開発/運用 > 所謂全文型検索エンジンの実装をしました=>全作品検索が利用できるようになりました」
[この書込みのみ表示(記事URL紹介用) / 編集 / 削除 / トラバ送信 / 共有分類に追加(タグ付け)]

全ジャンルを対象とした検索機能は、実は今までも機能はあったのですが(最速一括検索から利用できた)、負荷の軽減の為分野別しか目立つところからは選べなくしていました。
それは今までの検索が作品数が増えると検索の負荷が比例して増えるgrep型(全部読んで探す型)検索であった為ですが、雪霞さんに
http://www.accessup.org/anime/tree/answer.asp?id=231&cat=anime%2560operation&lang=j
でご提案を頂いたこともあり、この度作業予定を早めて転置インデックス型(本の後ろの単語目録利用型)検索を実装させて頂きました。
今のところこの仕組みの適用範囲は作品系です(情報DBと論客の方にはしていません)。

grep型検索(旧)と転置インデックス型検索(新)の機能の差としては以下のようになります。
機能grep型検索(旧)転置インデックス型検索(新)
仕組み本の最初から最後まで読み込んで、部分一致する場所を探す単語が合致するものを探す。本の末尾の単語リストから該当ページを探す仕組み。
検索漏れ無い。但し意味を考えず、字面しかみないので(「東京都」という文章を「京都」という語でもヒットさせてしまう)、必要以上にヒットしてしまうこともある。文章から単語を切り出す辞書と検索語の整合性で上手くヒットさせれないこともありうる
検索速度検索対象文章量に比例して遅くなる。文章量が少ない時は良いが、多くなると遅い検索対象文章量が増えてもそんなに遅くならない。速い
更新性対象文章が更新されたら即座に検索可能になる対象文章が更新されても即座には更新されない。インデックス(=本の後ろの単語とページの関係リスト)生成作業が別途必要。インデックス生成作業は負荷が高い
AND検索出来ない出来る 例:「ハサウェイ ガンダム」 http://www.accessup.org/anime/search.asp?lang=j&kind=temp&key=%A5%CF%A5%B5%A5%A6%A5%A7%A5%A4+%A5%AC%A5%F3%A5%C0%A5%E0&hp=
フレーズ(連語)検索出来ない出来る 例:「"quest 8"」 http://www.accessup.org/anime/search.asp?lang=j&kind=temp&key=%22quest+8%22&hp=

転置インデックス型検索は、所謂GoogleやYahoo!などの検索エンジンと同じ仕組みと思って頂いて結構です。
作品を検索するという意味では、同じ検索機能ですが、検索の仕組みは全く異なる+転置インデックス型検索の方が仕組みが遥かに複雑なので、問題を見つけられましたら御知らせ宜しく御願い致します。

なお、新規作品登録の検索時は、検索漏れ除外を優先する為、処理が遅いですが今のところgrep検索のままにしておきます。
また、検索の仕組みの変更の結果、このままだと、新規登録されたら即検索できるというわけではなくなってしまいますが、新規登録された作品の分は当日はgrep検索、あとは定時に転置インデックスに組み込み、というコンビネーションでの検索を実装することで、即検索できるようにしようと思います(これはまだ実装していません)。

コメントする


雪霞 さんのコメント (2007/03/07) [編集/削除(書込み者/所有者が可能)]
管理人さん

なんと、こんなに早く実装していただけるとは。ありがとうございます !
これで、関連作品を探したり、日本映画だか特撮だかよくわからない作品を見つけたりするのが楽になります。
ためしに 「ガンダム」 で全ジャンル検索をしてみたら、132 件も出てきました――。こんなにあるのか、ガンダムと名の付くものが。
↑ (追記) 運用掲示板の方を読む前にここにコメントつけてしまったので、少し表現がずれてます(汗)。管理人さんもガンダムで検索されていたとは……。


[他の記事も読む]
<=新記事2007/03/13 確定申告
=>古記事2007/02/19 削除提案理由の追加


大分類が「作品DB開発/運用」の記事
この論客の記事全て
RSS購読
RSS
ブログ表示スタイル
リスト/携帯(QRコード)
画像/動画/音声/リンク
表示開始年月
分類
全て
1.このサイトについて
2.作品DB開発/運用
3.ホームページ制作技術
4.Perl
5.C言語 / C++
6.検索エンジン&SEO
7.サッカー
8.自分のこと
9.Linux
10.旅行
11.思ったこと
12.パソコン
13.Berkeley DB
14.その他技術系
15.企画
16.スマートフォン
17.鑑賞
18.皆声.jpニュース
19.インターネット業界
20.運用マニュアル(自分用)
21.技術系以外実用書
22.料理
23.ALEXA
24.アニメ
25.会計
26.漫画
27.設計書
28.色々サイト作成
29.サーバー
30.自分専用
31.生活
32.OP/ED/PV
33.ゲーム
34.DB整備
35.新規開始作品紹介
36.英語圏の話題
37.大道芸
38.映画
39.PHP
40.ダイエット
41.Mac
42.JavaScript
43.MySQL
44.介護
45.作品DB作品追加作業
46.BI
47.Web API
48.パフォーマンス
49.インターネットの活用方法
50.Riak
51.Androidアプリ開発
52.Cassandra
53.スパム
54.写真
55.iOSアプリ開発
56.AWS
57.マーケティング
58.Web漫画
59.法律
60.mongodb
61.開発環境整備
62.Google Apps Script
63.meteor
64.Pentaho
65.Ansible
66.VPS
67.技術書メモ
68.Vagrant
69.Docker
70.dokuwiki
71.Apple Watch
72.Webサービス
73.セキュリティ
74.Elastic Search
75.Wordpress
76.クラウド
77.英語
78.MVNO
79.シンガポール
80.マレーシア
81.管理人さん
82.管理人さん
日記の主な内容
サイト運営/開発
検索エンジン情報
・技術ネタ(Berkeley DB,
Linux, Perl, サイト作成)等

サイト管理
全まとめ
サーバー管理
定期処理状況
開発予定
削除提案
作品追加依頼
OP/ED追加依頼
OP/ED not found
作品提案承認欄

格言 fromスクライド
この世の理は即ち速さ
20年かければ馬鹿でも
傑作小説を書ける

助けられたら助け返す
それが俺のルール

強くなるには
一番弱い考えをする事だ
そしてその考えに反逆する




右側に何か入れてみるテスト


仕事でのサイト
介護DB
Helpyou
Doctor career
Nurse career
上へ ↑上へ 最速検索作品DB皆声