2009年5月10日日曜日

Luceneの内部構造を見る1 はてなブックマーク

Solr内部で使われているLuceneの中身を見ていきたいと思います。

なお、ただ使うだけなら全く必要ない情報ですので、内部構造に興味がある
場合だけ読んでもらえればよいかと思います。

一番核となるインデックスファイルのフォーマットがここで公開されて いますので、
まずはこれから見ていきます。

Definitions」では、DocumentFieldTermの定義が書いてあります。
それぞれの関係はこんな感じ。


続いての「Inverted Indexing」とは、日本語で言うところの「転置インデックス」を作ることです。
Documentに対して単語が対応している状態から、単語(Term)をキーにして
Documentを対応づけることで、単語からDocumentを素早く検索できるようにします。
検索エンジンでは一般的な手法です。

こんなイメージです。(※実際は少し違うみたいです。)
次回に続きます。

0 件のコメント:

コメントを投稿