2010年4月24日土曜日

Solrの創始者によるチュートリアルに参加 はてなブックマーク



22日(木)に、麻布十番近くの国際文化会館で、 次世代サーチ・テクノロジー・フォーラム2010があった。

その前日、21日(水)には、プレイベントとしてSolrプロジェクト創設者のヨニック・シーリー(Yonik Seeley)氏のチュートリアルがあった。来日して講演というのはなかなかない機会なので、両日とも参加してきた。

ちなみに21日のチュートリアルは25,000円、22日のフォーラムは無料。

Solrチュートリアル


参加者は二十数名だった。
一般的な相場と比べても参加費がそれほど高いわけでもなく、すべてのオープンソースプロジェクトの中でもトップレベルの人気があるというSolrの、開発者直々のチュートリアルにしては、少ないように思える。

日本でのSolrの知名度の低さもあるだろうが、告知がうまくいかなかったのかなと思った。内容がよかっただけに、もったいない。

でもその分、参加者はモチベーションが高い人が多かったようで、既にSolrを使っている人も多く、質問も活発だった。

外国人の参加者も数名いた。翌日のフォーラムに参加していた会社の人達だったみたいだ。

講義は逐次通訳で行われた。内容が難しくなると、翻訳するのが大変そうだった。

アジェンダ

・Intro to Solr
・Basic Indexing
・Basic Searching
・Basic Faceting
・Faceting Deep Dive
・Trie Fields
・Distributed Search
・1.5 Preview
・Questions and Answers

Solrで驚くのは圧倒的なパフォーマンスとスケーラビリティだ。

最後のQ&Aでは、実際に動いている最大規模の構成について話があったのだが、
100個のシャード(shards)に分割して、56億ドキュメントを扱っている事例があるそうだ。
この規模でも、1秒以内で結果を返すらしい。

Solrでは1.4から分散検索(Distributed Search)という仕組みが導入されたのだが、シャードというのはその分散したひとつひとつのサーバーインスタンスのこと。

また、Wikipediaのデータを使って、10億ドキュメントを生成し、100シャードに分けてEC2上でテストしたときは、平均のレスポンスが50ms未満だったらしい。

Solrは扱いやすく、高性能、高機能で、他のオープンソース検索エンジンとは一線を画す検索エンジンだ。
日本ではSennaやHyper Estraierが有名だが、数百万の文書ならともかく、もっと大規模な検索を扱うのは厳しい。これからはSolrやLuceneがどんどん使われていくようになると思う。

ただ、国産プロジェクトとは違って、日本語の情報が少なかったり、日本語を扱うノウハウが必要だったりするところがあるのも事実ではある。

僕はなんだかんだで2年くらいSolrを使っているし、数千万件のデータを扱うECサイトにSolrを導入したりしているわけで、そのへんのノウハウもある。Solrの講義や導入コンサルみたいな仕事をすることもできるんじゃないかと、ふと思ったりした。

長くなったので一旦このへんで。

0 件のコメント:

コメントを投稿