http://trac.whoosh.ca/
かなり新しいプロジェクトみたいなので、うまくいってほしい。
アナライザとかn-gramとかいう単語もページ中にちらほら見かけるので、きっとCJK系も
扱える。サイト内にも、完全unicode対応とあった。
とりあえずトップページから「Whooshの特徴」とでもいった部分を抜き出して訳しておく。
Some of Whoosh's features include:
Whooshはこんな特徴とかがあるよ:
* Pythonic API.
python風なAPI
* Pure-Python. No compilation or binary packages needed, no mysterious crashes.
ピュアpython。別途コンパイルが必要なものはない。だから謎のクラッシュも起こらない
* Fielded indexing and search.
フィールドに分けた索引検索ができる
* Fast indexing and retrieval -- much faster than any other pure-Python solution.
高速な索引生成と検索。ピュアpythonなものの中ではダントツ早い
(C/C++製のものにはさすがに負けるけど)
* Pluggable scoring algorithm (including BM25F), text analysis, storage,
posting format, etc.
適合度のアルゴリズム、アナライズ、格納、ポストするフォーマット等がプラグインで
入れ替え可能
* Powerful query language parsed by pyparsing.
検索式が強力。pyparsingを使える
* Pure Python spell-checker (as far as I know, the only one).
ピュアpythonなスペルチェッカー。たぶんWhooshが唯一
pyLuceneとかが結局java必要だったりして悶々としていたので、これは注目しておこう。っていうか、近くちゃんといじってみよう

0 コメント:
コメントを投稿