Привет из лаборатории CustIS! Кроме семинаров, встреч и собственно разработки :) у нас также проводятся исследования.

Сегодня у нас есть сравнение шести движков полнотекстового поиска — MySQL FULLTEXT, PostgreSQL Textsearch, Xapian, Sphinx, Lucene/Solr и CLucene.

Подозреваем, что если с MySQL знакомы все, с Postgres почти все, а с Sphinx’ом и Lucene многие, то Xapian и CLucene наверняка пробовали единицы. Точно так же сложно и найти о них исчерпывающую информацию в интернетах. Поэтому мы решили попытаться раскрыть (по крайней мере, приоткрыть) эту тему.

Сравнение — с точки зрения средненькой базы (~330 мб текстов), скриптового языка (Perl) и Debian’a. Под наш пристальный взгляд попали фичи поиска, производительность, размер индекса, интерфейсы к различным языкам, а также весьма любопытные болячки — например, в postgres лучше не делать полнотекстовый индекс функциональным, а в libc6 2.13 есть баг, время от времени не позволяющий Xapian инициализировать базу :) а ещё в процессе сравнения было найдено-запатчено-отправлено авторам некоторое число багов.

Читать здесь: Сравнение движков полнотекстового поиска.