Локальный поиск

Важная сфера применения поисковых технологий — локальный поиск по отдельному Web-серверу. Его можно организовать несколькими способами. Например, можно настроить поисковую систему так, чтобы данные о Web-узле хранились в общем индексе поисковика, а машина выдавала ссылки только на этот узел. Так работают, например, Rambler и “Апорт”. Это решение достаточно простое и бесплатное, но имеет свои ограничения. Поскольку поиск выполняется на основе индекса поисковой машины, меняющегося раз в неделю, то при такой организации и изменения сервера не сразу будут заметны.

Если сервер меняется достаточно часто, то лучше использовать локальный поиск с помощью специализированной поисковой машины, которая устанавливается на Web-сервер и индексирует только его. Сейчас таких продуктов два: YandexSite компании CompTek и “Следопыт” компании MediaLingua. Все другие разработчики поисковых систем считают невыгодным создание отчуждаемого продукта для локального поиска, поскольку требуются слишком значительные вложения для поддержки и продаж. Например, Евгений Киреев полагает, что рынок для таких продуктов в России недостаточно развит, поскольку крупных русскоязычных Web-серверов мало.

Правда, для организации локального поиска можно купить не законченный продукт, а технологию — только поисковое ядро. Примером такого ведения бизнеса является поисковая служба Inktomi, которая задействуется многими западными серверами. При этом технология продается не любому покупателю, а тому, кто умеет с ней работать. Например, если владелец портала хочет использовать поисковую систему, ему не обязательно разрабатывать ее с нуля. Можно лицензировать какую-либо поисковую технологию и настроить ее под свои нужды. Кроме того, технология — это основа для различных платных служб.

Еще одним способом организации локального поиска являются поисковые агенты. Это программы, устанавливаемые на клиентскую машину и анализирующие информацию с Web-серверов. Они работают медленно, но позволяют более точно настроить механизм поиска и искать даже в тех местах, где поисковая машина не действует, например, в корпоративной сети без выхода в Internet. К сожалению, сейчас технология поисковых агентов еще развивается и может решать только очень узкий круг задач. Например, в Институте программных систем РАН ведется работа по созданию агента на Java для поиска книг в российских электронных магазинах.

Для полнотекстового поиска в базе данных можно использовать комбинированный механизм поиска. Работает он так: поисковая система строит индекс, в котором единицей является не документ, а запись в базе. При получении запроса от пользователя поисковик выдает информацию о том, в какой записи есть соответствующие слова, и дальше передает эту информацию в базу данных. Причем можно использовать как операторы SQL, так и логические операторы полнотекстового поиска. Например, такой механизм применен в @Rus, где реплика “Апорт” ищет информацию по 30 тыс. записей. Впрочем, сейчас большинство баз данных уже включают возможность полнотекстового поиска, к которой остается просто добавить русскую морфологию.

На главную