Как ищут?

Обычно поисковая система представляет собой комплекс из нескольких компьютеров, каждый из которых выполняет свою часть работы. Например, “Апорт-2000” работает на 12 компьютерах под управлением Windows NT, Яndex — на шести, а Rambler — на трех Unix-серверах.

В поисковой системе должны быть роботы, которые получают страницы из Internet, анализируют их и подготавливают своеобразную выжимку информации, которая называется индексом поисковой системы. В индексе хранится информация, на основе которой поисковая система выдает ответы на запросы пользователей. Роботы, как правило, работают постоянно, накапливая информацию о расположении файлов в Internet, однако для пользователей она становиться доступной только через некоторое время. Полная и единовременная смена индекса необходима для корректной работы механизмов поиска и ранжирования документов. Анализ содержания Internet — процесс непростой, и обеспечить непрерывную обработку его результатов бывает сложно. Обычно используется следующая схема: робот работает непрерывно, а потом в определенный момент полученные результаты становятся доступны пользователю.

Информация в поисковой системе сначала накапливается и индексируется, а затем загружается на машины, которые выдают результаты пользователям. Накопленная роботом информация перегружается в генератор выдачи в определенные моменты времени. Период обновления индекса генератора у трех основных русскоязычных поисковых машин — Яndex, Rambler и “Апорт” — неделя. При этом Яndex и Rambler обновляют общедоступный индекс в выходные, а “Апорт” — в рабочие дни. Поэтому, зарегистрировав свой ресурс в поисковой машине, не следует сразу же искать ссылку на него в результатах поиска — он станет доступным только тогда, когда будет сменен индекс генератора.

В идеале за время, которое проходит от одной смены индекса до другой, поисковая система должна заново просмотреть и проанализировать все накопленные в ней локаторы ресурсов (URL). Но так бывает не всегда, и тогда в результатах выдачи поисковой машины появляются устаревшие или неправильные ссылки. Например, генеральный директор компании “Агама” Евгений Киреев признается, что в прошлом их поисковая машина “индексировала 1% российского Internet в день”. Причем в ее базе содержались ссылки примерно на “половину ресурсов русскоязычной части Internet”. Получается, что старый “Апорт” анализировал все свои URL примерно за 50 дней, то есть за шесть жизненных циклов поисковой системы. Киреев надеется, что “Апорт-2000” будет работать на порядок быстрее, что позволит обрабатывать всю базу URL за неделю.

Создатели Яndex уверяют, что их поисковая машина справляется с анализом накопленных URL за одну-две недели. Для этого используется механизм динамического изменения периодичности пересмотра URL. То есть если документ не менялся достаточно давно, то и его содержание можно проверять реже. Но как только машина заметила, что документ изменен, она будет анализировать его чаще, чем раньше. Таким образом, Яndex экономит время на анализе мало меняющихся документов.

Есть, конечно, ресурсы, которые обновляются каждый день, например Internet-газеты или ленты новостей информационных агентств. Использовать для поиска по ним существующие поисковые машины нельзя — информация в принципе обновляется быстрее, чем индексируется. Вероятно, поиск по новостным серверам должен выполняться отдельно, поскольку работа с ними сильно отличается от поиска в Internet вообще, и, вероятно, должна быть согласована с авторами ресурсов. Сейчас таких служб нет, но, возможно, они появятся.

В настоящее время все поисковые машины предоставляют и различные дополнительные услуги. Например, все поисковые системы позволяют выполнять так называемый нечеткий поиск, при котором сама машина определяет характерные для документа слова, генерирует запрос, а затем ищет по нему документы с аналогичными характерными словами.

На главную