Кого ищут

Кого ищут?

В современных условиях уже недостаточно просто опубликовать информацию в Сети, важно сделать так, чтобы ее находили. Поэтому владельцы ресурсов используют поисковые системы для “целенаправленной” выдачи информации именно тем, кто ее ищет. По сравнению с другими способами привлечения пользователей — рейтингами, баннерной рекламой и другими — поисковые системы показывают ссылку на ресурс именно тогда, когда она необходима пользователю. Однако не следует делать из поисковой системы рекламную службу и пытаться попасть на первые страницы выдачи результатов в наиболее популярных запросах. Если запрос, по которому ресурс найден, не соответствует содержанию Web-узла, пользователь быстро это поймет и уйдет навсегда. Поэтому основная задача регистрации какого-либо ресурса в поисковых системах — сделать так, чтобы его находили только те пользователи, которые в нем нуждаются.

Есть одно важное правило работы с поисковыми машинами — использование файла robots.txt, который располагается в корневом каталоге сервера. Этот файл описывает для поискового робота структуру сервера и указывает ему разрешенные и запрещенные для индексирования HTML-документы. Если в тексте встречаются элементы, которые не нужно индексировать, можно использовать теги <index> и <noindex>. Все российские поисковые системы используют файл robots.txt и указанные выше теги при анализе содержания сервера. Причем если известно имя робота конкретной поисковой системы, то можно установить доступ к документам сервера только для него. Это полезно, если на сервере есть закрытая информация, которая не предназначается для широкой публики.

Следует отметить, что для любой уникальной страницы найдется такой запрос, при котором она будет первой в результатах выдачи поисковой машины. Таким образом, для привлечения внимания к ресурсу достаточно сделать его уникальным. Впрочем, это утверждение справедливо только для классических поисковых систем, которые генерируют результаты выдачи, основываясь лишь на анализе гипертекста. Некоторые же машины при сортировке результатов используют дополнительную информацию о странице, получаемую из других источников. Для них приведенное выше утверждение может оказаться несправедливым.

Как только Web-узел занесен в систему, у его владельцев возникает вопрос — как оказаться на первых двух страницах выдачи результатов? Для этого важно знать, как система вычисляет релевантность документа, то есть ранжирует его при выдаче результатов. У большинства западных поисковых систем и у некоторых российских нет явного описания алгоритма ранжирования. Чаще всего основным параметром является процент слов из запроса, которые присутствуют в документе. Однако ранжирования по количеству слов обычно недостаточно, и поисковые системы часто используют также элементы разметки. Например, “Апорт” с более высоким приоритетом учитывает слова в заголовках. Если слово запроса есть в заголовке документа, то оно засчитывается за десять обычных слов. Аналогичным образом в новом “Апорт-2000” будут учитываться тексты внутри ссылок, выделения более крупным шрифтом или другим цветом. Rambler при ранжировании документов использует восемь уровней важности содержащейся в них информации.

Нужно отметить, что классические поисковые машины работают в основном с HTML-страницами. Но редко кто из владельцев серверов хранит большие объемы информации в HTML, — скорее всего, вся информация содержится в какой-либо базе данных. Базы данных, размещенные в Web, не всегда доступны путем последовательного просмотра, ведь они очень часто используют параметры, которые поисковая система не может самостоятельно генерировать. Поэтому ни одна поисковая система не анализирует странички с параметрами (те, в которых есть знак вопроса). Другой проблемой, по словам Аркадия Воложа, генерального директора компании CompTek, которой принадлежит Яndex, являются серверы, для каждого HTML-документа генерирующие свой уникальный URL. Примером такого Web-сервера является Lotus Domino, при индексировании которого поисковая машина может попросту зациклиться.

При использовании в своем Web-сервере базы данных необходимо учитывать его возможное индексирование какой-либо поисковой машиной. Например, где-нибудь на сервере публиковать его полную структуру, со ссылками на все хранящиеся в базе записи. Вообще же, можно предусмотреть в структуре Web-сервера специальные страницы для поисковых систем, через которые робот быстро и эффективно доберется до всех документов узла.

Владельцы поисковых систем также спорят о том, использовать ли ключевые слова при вычислении релевантности. Тег <Meta> был задуман именно для того, чтобы роботы могли получать дополнительную информацию о документе, написанную человеком специально для них. Однако некоторые нечистоплотные владельцы ресурсов стали злоупотреблять этой возможностью для привлечения внимания к своим серверам и помещали в теге <Meta> наиболее популярные слова, взятые из статистики поисковой системы. В результате многие поисковые системы игнорируют этот тег. На Rambler об этом сказано явно, там имеются пояснения, что поисковая система будет анализировать документ так, как его видит пользователь, а не так, как его хотят показать владельцы ресурса. “Апорт” и Яndex не игнорируют ключевые слова.

Не нужно делать сервер, оптимизированный под какую-либо конкретную поисковую систему. Каждая из них анализирует параметры HTML-страниц по своему алгоритму и в результате по-разному оценивает релевантность документа. Есть приемы, которые позволяют сделать сервер более доступным через поисковую систему, но эти методы могут входить в противоречие при использовании для разных поисковых систем. У двух российских поисковых систем — Яndex и Rambler на сервере есть раздел, в котором их авторы приводят рекомендации по правильному составлению документов. Наиболее общие советы можно найти в приведенных врезках.

Киреев рассказал о своем опыте работы с иностранными поисковыми системами: “Мы зарегистрировали свою поисковую систему в AltaVista, меняли страницу и смотрели, как повлияет это на результаты выдачи AltaVista. Результаты были очень загадочными, мы так и не смогли ничего понять, а потом вдруг наш сервер оказался чуть ли не первым по тем запросам, которые нас интересовали. Правда, по времени это совпало с регистрацией нашего сервера в службе RealNames, в которой можно зарегистрировать за деньги свой Web-узел по определенным ключевым словам. Оказалось, многие поисковые системы обмениваются информацией с этой службой и используют полученные данные для сортировки и поиска”.

Одно время AltaVista даже явно отличала ресурсы, найденные в свободном поиске, от документов, зарегистрированных в RealNames. Логика у такой работы есть, хотя она и не согласуется с “теоремой поиска”, приведенной выше. Если владелец ресурса заплатил определенные деньги за регистрацию своего ресурса, то это серьезный проект, а не персональная страничка. Следовательно, она более качественна и представляет больший интерес для посетителя. В России есть аналогичная служба, но она не стала стандартом и не учитывается в поисковых системах. Впрочем, российские поисковые системы развиваются по другому пути — интегрируются с каталогами ресурсов. Так, “Апорт-2000” будет выдавать результаты, учитывая информацию, найденную в каталоге @Rus-Ау!. Яndex ведет работы по интеграции с каталогом List.ru, правда, они еще далеки от завершения.

На главную