Представленная ниже таблица включает характерные особенности работы основных автоматических поисковых систем (автоматические поисковые системы - те, которые для наполнения своей базы используют поисковых роботов).

Показаны основные факторы, влияющие на индексирование и последующие ранжирование сайтов.

Поисковые каталоги, которые наполняются людьми, имеют иные особенности работы и в данной таблице не представлены.

 


 




В таблице представлены сведения на 1 Июня 2000 г. Данные охватывают характеристики поисковых систем AltaVista, Excite, FAST Search, Go (Infoseek), Google, Lycos and Northern Light в той их части, которая создается с использованием поисковых роботов. Также таблица включает характеристику работы Inktomi в части, которую используют в своих результатах AOL Search, HotBot and MSN Search. Excite представлен в той доли, которая принадлежит Magellan и WebCrawler.  
Наполнение базы Да Нет Коммент.  
Глубина индексации AltaVista, FAST, Google, Inktomi, NLight Excite, Go, Lycos  
Немедленная индексация AltaVista
(страницы появляются в течении нескольких дней)
Excite, FAST, Google, Go, Inktomi, Lycos, NLight,  
Поддержка фреймов AltaVista, FAST, Google,
NLight
Excite, Inktomi,
Go, Lycos
 
Image Maps AltaVista,
Go, NLight
Excite, FAST, Google,
Inktomi, Lycos
 
robots.txt All не определено  
Мета-тэг ROBOTS All n/a Google может не поддерживать (проверяется)
Влияние рейтинга популярности на глубину индексации Inktomi, Lycos AltaVista, Excite, FAST, Go,
NLight
 
Частота изменения AltaVista, Go, Inktomi, Excite, FAST, Google, Lycos, NLight  
Проверка URL Подробнее: >>Проиндексирован ли мой сайт? <<
Индексация Да Нет Коммент.
Полнотекстовая Все не определено Некоторые стоп-слова могут быть не проиндекси-рованы
Стоп-слова AltaVista, Excite, Inktomi, Lycos, Google FAST, Go, NLight  
Мета-тэг DESCRIPTION Все, кроме... FAST, Google, Lycos, NLight  
Мета-тэг KEYWORDS Все, кроме... Excite, FAST, Google, Lycos, NLight  
Текст в атрибуте ALT AltaVista,
Go, Google, Lycos
Excite, FAST, Inktomi, NLight  
Текст в комментариях Inktomi Остальные  
Поиск однокоренных слов Подробнее >>Скоро появится<<
Ранжирование Да Нет Коммент.
Влияние мета-тэгов Go, Inktomi AltaVista, Excite, FAST, Google, Lycos, NLight  
Перечисление в каталогах Go AltaVista, Excite, FAST, Google, Inktomi, Lycos, NLight  
Рейтинг популярности AltaVista, Excite, FAST, Google, Go, Inktomi, NLight Lycos Очень важно
для Google
Direct Hit HotBot, Lycos Остальные  
Спам Да Нет Коммент.
Мета-refresh AltaVista,
Go, Lycos
Excite, FAST, Google, Inktomi, NLight  
Невидимый текст Остальные Excite, FAST, Google  
Мелкий текст AltaVista, Inktomi, Lycos Excite, FAST, Google,
Go, NLight
 




 

 



Наполнение базы

Глубина индексации

Каждый сайт может состоять из нескольких страниц - от двух-четырех - до нескольких сотен.
Данный показатель характеризует количество страниц, попадающих в базу поисковой системы. Точные сведения здесь не представлены. Показано сравнение по системе "больше-меньше".
Поисковые системы вроде AltaVista, FAST, Google имеют бОльшую глубину индексации, чем Excite, Go, Lycos. Первые индексируют даже те страницы, которые не представлены им напрямую (т.е. переходят по ссылкам).
Вообще, вероятность занесения в индекс поисковой системы как можно большего количества страниц узла будет тем выше, чем больше объем индекса. Подробнее об этом в статье "Размеры поисковых систем" (она готовится к выходу).

С фреймами у поисковых систем обычно бывают проблемы. Дело в том, что основная страница, несущая структуру фреймов, никакой информации не имеет, и, следовательно, не представляет для поисковой системы никакого интереса. Наоборот, те файлы, на которые ссылается эта основная страница, как раз и являются носителями всего содержания. Так вот, некоторые системы умеют использовать ссылки и переходить на страницы с содержанием, а некоторые - нет.
Сей фактор покажет вам кто есть кто, а проблему фреймов мы будем обсуждать в одном из выпусков рассылки.

Image Maps

Image Map - это графическое изображение, которая  вставляется в страницу, причем в HTML-коде оно при помощи координат разбивается на участки, которым присваиваются ссылки. Т.е. на них можно нажимать также, как и на другие элементы, снабженные гиперссылками.
Примером этого может служить сайт студии веб-дизайна:
Здесь, так же как и с фреймами, у некоторых поисковых систем возникают проблемы: почему то не могут они перейти по ссылке с участка картинки.
Данную проблему мы также рассмотрим в одном из последующих выпусков рассылки.

robots.txt

Если у вас на сайте кроме общедоступной информации имеются еще и сведения для узкого круга лиц (например, что-то вроде проекта "VIP"-клуб), то вряд ли вы захотите, чтобы ее увидели те, кто не входит в сей узкий круг.
Поэтому, чтобы роботы не лезли куда их не просят (а они очень любопытные), придумали способ ограничения их бурной деятельности.
Вы содаете в корневом каталоге сайта файл robots.txt, в котором указываете какие файлы робот имеет право рассматривать, а какие - нет.
"Порядочный" робот послушается и не станет лазить везде.
 А вообще, все это подробно описано в "Стандарте исключений для роботов", который расположен по адресу: http://info.webcrawler.com/mak/projects/robots/exclusion.html

Мета-тэг ROBOTS

ROBOTS - это специальный мета-тэг для тех, кто по каким-то причинам не хочет создавать файл robots.txt. Тэг прописывается на тех страницах, которые не подлежат индексации роботами (всеми или некоторыми).
 

Влияние рейтинга популярности на глубину индексации

Все поисковые серверы могут определять популярность страницы, анализируя количество ссылок на нее с других страниц. На основании этого, некоторые поисковики решают вопрос о включении данной страницы в свой индекс.
Этот рейтинг популярности отличается от того, что используется при ранжировании страниц (о нем - ниже).
Какой же смысл этого показателя? Я думаю, что он показывает полезность данной страницы. Действительно, если на вашу страницу никто не ссылается, то вы не занимаетесь ее раскруткой и к вам приходит мало посетителей. Это приводит к тому, что данные, представленные на вашем сайте, мало кому нужны. Никто не поставит на них ссылку. Так зачем засорять индекс?
С другой стороны, существует вероятность что информация на вашем сайте весьма ценная. Тогда, получается, что поисковая система лишит своих пользователей нужной информации. А это - БОЛЬШОЙ минус.
Возможно с этим и были связаны проблемы, которые возникли у меня в связи с индексацией сайта www.instantdict.com. На него не было ссылок.
Так что создавайте ссылки. Лучше всего с уже проиндексированных сайтов.

Частота изменения

Некоторые сайты меняются редко, некоторые вообще не меняются, а какие-то - каждый день.
Чтобы представить пользователю как можно более свежую информацию, поисковый робот должен периодически обходить сайты. Чем чаще сайт меняет свое содержание, чем чаще его посещает поисковый робот.

Проверка URL

Когда вы отправили запрос на индексацию вашего сайта, вам, через некоторое время, обязательно захочется проверить проиндексирован ли он. Многие поисковые системы позволяют сделать это при помощи специальных команд.
Подробнее об этом вы сможете прочитать в статье "Проиндексирован ли мой сайт?", которая скоро появится.

Индексация

Данный раздел поясняет как поисковая система индексирует страницу после занесения ее в базу данных.

Полнотекстовая индексация

Все главные поисковые системы заявляют, что они индексируют весь видимы текст страницы.
Однако, здесь есть нюансы: некоторые не индексируют стоп-слова и излишне повторяемые ключевые слова, расценивая последние как спам (подробнее об этом вы узнаете ниже).

Стоп-слова

Вас интересуют, скажем, предлоги "в" и "на"? Будете искать страницы, где они встречаются?
Конечно, нет. Вот и поисковые системы не хотят засорять свою базу данных этими словами. Поэтому многие поисковые сервера не проводят индексацию по таким словам или не принимают их во внимание при поисковом запросе.

Текст в комментариях

Некоторые поисковые системы при индексации обращают внимание даже на слова в тэгах комментариях. Я сказал "некоторые", хотя в таблице указана лишь одна. Дело в том, что базой поисковой системы Inktomi пользуются очень многие поисковые сервера.

Поиск однокоренных слов

Некоторые поисковые системы найдут вам страницы, в которых встречаются слова, однокоренные к тем, что вы указали в запросе.

Индексация

Повышения рейтинга сайта "в глазах" поисковой системы - главная цель всего нашего проекта. Этому вопросу посвящены большинство статей и выпусков рассылки. Ну а в данной таблице перечислены некоторые характерные факторы, влияющие на релевантность страницы. Т.е. те, которые есть у одних поисковых систем, но нет у других.

Влияние мета-тэгов

Некоторые поисковые системы все-таки поднимут рейтинг страницы, если ключевые слова из запроса будут перечислены в мета-тэгах DESCRIPTON и KEYWORDS.

 

Рейтинг популярности

Большинство поисковых систем могут определять популярность страницы, анализируя количество ссылок на нее с других сайтов. Некоторые поисковые системы, например, Google, придают этому большое значение

Direct Hit

Прямое Нажатие - система, которая измеряет то, какие пользователи нажимают по от результатов поиска, чтобы очистить ранжирования уместности. Это показывает, который поисковые серверы используют это как фактор. Для получения дополнительной информации, см. статью(изделие) ниже:

Direct Hit - это система, которая определяет количество кликов на ссылки в результатах поиска. Другими словами, Direct Hit считает количество посетителей, пришедших на сайт с поисковых систем. Это похоже на обычный рейтинг посещаемости, вроде РамблерТоп100 или ТопЛист. Но здесь учитываются только посетители, пришедшие с поисковых серверов.
Некоторые поисковые системы принимают значения Direct Hit в качестве дополнительного фактора определения релевантности.
 

 

Спам

Спам - это обман. Поисковые системы не любят когда их обманывают (а кто любит). Обнаружив такого обманщика, они его просто выкидывают из своей базы данных.
Типичным способом обмана является слишком большое количество ключевых слов (оценки здесь разные: от 5% до 20% от общего количества слов в документе). Более подробная и точная информация об этом содержится в платной части сайта www.searchenginewatch.com, поэтому пока нам недоступна. Но, надеюсь, скоро эти данные мы получим в рамках проекта VIP-клуб
Ну, а здесь рассмотрим еще парочку деталей, которые поисковая система может расценить как спам.

Мета-refresh

Некоторые владельцы сайтов автоматичестки перенаправляют посетителей на нужную страницу с множества различных страниц, на которых нет смыслового содержания, но зато они имеют достаточно высокий рейтинг в поисковых системах (их начинка специально подгоняется для определенных ключевых слов).
Многие поисковики расценивают сие как спам и не индексируют страницы с мета-refresh. Хотя, например, Google это не особенно волнует, т.к. его система определения релевантности весьма спамоустойчива

Невидимый текст

Еще одно ухищрение. Текст делается цветом таким же, как и фон. Для посетителей его не видно, а вот в HTML-коде он прекрасно заметен. Но большинство поисковых систем не станет индексировать такие страницы.

Мелкий текст

Это вариация предыдущей методики. Но здесь текст просто очень мелкий и составлен преимущественно из ключевых слов. Он, конечно, может быть элементом дизайна, но если его много - это явный спам. И такие страницы... Правильно! Не будут индексироваться.