Что такое "поисковые системы"?
Поисковые системы — стражи порядка в Internet. Они позволяют ориентироваться в Сети, которая изначально не структурирована. “В Internet невозможно ничего найти”, — возмущаются новички, и это действительно так. Порядок в Сеть призваны внести три технологии навигации: поисковые системы, каталоги и рейтинги. Возможно, в скором времени все они объединятся в единую службу навигации в Internet
World Wide Web - одна из наиболее динамично развивающихся технологий передачи и представления данных в глобальных сетях. Число Web-серверов и страниц постоянно увеличивается, а разобраться в этом многообразии становится все труднее. Шансы отыскать нужную информацию, просто двигаясь по гиперссылкам со странички своего Internet-провайдера, очень малы, плохим помощником является реклама в газетах и на телевидении, немного пользы и от разговоров с друзьями - всей этой информации просто недостаточно. Если Вы вошли в город WWW без карты, считайте, что Вы уже заблудились, а путь обратно найти будет практически невозможно... Так что же является такой "картой"
?Помочь пользователю найти нужную информацию в Сети призваны поисковые системы (Search engines). В поиске нужных ресурсов пользователь вводит одно или несколько ключевых слов, которые, по его мнению, лучше всего отражают суть интересующего вопроса. Поисковая система за считанные секунды просматривает весь собственный каталог web-ресурсов, состоящий из десятков и сотен гигабайт информации. В результате пользователю предлагается список ссылок на страницы, в которых встречаются указанные слова. Эта базовая схема поиска реализована с разнообразными улучшениями и расширениями практически на всех поисковых системах мира. В частности, существуют системы, позволяющие вводить запрос на естественном языке (например: "Что известно о..."), системы, в которых реализованы тематические каталоги для облегчения поиска, и т.д. Кроме того, почти все системы предпринимают попытки интеллектуального анализа содержимого страниц для улучшения качества поиска и вывода нужной информации.
Все поисковые системы (поисковые службы, поисковые серверы) делятся на поисковые машины (роботы, указатели) и поисковые каталоги. Понимание разницы между ними очень поможет при выборе инструмента поиска. Поисковые машины - это системы, состоящие из 2 частей. Одна из них (с ней работает пользователь) осуществляет поиск в своем справочнике web-страниц (он называется "индексом"). Другая часть - это сложная программа, которая постоянно связывается с Web-серверами по всему миру, загружает с них все доступные документы, анализирует содержимое и включает документы в индекс. Эта часть системы называется "краулером" (crawler, spider - "ползун"). Каждая поисковая система имеет своего собственного "спайдера" со своими собственными "повадками". Каждая система индексирует страницы своим особым способом, и приоритеты при поиске по индексам тоже разные. Поэтому, произведя запрос по определенным ключевым словам или выражениям, мы будем иметь разные результаты для каждой из поисковых систем.
В отличие от поисковых машин, информация в поисковые каталоги добавляется только по инициативе пользователя. Страница добавляется в строго определенный раздел каталога, который связан с темой, освещаемой на странице. Из таких разделов образуется мощный рубрикатор, двигаясь по которому можно обнаружить страницы по любой более-менее популярной теме. Впрочем, не обязательно двигаться по темам, в любом солидном каталоге есть система поиска, в которой также можно ввести ключевые слова, что значительно уменьшает затраченное пользователем время.
Также существуют некоторые поисковые системы (Excite, InfoSeek), которые имеют при себе и каталог. Соответственно, индексы для самой поисковой системы добываются "краулером", а каталог пополняется модераторами системы.
Иногда в Интернете встречаются полнотекстовые поисковые системы (Full-text search engine). Они индексируют абсолютно все слова и словосочетания на web-странице и учитывают порядок их расположения. В отличие от них, абстрактные поисковые системы по определенному алгоритму создают некий "экстракт" проиндексированной страницы, что значительно облегчает задачу поиска для пользователя.