Как искать?
Всемирные поисковые системы и каталоги уже
довольны известны по всему миру даже тем, кто практически ничего не знает о
развитии компьютерных, а тем более, Internet-технологий. С каждым годом к их
услугам обращается все больше людей, однако вот тут и возникает вопрос: "А
как искать?" Ответ на него довольно прост и лаконичен.
Наиболее распространенным в Интернете является
поиск по ключевым словам, т.е. поиск документов, которые содержат в точности
указанный текст.
Менее распространен поиск с использованием операндов
булевой алгебры, таких, например, как AND, NOT и OR. Использование операндов
существенно увеличивает эффективность поиска. Если ввести в поисковую систему
запрос: (толстый OR крупный) AND богатый AND (NOT умный). Мы получим линки на
страницы, отвечающие следующим критериям:
Новинка в области поиска в Интернете - Proximity
search (поиск с расстоянием). Это поиск, при котором пользователь указывает, на
каком расстоянии между собой должны располагаться ключевые слова в документе.
Например, для русскоязычной поисковой системы "Яndex" (www.yandex.ru) при запросе: "толстый /4 богатый" Вы требуете
найти документы, в которых содержится и слово "толстый", и слово
"богатый", и расстояние между ними должно быть не более четырех слов.
Еще один вид поиска - Query-By-Example (find
similar, найти подобные). Этой полезной функцией обладает лишь часть поисковых
систем. При просмотре результатов первоначального поиска Вы выбираете документ
или группу документов, наиболее близких к тому, что Вы ищете, и даете системе
команду "найти подобные документы" (Апорт (www.aport.ru), Яndex).
Очередной поиск - расширенный запрос (Query
Expansion) - процесс построения нового запроса на базе предыдущего. Например,
одна из наиболее известных поисковых систем - AltaVista (www.altavista.com) - позволяет разрядить многотысячный список с результатами
поиска путем удаления оттуда документов по определенным критериям.
Поиск в определенных полях (Search by Field)
позволяет производить поиск не только по всему html-документу, но и выборочно,
по определенным полям. Например, можно искать по заголовку документа (title), в
этом случае учитываются только ключевые слова, встречающиеся именно в заглавии
документа.
Существует поиск по полю ALT тега IMG, такой поиск
используется при нахождении в Интернете изображения на определенную тему.
Возможен и поиск по текстам в гиперссылках,
адресах, заголовках разделов. Например, в российской системе Рамблер (www.rambler.ru) по запросу "$TITLE: реклама and $URL: ресурсы"
система найдет все страницы, содержащие слово "реклама" в заголовке,
и, помимо этого, хотя бы одну имеющуюся на странице ссылку, содержащую слово
"ресурсы".
Морфологический поиск (Stemming): возможность
системы искать слово в документах не только в строго заданном виде, но и во
всех его морфологических формах. Например, не только "идти", но и
"идет", "шел" и т.д. Явный пример этого поиска - каталог
"Yahoo!".
В мире поиска Internet существует такое понятие,
как "Weighting" (Весовой коэффициент). Он способствует увеличению
релевантности документа не только с помощью количества содержащихся в нем
ключевых слов, но и по расположению в документе. Больший "вес" имеют
слова в заголовке страницы, слова, выделенные тегами <H1-H6>, <B>,
<STRONG>, слова, находящиеся ближе к тегам <HTML> и <BODY>
документа.
При поиске пользователь может также указывать
системе важность того или иного слова в запросе. Например, в системе "Рамблер"
по запросу: "-Коза ++Овца" при выдаче результатов большую
релевантность получат страницы, содержащие "Овца", меньшую -
"Коза".