Информатика для юристов и экономистов


Поиск информации в World Wide Web - часть 6


Понимание критерия «полезности» для клиента той или иной ссылки может быть самым разнообразным. Именно поэтому разные поисковые системы, даже работающие с одинаковыми базами ресурсов, выдают разные результаты поиска.

Прежде всего, при ранжировании учитывается количество появлений ключевых слов в Web-документе. Принцип «чем больше, тем лучше» достаточно очевиден, но не слишком корректен. На самом деле хорошо, когда искомое слово появляется достаточно часто в начале документа, в его первых 5-10 абзацах, а прочие части документа учитываются меньше. Очень хорошо, когда ключевые слова встречаются в заголовках документа и в подрисуночных подписях.

Интеллектуальные системы могут проверять также наличие сопутствующих слов. Так, например, по результатам анализа содержимого множества Web-страниц, выполненного еще на этапе индексации, может быть установлено, что словам электронная коммерция очень часто сопутствуют слова цифровая подпись и платежные системы. Если поисковая система об этом знает, то, получив от клиента запрос на поиск по словам электронная коммерция, она в вершине списка расположит те Web-страницы, на которых также встречаются упоминания о цифровой подписи и о платежных системах.

Всюду, где можно, автоматические системы стремятся полагаться на «человеческий фактор». Автоматической системе сделать это непросто, но специальные технологии имеются. Так, например, еще на этапе индексации высокий рейтинг могут получать те страницы, на которые имеется больше ссылок с других Web-страниц. Поскольку гиперссылки создают люди, а не машины, то этот факт можно использовать в качестве субъективной оценки более высокой «полезности» тех документов, которые чаще цитируются.

В рамках этой книги мы не можем охватить все те приемы, которые используют поисковые системы на этапе формирования результирующего списка, но роль этого этапа трудно переоценить. Попробуйте работу с несколькими поисковыми системами и посмотрите, как у них обстоит дело с фильтрацией и ранжированием результатов.


Начало  Назад  Вперед