Информатика для юристов и экономистов


Поиск информации в World Wide Web - часть 5


Нежелательно задерживать клиента более чем на доли секунды, поэтому собранные базы данных проходят предварительную обработку, называемую индексацией. На этапе индексации создаются специализированные документы — поисковые указатели.

С простейшим указателем вы знакомы по работе с учебными пособиями. Нередко в конце книг приводится предметный указатель, с помощью которого можно по термину быстро найти страницу книги, на которой этот термин раскрывается. Аналогично устроены и поисковые указатели. Простейший тип поискового указателя называется обратным файлом. Это просто словарь, в который входят все слова, встреченные при просмотре Web-ресурсов. Против каждого слова приводится список ссылок, указывающих на местоположение соответствующих ресурсов в базе данных.

При получении списков ключевых слов от пользователя просмотр поискового указателя происходит очень быстро, так как он предварительно отсортирован по алфавиту. В результате клиент достаточно быстро получает список ссылок с интересующими его Web-ресурсами.

Рафинирование результирующего списка. Это третий этап работы, в ходе которого осуществляется взаимодействие с пользователем. На этом этапе создается список ссылок, который будет передан пользователю в качестве результирующего. Пользовательское представление о качестве работы поисковой системы напрямую зависит от технологий, использованных на этом этапе.

Рафинирование результирующего списка заключается в фильтрации и ранжировании результатов поиска. Под фильтрацией понимается отсев ссылок, которые выдавать пользователю нецелесообразно. Прежде всего проверяется наличие дубликатов. Если система в одном списке выдает множество ссылок, ведущих к одному и тому же Web-ресурсу, это говорит о том, что ее средства добросовестно отработали два первых этапа, но ничего не сделали на третьем этапе. Дублирующиеся ссылки перегружают результирующий список и затрудняют выбор действительно полезных ресурсов.

Ранжирование заключается в создании специального порядка представления результирующего списка, при котором наиболее «полезные» (с точки зрения поисковой системы) ссылки приводятся в вершине списка, а наименее полезные — в его конце.


Начало  Назад  Вперед



Книжный магазин