Информатика для юристов и экономистов


Поиск информации в World Wide Web - часть 9


Существует множество теоретических изысканий в области 5МЛ/?Г-технологий, но наиболее перспективной является модель векторного информационного пространства. Представим себе эксперта в какой-то области, например в юриспруденции. Если ему поставить задачу, то, наверное, он сможет составить словари, характерные для таких областей, как Авторское право, Гражданское право, Уголовное право и т. п. Проанализировав множество документов, относящихся к этим научным областям, он сможет не только указать характерные термины и понятия, но и дать им весовые оценки. Так, например, достаточно очевидно, что слово «договор» имеет больший вес в документах гражданского права, чем уголовного. Комбинируя термины и весовые коэффициенты, можно строить многомерные системы координат, в которых различные области знания описывались бы разными многомерными векторами.

Автоматически получив новую Web-страницу, поисковая система может построить для нее математический вектор, основанный на формальном анализе содержания. А сравнивая этот вектор с уже рассчитанными векторами для различных областей знания, система может без участия человека предположить, к какой категории, теме и разделу относится тот или иной документ.

При таком подходе не обязательно хранить копии всех известных Web-страниц, как не надо хранить и их поисковые указатели. Вполне достаточно для каждого Web-документа хранить лишь его £/Ж,-адрес и число, соответствующее вектору. В настоящее время конкретные алгоритмы 5МЛ/?Г-технологий не публикуются, поскольку представляют ноу-хау, но мы можем предположить, что они уже работают, например в поисковых системах реального времени, таких, как Alexa (www.alexa.com).

Поисковые системы реального времени. Это новое направление в технологиях поиска информации мы рассмотрим на примере поисковой службы Alexa (www.alexa.com). Для работы с этой службой пользователь должен подключиться к ее центральному серверу, получить оттуда и установить на своем компьютере клиентскую программу. Эта программа подключается к броузеру и работает как дополнительная панель в окне Microsoft Internet Explorer или Netscape Navigator.




Начало  Назад  Вперед



Книжный магазин