Поисковые машины

Поисковые машины с помощью программ-роботов постоянно исследуют сеть, просматривая все сайты, которые им удается найти, и помещая информацию о них в свои базы данных. Для этого не требуется практически никакого человеческого вмешательства, так как вся работа происходит автоматически. Достоинствами поисковых машин является то, что они могут содержать информацию практически обо всех сайтах. Это позволяет пользователям находить сайты практически по любым запросам. Однако такие системы не очень хорошо ориентируются в структуре индексируемых сайтов, и результаты их поиска далеко не идеальны.

Помимо знакомых всем Google и Яndex, на данный момент с лучшей стороны себя зарекомендовали AltaVista (www.altavista.com), Rambler (www.rambler.ru), Апорт (www.aport.ru), Gogo (http://gogo.ru) и Webalta (www.webalta.ru).

Каталоги и тематические каталоги

Представляют собой четко организованную структуру сайтов, систематизированных по тематике. Добавление адресов в такие каталоги осуществляется авторами сайтов, так называемыми гидами, которые «блуждают» по сети и добавляют найденные новинки в нужные разделы каталога. С помощью каталогов можно достаточно просто и быстро найти сайты по интересующей тематике. Часто поиск возможен лишь по ключевым словам. Недостатком каталогов является то, что они содержат информацию лишь о части сети, поэтому зачастую можно вообще не найти того, что нужно.

Наиболее полными, популярными и развивающимися каталогами сейчас являются Каталог Яndex’а (http://yaca.yandex.ru/), List.ru (http://list.mail.ru/), RamblerTop100 (http://top100.rambler.ru/), Каталог Апорт (http://catalog.aport.ru/).

Тематические каталоги - разновидность обычных, однако они предназначены для конкретной целевой аудитории. Примером может служить каталог ресурсов по юридическим вопросам (http://law.web-ring.ru).

К сожалению, такие ресурсы зачастую плохо поддерживаются.

Специализированные поисковые машины и каталоги

В последнее время стала актуальной задача узконаправленного поиска. Он выполняется с помощью специализированных машин и каталогов, предназначенных для отбора различного рода специализированной информации. Существует, например, поиск по форумам и блогам (http://blogs.yandex.ru, www.google.ru/blogsearch), по новостным ресурсам (www.novoteka.ru), по словарям (www.boloto.info, http://slovari.yandex.ru), поиск изображений (http://images.google.ru, http://images.yandex.ru), поиск музыкальных файлов (http://music.yandex.ru), видео (http://middio.com), поиск по FTP-серверам (www.filesearch.ru/) и очень много других. Есть даже детские поисковики, но, к сожалению, они представлены только зарубежными сайтами - например, www.factmonster.com или http://kids.quintura.com.

У подобных сервисов более качественные, релевантные результаты поиска, и они отнимают меньше времени на поиск. Минус только один, но зато весьма существенный - сравнительно малый объем баз данных проиндексированных страниц.

Метапоисковые машины

Позволяют производить параллельный поиск в ряде поисковых систем. Обычно они предоставляют дополнительные возможности (например, проверка ссылок, перевод и расширение запросов, перевод запросов на язык используемых поисковых систем). Хорошим примером метапоисковых машины являются поисковики Punto (http://punto.ru/), Nigma (http://nigma.ru/) и Ramdex (www.ramdex.ru/).

Социальные поисковые системы

Под социальным поиском понимается технология, предполагающая, что на выдачу результатов могут влиять сами люди. По каждому поисковому запросу здесь отображается только информация, отобранная вручную (об этом хорошо написано Надеждой БАЛОВСЯК на стр. 4-5)

Критерии качества

Разработчики поисковых систем постоянно работают над улучшением качества выдачи результатов поисковиков и над удобством механизмов визуализации этих результатов. Качество работы поисковой машины определяется целым набором критериев.

1. Релевантность

Под релевантностью по отношению к результатам работы поисковой понимается степень соответствия запроса и выдачи, а также уместность результата. Вообще говоря, это достаточно субъективное понятие - то, что уместно для одного пользователя, может быть неуместно для другого.

Математические приемы, обеспечивающие наиболее релевантную выдачу, строятся в основном на подсчете «веса» документа по отношению к запросу и сортировке выдачи на основе этого «веса». Кроме того, необходимо постоянно развивать механизмы, отсеивающие из индекса всевозможный «информационный шум»: ссылочный спам, сайты-дорвеи (страницы, содержащие автоматически генерируемый контент, состоящий из бессмысленного набора ключевых слов, которые перенаправляют посетителя на некоторый целевой сайт), и различные сайты, использующие нечестные приемы раскрутки.

2. Полнота базы

В данном случае это количество проиндексированных поисковиком Интернет-страниц. Каждую секунду в сети создаются сотни тысяч документов, выкладываются файлы, создаются записи в блогах, пишутся комментарии. Очень важно, чтобы все это как можно быстрее прошло через поисковую машину и было доступно для обработки. Ведь качественная информация - это, в первую очередь, актуальный материал.

3. Учет морфологии и языка

Современный поисковик должен понимать запросы пользователя в том виде, в каком они задаются, а также индексировать страницы с учетом морфологических особенностей языка. Создать алгоритм работы, который абсолютно точно понимает, что хотел найти пользователь, и выдает ему только нужные ссылки, пока еще не удавалось никому. По сути, эта проблема стоит на одной чаше весов с проблемой создания искусственного интеллекта. Поэтому решать ее будут еще очень и очень долго.

4. Удобство визуализации результатов

Существует множество поисковиков, которые дают «альтернативный поисковый интерфейс» и нелинейное представление данных. Такие поисковики называются визуальными.

Чаще всего данные в таких поисковиках имеют свою особую иерархию. Нередко появляются некоторые ассоциативные понятия, синонимы запросов, которые, в свою очередь, раскрывают свои ассоциативные ряды, создают цепочки понятий, смыслов и так далее. Естественно, что такие поисковые системы подразумевают под собой некоторые зачатки семантических отношений между ссылками. Здесь работают более сложные математические модели, которые просчитывают родство и схожесть запросов и позволяют угадать, что же пользователь хотел найти в Интернете.

Чтобы понять, о чем же все-таки идет речь, достаточно просто посмотреть на работу следующих поисковиков.

KartOO (http://www.kartoo.com). Очень приятная глазу метапоисковая система. Она пытается в общих чертах изобразить связи между объектами - результатами поиска и рисует своеобразную карту этих отношений.

Kwmap (http://www.kwmap.net). Достаточно простая схема визуализации данных: пересечение двух плоскостей результатов поиска в одной точке, которой символизируется наш запрос. Одна плоскость включает в себя понятия, содержащие ключевое слово, другая - лишь схожие понятия, не включающие в себя слово запроса.

Vizzy (http://www.vizzy.ru). Интересная российская задумка - поисковик на флэш-анимации. Использован поисковый движок от Google, но это только в плюс.

Персональный поиск

На самом деле, поисковиков в сети так много, что для их поиска в пору создавать специальную поисковую систему. Кстати, вы сами можете сделать ее - сейчас в Интернете существуют сервисы, позволяющие создать собственный поисковик, который будет индексировать только те сайты, которые вы ему укажете.

Вот, например, Google CSE (Custom Search Engines, www.google.ru/coop/cse) дает довольно широкие возможности даже при минимальном владении инструментами разработки. Если к этому приложить немного программистских навыков и капельку дизайна, то может получиться вполне качественный поисковик.

Из русскоязычных сервисов можно выделить портал Flexum (www.flexum.ru/). Примеров поисковиков, созданных на основе этого сайта, уже довольно много, и они доступны для всеобщего пользования: например, поисковик «Всё про айкидо» (http://aikido.flexum.ru/). Подобную поисковую систему вы можете организовать буквально за 5 минут.

Андрей ПОЧУЕВ, инженер ОАО «Уралпромпроект», Златоуст