Навигаторы мировой паутины

Александр Лукашин

В рабочий день поисковые системы рунета отвечают на несколько сотен вопросов пользователей в секунду

Современные поисковые системы могут ответить на самые заковыристые вопросы пользователей и заодно сообщить ценную попутную информацию.Фото Евгения Виноградова
Современные поисковые системы могут ответить на самые заковыристые вопросы пользователей и заодно сообщить ценную попутную информацию.
Фото Евгения Виноградова

Все мы большую часть жизни проводим в поиске. Одним из "побочных", но важных результатов человеческих поисков была и остается информация, информация о находках. В том или ином виде она с давних времен сохранялась и накапливалась, приводя к необходимости... поиска по информации. Информационные находки порождают новую информацию, и эта лавина уже долгое время угрожает погрести под собой человечество.

История

С появлением интернета ситуация стала напоминать наводнение, точнее - потоп. Публиковать информацию в сети очень легко, не требуются ни бумага, ни типография. Что же касается механизмов навигации по интернету, то в самом начале своего развития поиск информации в сети базировался в основном на старых, "допотопных" методах. Это был "золотой век" каталогов. Именно благодаря своему каталогу стал популярным портал Yahoo! - один из нынешних лидеров интернет-отрасли. Но очень быстро стало ясно, что за развитием сети не поспеет ни один, даже самый богатый ресурсами каталог.

Выход из ситуации подсказала цифровая сущность интернета - если информация распределена по множеству машин, то она доступна не только для людей, но и для компьютеров в этой сети, а гипертекстовые возможности позволяют, путешествуя по ссылкам, добираться до самых удаленных уголков интернета. Стало ясно, что технология позволяет создать специальный сервер, который "прочитает" множество web-страниц, "усвоит" их содержимое и сможет отвечать на вопросы пользователей - где найти ту или иную информацию. Первые такие программы (их стали называть spiders - англ. "пауки", поскольку они обитали в мировой паутине, World Wide Web) первоначально предоставляли пользователю очень простую услугу - список всех страниц, на которых встретилось то или иное слово или словосочетание. Первое время они существенно уступали по популярности каталогам, поскольку человеческий разум составителей каталогов существенно превосходил машинный интеллект поисковых "пауков". Популярность поиска в сети росла по мере того, как "умнели" поисковые машины - постепенно они научились учитывать различные словоформы, особенности верстки и новизну документа.

Пожалуй, первыми по-настоящему популярными поисковыми машинами в сети стали Infoseek (http://www.infoseek.com/) и Altavista (http://altavista.com/). Именно Altavista впервые продемонстрировала широкой публике многие качества, свойственные сегодня практически всем современным поисковикам, - возможность формулировать вопросы на обычном языке (например, спросить: "Где родился Марк Твен?") и оперативность - новые документы появлялись на страницах результатов поиска спустя всего сутки после публикации. А 1998 год стал годом рождения нынешних лидеров англоязычных поисковых систем - Google и MSN.

Русский интернет в своем развитии не отставал от остальной сети. В октябре 1996 года в сети появился сайт www.rambler.ru - одна из первых русскоязычных поисковых систем. Ее автором был Дмитрий Крюков - сотрудник компании "Стек" из подмосковного города Пущино. Менее чем через год, в сентябре 1997-го, появилась другая поисковая система - Yandex.ru. В то время в русскоязычном сегменте интернета насчитывалось всего несколько тысяч web-серверов, но задача поиска по документам на них оказалась востребована быстро растущей аудиторией сети. К тому же в отличие от зарубежных поисковых машин отечественные разработки "понимали" документы в разнообразных кодировках кириллицы и позволяли находить информацию с учетом правил русского языка.

Современность

Сегодня поисковые системы в интернете являются наиболее распространенным способом навигации - по данным исследований, более половины пользователей, для того чтобы найти документ, используют именно полнотекстовый поиск.

И за десять лет, прошедших с появления первого поискового сервера в рунете, масштабы поиска в сети изменились - например, сегодня Рамблер знает более чем о 2,2 миллиона сайтов и без малого миллиарде web-страниц, а в разгар рабочего дня поисковые машины рунета отвечают на несколько сотен вопросов пользователей каждую секунду.

В то же время основные технологические блоки поиска остаются прежними. Программа-паук обходит (индексирует) интернет, "читая" web-страницы и сохраняя их содержимое на поисковом сервере. Затем анализируется структура документа, заголовки и подзаголовки, выделяются ссылки на другие документы и изображения. Затем собранный массив информации (а его современные объемы внушают уважение - например, Яндекс знает о 20,5 тысячи гигабайт информации) обрабатывается по специальному алгоритму, и в результате формируется индекс - специальная структура данных, по которой и проводится поиск по запросам пользователей и формируется страница результатов поиска.

Один из самых важных для пользователей моментов при обращении с той или иной поисковой машиной - ее "догадливость". В самом деле, как отсортировать список из многих (подчас десятков и даже сотен тысяч) сайтов, на каждом из которых нашлись страницы, интересующие пользователя? Современные поисковики принимают во внимание множество факторов: как часто встречаются в документе слова, которые ищет пользователь, встречаются ли они в заголовках документа, насколько близко или далеко они расположены друг от друга в тексте. Кроме того, учитывается также и то, насколько авторитетен тот или иной сайт, то есть сколько других страниц в сети ссылаются на него. Принимается во внимание и дата изменения документа, и количество найденных на сайте страниц с заданными пользователем словами.

Именно по всей совокупности этих и многих других факторов поисковая машина и сортирует (ранжирует) найденные сайты, формируя страницу результатов поиска - ведь пользователь зачастую просматривает только несколько первых сайтов, и важно предъявить ему результаты, релевантные (соответствующие) его запросу. Хотя зачастую понять, что именно хочет найти пользователь, непросто - тексты многих запросов могут поставить в тупик не только компьютер, но и человека. Например, что хотят найти в интернете люди, ищущие слово "ОАО", - сайт какой-то определенной компании, законодательство об акционерных обществах, список всех ОАО России? Рамблер в таких случаях подсказывает возможные направления поиска, демонстрируя ссылки на похожие запросы, которые вводили другие пользователи сервера.

Помимо постоянного совершенствования механизма сортировки и учета все большего числа факторов при выдаче ссылок на другие сайты, современные поисковые машины часто сразу дают ответ пользователю. Например, спросив Рамблер о погоде в Париже, можно увидеть прогноз погоды на завтра в столице Франции прямо на странице результатов поиска. Если указать наименование лекарства, то на странице результатов поиска появится список аптек Москвы, где можно приобрести этот медикамент, с номерами телефонов и ценами. А если задать вопрос о каком-либо компьютерном оборудовании (указав модель, марку или производителя), на странице результатов поиска появится ссылка на поиск по базе товарных предложений сервера price.ru.

Популярность поиска в интернете привлекает к нему внимание рекламодателей. Реклама на страницах поисковых машин считается одним из наиболее привлекательных видов интернет-рекламы, ведь она демонстрируется только аудитории, заинтересованной в конкретном товаре или услуге. Именно на страницах результатов поиска правильно составленное рекламное объявление не раздражает аудиторию, а, отвечая на заданный вопрос, стимулирует потребителя посетить сайт с интересующей его информацией. Причем в выигрыше оказываются все: рекламодатель получает заинтересованную аудиторию и не тратит зря рекламный бюджет (если нет запросов, нет и показов объявления); пользователи получают как ответы на интересующие их вопросы, так и конкретные товарные предложения; поисковые системы зарабатывают деньги, на которые смогут в будущем совершенствоваться.

Будущее

А потенциал для развития у поиска есть. Уже сейчас, помимо полнотекстового поиска по документам, порталы предлагают поиск по названиям файлов (например, mp3), поиск по изображениям, поиск адресов на географических картах, специализированные поиски товаров и услуг. А ученые, занимающиеся распознаванием образов, уже всерьез говорят о возможности поиска похожих изображений, распознавания мелодий, ритмов и даже слов песен. И если в ближайшем будущем, приоритет по-прежнему останется за полнотекстовым поиском, то через некоторое время поисковые системы смогут не только предоставлять своим пользователям ссылки на тексты и изображения, но и находить для них звуки, образы и даже сцены из фильмов.

 


Страница сайта http://silicontaiga.ru
Оригинал находится по адресу http://silicontaiga.ru/home.asp?artId=4597