Любопытный оборот приняло обсуждение темы больших данных на прошедшем в начале октября под эгидой AHConferences форуме "Business Intelligence: финансы и клиенты". Сам факт разговора о Big Data не удивителен: как рассказал советник директора Центра информационных технологий Банка России Валерий Артемьев, на известной гартнеровской "диаграмме ажиотажа" Hype Cycle for Emerging Technologies эта технология сейчас как раз находится на пике ожиданий и пиар-активности. Что, по мнению экспертов из Gartner, позволяет ожидать ее широкого промышленного использования лишь через 5-10 лет.
Добавило скепсиса и выступление бизнес-партнера по технологиям "ФК Окрытие" Вячеслава Благирева. Он совершенно справедливо отметил избыточный ажиотаж вокруг данной темы, в результате которого многие компании начали лихорадочно собирать и хранить огромные объемы информации, уподобляясь людям, жившим в СССР в эпоху дефицита и покупавшим множество товаров впрок, на всякий случай. Прежде чем приступать к проектам Big Data, компании следует все-таки задуматься, какая от них будет польза для бизнеса. Согласно исследованию, охватившему, по словам докладчика, 33 крупных международных банка, только в 6% из них используются технологии Big Data.
Как правило, там они находят применение при решении двух видов задач: реализации программ лояльности и противодействия мошенничеству. В первом случае с их помощью анализируются история транзакций, отзывы и комментарии клиентов в Интернете, качество общения с операторами call-центра и психологические портреты клиентов, построенные на информации из социальных сетей. Кстати, один из банков на основании только лишь подобного психологического портрета, созданного на основе информации из Facebook, принимает решение о выдаче кредита. Как бы экзотически такой подход ни выглядел, это все-таки лучше, чем, как у нас иногда бывает, выдавать кредит любому человеку с улицы, показавшему непросроченный паспорт. В заключение Вячеслав Благирев предупредил, что решения Big Data довольно дороги и требуют компетенций, которых у большинства отечественных компаний нет.
Казалось бы, после сказанного следует успокоиться и посмотреть, во что все это выльется через пять лет. Однако буквально следующее выступление директора департамента управленческой информации "ВымпелКома" Виктора Булгакова показало, что начинать действовать можно и нужно уже сегодня. Он рассказал о целом ряде пилотных проектов с использованием Big Data, которые не потребовали значительных материальных и временных ресурсов. Следует отметить, что объемы данных, которыми оперировали в указанных проектах, были не столь уж большими (начиная с десятков гигабайт), но для их обработки применялись специфические технологии Big Data (в частности, Hadoop и язык R), позволяющие анализировать неструктурированную и не всегда на 100% корректную информацию.
Для реализации пилотных проектов была построена специализированная ИТ-платформа, включающая Hadoop-кластер и средства интеграции со всеми подразделениями и источниками данных. Но гораздо важнее, что была организована так называемая фабрика идей, позволившая формулировать интересные для бизнеса задачи, устанавливать для них приоритеты, следить за реализацией и обеспечивать накопление и повторное использование уникального опыта. На первых порах кластер формировался из десяти не самых новых рабочих станций, а спустя некоторое время ему на смену пришел двадцатиузловой кластер, построенный на двухпроцессорных серверах стандартной архитектуры, каждый из которых содержал 64 Гб ОЗУ и 12 дисков по 3 Тб. На развертывание указанной платформы ушло около месяца, причем большую часть этого времени заняло обучение нескольких сотрудников работе с Hadoop, ETL, R и т. д.
Каковы же были пилотные проекты? В ряде из них реализовывались геолокационные сервисы, учитывающие не только текущее местоположение клиента, но и предысторию его перемещений. К примеру, людям, прибывавшим в аэропорт, предлагалось приобрести услугу зарубежного роуминга, причем предложение не рассылалось тем, кто улетать не собирался, - сотрудникам аэропорта, таксистам, провожающим. Последние отличались от настоящих пассажиров тем, что часто посещали этот аэропорт прежде (как выделяли провожающих, для меня осталось загадкой). Для реализации этого проекта нужно было обеспечить мониторинг перемещения клиентов в реальном времени и анализ накопленных данных. Еще одна проблема, заботящая "ВымпелКом", - неравномерная загрузка его офисов. Об одних знают многие клиенты, а другие в силу не столь удачного расположения пустуют. Отслеживая на протяжении какого-то времени перемещения клиентов, сервис автоматически предлагает некоторым из них обратить внимание на офис, в который им удобно будет забегать по пути. Следующий проект был инициирован с целью повышения качества связи и удержания клиентов, испытавших определенные неудобства при сбоях. Здесь собиралась вся информация о сбоях, с которыми когда-либо сталкивались те или иные клиенты. Одним из них посылались SMS-сообщения с извинениями и предлагались денежные компенсации, для других (VIP) предпринимались срочные меры по ремонту оборудования. По словам Виктора Булгакова, на очереди еще несколько десятков подобных пилотных проектов. Речь пока не идет о превращении этих проектов в промышленные, но всё когда-нибудь начинается с малых дел.