Russian version
English version
ОБ АЛЬЯНСЕ | НАШИ УСЛУГИ | КАТАЛОГ РЕШЕНИЙ | ИНФОРМАЦИОННЫЙ ЦЕНТР | СТАНЬТЕ СПОНСОРАМИ SILICON TAIGA | ISDEF | КНИГИ И CD | ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ | УПРАВЛЕНИЕ КАЧЕСТВОМ | РОССИЙСКИЕ ТЕХНОЛОГИИ | НАНОТЕХНОЛОГИИ | ЮРИДИЧЕСКАЯ ПОДДЕРЖКА | АНАЛИТИКА | КАРТА САЙТА | КОНТАКТЫ
 
НАВИГАЦИЯ
 
Для зарегистрированных пользователей
 
РАССЫЛКИ НОВОСТЕЙ
IT-Новости
Новости компаний
Российские технологии
Новости ВПК
Нанотехнологии
 
Поиск по статьям
 
RSS-лента
Подписаться
Аналитика

Фильтрация спама на Mail.Ru в 2005 году

Технические итоги 2003-2004 года

Активная борьба с незапрошенной корреспонденцией началась в российском Интернете в начале 2003 года. В середине 2003 года была сформирована Национальная Антиспам-коалиция; рабочие группы различных российских компаний начали анализировать и пытаться решить проблему спама, захлестывающего почтовые ящики пользователей. На Mail.Ru помимо уже используемых черных списков "неблагонадежных" IP-адресов, формируемых собственными силами, была внедрена система контентной фильтрации.

К концу 2003 года мы подошли с весьма обнадеживающими результатами: победа определенно была на стороне "антиспамеров": поток спама в почтовых ящиках объективно сократился; к тому же на горизонте замаячили новые протоколы аутентификации, которые, по мнению многих профессионалов, в том числе и выступавших на эту тему на прошлых конференциях, должны были сильно осложнить жизнь спамерам. С другой стороны, многие технические специалисты, видя огромный потенциал и оперативность, с которой спамеры реагировали на все последние технические новшества, понимали, что это только начало большого и трудного пути. С учетом того объема средств, который крутится в спам-индустрии, ни одно решение никогда не будет окончательной победой, количество элементов в антиспам-системах обязано расти из года в год.

Общие результаты 2005 года

В начале текущего года стал ясен абсолютный провал технологий SPF и Sender ID. Антиспам-сообщество так и не смогло сформировать единый, удовлетворяющий всем потребностям алгоритм аутентификации. Рабочая группа, разрабатывающая Sender ID, была расформирована, предложение стандарта отклонено.

Алгоритмы аутентификации, которые в тестовом режиме были внедрены в почтовых службах, едва ли не мешали работать антиспам-системам. В частности, так вышло при внедрении SPF в антиспам-систему Mail.Ru. В многоступенчатых системах борьбы со спамом, где каждый уровень проверки дает письму положительный или отрицательный балл, использование SPF часто играет на руку спамерам, отправляющим письма через релей провайдера с помощью зомби-машин. Другая беда пришла, откуда не ждали. Основной проблемой, которая виделась нам при внедрении SPF, было то, что спамер, зарегистрировав свой домен и прописав там валидную SPF-запись, мог безнаказанно производить рассылку до принятия решения о блокировке домена. Однако SPF оказался бесполезен по другой, более "человеческой" причине. Системные администраторы и технические специалисты, ответственные за почтовые сервера своих компаний, не спешили внедрять SPF, а те, кто решался на такой шаг, внедряли SPF с чрезвычайно мягкими политиками, не позволяющими отвергать практически никакие письма с этого домена. Проблема пересылок, о которой так много говорилось при обсуждении SPF, на этом фоне оказалась абсолютно незначимой.

Кроме того, мы дали возможность пользователю завести собственный белый список тех адресов, письма с которых он не считает спамом (кнопка "Это не спам" в папке Сомнительные). Однако эта мера также не позволила нам значительно увеличить эффективность уже существующей антиспам-системы: пользователи используют возможность крайне неохотно, количество кликов по ссылке измеряется десятками штук в сутки (что, кстати, свидетельствует о том, что основная система работает практически без ложных срабатываний).

Еще один фактор, появившийся в 2005 году, носит скорее социальный, чем технический характер. За последнее время многие службы начали заявлять чуть ли не о 100%-ной (или, по крайней мере, 99,9%-ной) победе над спамом, смущая пользователей и вызывая более резкую реакцию даже на единичные прорвавшиеся непрошеные письма. Мы абсолютно уверены, что в массовых системах 100%-ная эффективность невозможна (если, конечно, она не сопровождается очень высоким уровнем False Positives). В получаемых нами жалобах на спам порядка 4% составляют жалобы на совершенно нормальные письма, которые никогда не будут отрезаться автоматическим антиспамом. Уже этот принципиально непреодолимый фактор никогда не подпустит нас к заветным 99,9 процентам. Кроме того, естественно, что для любой разумной антиспам-системы опасность False Positives имеет приоритет перед опасностью прохождения спама, тут действует принцип "семь раз отмерь - один отрежь". Стоимость одного потерянного делового письма во много раз превосходит стоимость времени, уходящего на уничтожение мусора, и в спорных случаях обязана действовать презумпция невиновности.

Точно подсчитать количество доходящего до пользователя Mail.Ru спама очень сложно. По косвенным данным мы оцениваем Detection Rate в почте Mail.Ru на уровне 95-97% и с очень большим сомнением относимся к заявлениям о принципиально лучшей эффективности любой массовой системы.

Сами спамеры весь год так же не стояли на месте - они приобретают опыт и наращивают свои ресурсы.

Во-первых, естественно, изменились количественные характеристики спама.

Рис. 1. Распределение объемов спама по месяцам

Увеличилось количество спама, рассылаемого в выходные дни, когда время реакции технического персонала на спам-рассылку потенциально больше:

Рис. 2. Распределение спама по дням недели

Изменилось и среднесуточное распределение отправляемого спама, опять же в сторону увеличения количества спама в нерабочие часы:

Рис. 3. Распределение спама по часам в течение суток

И самое удивительное спамерское нововведение - это спам, рассылаемый вручную. Как это ни странно, все большее количество спама, приходящего на сервера Mail.Ru, - это спам, отправляемый вручную или почти вручную. Со спамом, отправленным таким образом, бороться гораздо сложнее, чем с обычным: рассылка становится более распределенной по времени (то есть менее массовой в конкретный момент), а IP-адреса и заголовки писем отправителей оказываются идеально правильными. В результате, автоматически оказываются бесполезными сразу три части антиспам-комплекса: черные списки (рассылка происходит с честных провайдерских почтовых серверов); формальные признаки (настоящий почтовый клиент формирует вполне честные заголовки); DCC (рассылка одного типа письма немногочисленна, а вся тяжесть борьбы падает на плечи контент-фильтрации). К счастью, на данный момент таким образом распространяются по большей части фишинговые письма, письма нигерийских банкиров и так называемые "письма счастья". Однако мы уверены, что не за горами и массовая рассылка рекламного спама вручную, организованная наподобие популярных в свое время "клик-клубов".

На этом фоне очень оптимистично смотрится статистика вирусной активности. Несмотря на общий рост Рунета, повсеместная установка антивирусных фильтров и развитие безопасности Windows XP привели даже к уменьшению количества вирусов. За весь 2005 год не было ни одной эпидемии, сродни тем, что мы видели в 2003 или 2004 году.

Обзор методов борьбы со спамом

"Умные RBL"

Как видно из графиков, количество спама с осени 2004 года выросло почти в два раза, в связи с этим возникла и другая задача - необходимость снижения нагрузки на почтовые сервера.

Для решения этой проблемы нами были опробованы так называемые "умные RBL".

Так уж получилось, что RBL до сих пор являются одним из самых "cost-effective" способов борьбы со спамом. Для того чтобы начать использовать RBL любой компании, по сути, не требуется никаких финансовых вложений в аппаратную часть. Достаточно лишь настроить почтовый сервер таким образом, чтобы он опрашивал один или несколько RBL-серверов на предмет наличия в их зонах тех или иных IP-адресов. При этом пользователь получает довольно приличную эффективность в плане Detection rate по сути при нулевых затратах, минусом же этой технологии является огромное, в большинстве случаев неприемлемое, количество false positive. Причин высокого уровня false positive при использовании RBL несколько:

Во-первых, это отсутствие локализации RBL. Например, практически невозможно, находясь в России, составить адекватный RBL для Китая. И дело не только в языковых барьерах. При составлении RBL крайне важно наличие у составителя информации о крупных почтовых релеях национальных провайдеров интернет-доступа, распределении пользователей между локальными провайдерами, о GPRS-выходах локальных операторов связи и другой локальной специфике. Естественно, что обычно эта информация в достаточно полном объеме есть только по собственной стране и ближайшим соседям (той же Украине для нас). Но при этом 90% спама в Россию приходит из-за границы (доля того же Китая достаточно велика). То есть получается парадокс: российский составитель RBL вынужден обрабатывать китайские IP, но не имеет достаточной для безошибочной работы информации. В итоге с учетом крайне малого объема российско-китайской переписки, такой RBL вполне приемлем для использования у нас, но попытка использовать его в Китае может обернуться катастрофой. Симметрично и мы не можем безоглядно доверять любому иностранному черному списку.

Во-вторых, политика составления публичных RBL зачастую не подходит для его использования в какой-либо коммерческой организации. Под политикой составления в первую очередь понимается набор условий, которые должны выполняться для того, чтобы IP-адрес попал в RBL, и набор условий, которые нужно выполнить для того, чтобы "выйти" из RBL. В качестве примера "плохого" RBL может служить sorbs.net: чтобы в него попасть, достаточно, чтобы составитель черного списка заподозрил ваш ресурс в "связи со спамерами", а для того чтобы быть исключенным из этого списка, нужно всего лишь заплатить $50. В свою очередь, для того чтобы составитель заподозрил вас в связи со спамерами, достаточно, чтобы какие-нибудь "доброжелатели" разослали "фишинговое" письмо, в котором будет содержаться просьба от вашей компании выслать пароли доступа к банковским счетам, почтовым и любым другим аккаунтам, или же чтобы вы просто были популярной почтовой службой в своем регионе - количество спама с вашими обратными адресами, проходящее даже не через ваши релеи, несомненно, натолкнет составителя на мысль о вашей причастности.

В-третьих, бывают просто редкообновляемые и малочисленные RBL. Причем если в случае небольшого количества записей в RBL мы просто не получим никакого результата, то в случае применения редкообновляемого RBL мы будем блокировать хосты, которые уже давно решили свои проблемы с безопасностью. Более того, для RBL довольно важен такой показатель, как "популярность". Довольно часто возникает ситуация, когда администратор занесенной в черный список сети начинает предпринимать активные действия только после попадания сети в какой-либо крупный RBL, что сразу же сказывается на связности его сети с большим числом других почтовых систем.

В-четвертых, никогда нельзя забывать, что составляют публичные RBL посторонние люди, часто простые энтузиасты, и эти люди никому ничего не должны. Все мы помним, как некогда популярные RBL закрывались, а перед закрытием заносили в черный список весь Интернет, объясняя это необходимостью побыстрее сделать невозможным свое использование.

И венчает это обилие проблем RBL то, что далеко не каждый технический специалист является специалистом в области борьбы со спамом. Соответственно, он никогда не сможет оценить, удовлетворяет ли используемый им черный список необходимым требованиям адекватности, актуальности, локализованности или нет.

Выход из этой ситуации хотя и сложен, но его все же можно найти. Во-первых, крупные провайдеры и почтовые службы вполне могут позволить себе ведение своих собственных RBL, здесь в полной мере работает правило "если хочешь, чтобы что-то было сделано хорошо, - сделай это сам". Следующим этапом в борьбе за адекватность RBL является построение "голосующих" систем. Идея далеко не нова и довольно проста в реализации: IP-адрес отправителя проверяется не в одном, а сразу в нескольких RBL, за наличие его в том или ином RBL начисляются баллы, причем вы сами можете определить степень доверия к тому или иному RBL, начисляя разное количество баллов за попадание в тот или иной черный список. По достижении "отсекающего веса" письмо отвергается, так же можно установить границы "серой зоны" и класть письма с весом, не позволяющим отвергнуть такое письмо, в папку "сомнительные".

Тем не менее первоначальная настройка подобной системы и поддержание ее в эффективном состоянии требует высокой квалификации и постоянных затрат времени специалиста по борьбе со спамом. Мы не рекомендуем пытаться использовать RBL в небольших почтовых системах, где таких специалистов нет. Крупные провайдеры могут как создавать свои черные списки, так и использовать набор внешних RBL (или делать то и другое одновременно); выбор наилучшей схемы зависит, в основном, от экономических факторов.

В данный момент распределение по хостам-отправителям спама примерно такое:

Рис. 4. Распределение по хостам-отправителям спама, приходящего на сервера Mail.ru

Из диаграммы следует, что большая часть спама доставляется с помощью зомби-машин, имеющих относительно широкие каналы. В первую очередь, это клиенты провайдеров широкополосного доступа. К счастью, большинство из них имеет динамические адреса, раздаваемые из специально выделенного динамического пула провайдера. Запретив прием почты из динамических DSL сетей, мы получим до 60% отсекаемого спама, в зависимости от полноты списка.

DCC

Наравне с провальной аутентификацией 2004-2005 годы принесли нам и вполне успешные технологии борьбы со спамом, например Distributed Checksum Clearing House (DCC). В данной статье под DCC понимается любая система подсчета количества писем, объединенных каким-либо единым признаком.

Изначально мы тестировали DCC в стандартном исполнении. Для каждого входящего сообщения определялась контрольная сумма и отправлялась на DCC-сервер, при сравнении контрольной суммы сервер мог понять, сколько раз подобное письмо уже приходило в систему, и по достижении определенного порога прием подобных писем блокировался.

Однако такая система была неэффективной по причине того, что спамеры начали модифицировать письма, вставлять мусорный текст, менять местами предложения и абзацы. Решение этой проблемы возможно при использовании нечетких алгоритмов построения контрольных сумм письма. Суть построения нечетких контрольных сумм заключается в том, что учитывается не весь текст письма, а лишь выбранные по определенному алгоритму части (например, подсчет контрольной суммы по четным согласным буквам). Таким образом, становится возможным определение похожих друг на друга писем. По результатам работы DCC-сервера, основанного на нечетких контрольных суммах, становится возможным построение RBL спам-писем. То есть в новой системе мы можем блокировать не только IP-адреса, отправляющие спам-письма, но и собственно "письма, похожие на спам".

Естественно, что в первую очередь DCC ловит легальные рассылки (от content.mail.ru и подобных сервисов), поэтому использование его требует составления и поддержания в том или ином виде белого списка допустимых рассылок, и опять-таки небольшие почтовые системы оказываются в невыгодном положении, в них этой работой заниматься просто некому.

В 2005 году окончательно ушла в прошлое проблема открытых релеев. Количество спама через них уже не превышает статистической погрешности, похоже, что серьезные спамеры окончательно прекратили их поиск и использование. Тем не менее, мы пока не отключаем соответствующую проверку ввиду ее абсолютной безвредности и дешевизны.

Спам в Mail.Ru Agent

Помимо борьбы со спамом в почте, в компании Mail.Ru был открыт второй фронт, а именно борьба со спамом в программе для обмена мгновенными сообщениями - Mail.Ru Agent.

При кажущемся большом количестве общих методик, у борьбы со спамом в мессенджерах и борьбы со спамом в электронной почте есть различия, которые не позволяют использовать большинство технических методов борьбы, применяемых в почте. Основная проблема заключается в объеме сообщения, так как сообщения через мессенджеры содержат, как правило, мало текста, и это крайне затрудняет автоматический анализ. При применении "в лоб" почтовых алгоритмов определения спама на первой строчке хит-парада "спамерских" сообщений стоит сообщение "Привет!", следующим по популярности следуют "Как дела?" и одиночный смайлик.

Rate-limit'ы в мессенджерах тоже не эффективны, так как если электронные письма люди пишут с примерно одинаковой и небольшой частотой, то общение по месcенджеру сильно зависит от количества свободного времени, болтливости человека и погоды за окном. При сочетании удачных факторов общительный человек может отправить несколько тысяч сообщений в сутки, разговаривая только с друзьями или по работе. Также не подходит для инстант-мессенджинга и анализ сообщения по формальным признакам: из-за небольшого числа доступных клиентских программ, единой системы авторизации и высокой стандартизации инстант-мессенджинга формальные признаки практически отсутствуют.

Третья проблема заключается в том, что на этом фронте мы бьемся практически в одиночку. Если почтовый спам признали опасностью практически все, с попытками спама своих клиентов борются (или хотя бы делают вид, что борются) и ISP, и хостинговые компании, то жалобу на спам в Mail.Ru Agent abuse@ чаще всего просто проигнорирует.

Наибольшую эффективность в фильтрции спама в IM-системах дает контент-анализ письма. Схема работы данного метода следующая: по образцам спам-сообщений специалистом строится база слов, характерная для рекламного текста, каждому слову присваивается определенный вес. За наличие каждого такого стоп-слова в тексте сообщению начисляется определенный балл; согласно его весу - в случае если сумма баллов в сообщении превышает установленный лимит - сообщение отвергается.

Второй используемый нами метод - анализ дополнительной статистики: количество ответов, получаемых пользователем на его сообщения, количество занесений его в игнор-лист, количество безуспешных запросов на авторизацию, других параметров. Подобный подход практически невозможно использовать в почте по двум объективным причинам: с одной стороны, нам недоступна статистика ответов, приходящих на письма с другого домена; с другой - характерное время ответа на письма составляет часы и дни вместо секунд и минут для Агента, и значимая статистика реакции будет получена уже после окончания рассылки. В Агенте этих проблем нет, и метод отлично работает.

Прогнозы на будущее

Основные факторы, которые, на наш взгляд, будут определять ситуацию со спамом в 2006 году, это, во-первых, продолжение роста спамерской активности. Наряду с неизбежным увеличением трафика, спамеры станут умнее. Раз сейчас практически не принимается почта с динамических пулов адресов, и такая политика становится все распространеннее, то мы ожидаем постепенный отказ от рассылок спама с зомби-машин напрямую на сервера получателя и использование вместо этого smtp-серверов провайдеров.

Ожидается и увеличение в общем потоке доли ручного спама, причем сразу за счет двух факторов: с одной стороны, за счет растущей популярности фишинга, изначально ориентированного на рассылку методом "писем счастья", с другой - за счет вероятного начала использования этой технологии в рекламном спаме.

Есть опасность того, что спам станет более адресным. Интернет занимает все большее место в жизни каждого пользователя, и все больше информации о нем становится доступно. В результате, возможно, наступит тот день, когда спамерское письмо, отправленное на alex@mail.ru, будет начинаться уже не с "Дорогой alex", а будет указывать реальное имя-отчество пользователя. Хотя вряд ли такой спам станет массовым уже в будущем году, скорее всего, это дело более отдаленного будущего.

Со стороны антиспамеров неприем почты с DSL-блоков станет абсолютно общим местом (как в свое время произошло с открытыми релеями), технология блокирования их достигнет совершенства, после чего окажется практически бесполезной - эпоха такого спама в 2006 (максимум в 2007) году неизбежно закончится.

Использование спамерами smtp-релеев скорее всего приведет и к изменению политики самих ISP. Если раньше DSL-провайдер часто достаточно легкомысленно относился к спаму своего клиента (ну шлет и шлет, мне от этого никаких убытков, только трафик дополнительный оплачивает), то теперь он будет тратить на рассылку спама собственные серверные мощности и рисковать попасть в RBL'ы своими релеями, что будет вызывать естественное недовольство клиентов. Можно ожидать повсеместного установления провайдерами систем контентной фильтрации и ограничения количества отправляемых писем в единицу времени.

Любопытно, что сейчас заголовки Received практически не анализируются по причине постоянной их подделки, но многое говорит о том, что доля честных Received будет расти, и уже их содержимое можно будет проверять на нахождение в каких-то черных списках.

Другим следствием растущей неэффективности RBL будет дальнейшее увеличение популярности коробочных антиспам-решений. Если для того чтобы прикрутить к своей почтовой системе внешний черный список, требуется исправление буквально нескольких строк конфигурационных файлов, то контентную фильтрацию "на коленках" организовать практически невозможно, и готовые решения придется покупать.

С ростом доли инстант-мессенжинга в общем объеме коммуникаций неизбежно будет расти и доля спама в нем. Борьба с ним будет одной из приоритетных задач Mail.Ru в 2006 году.

В целом же благодаря опережающему развитию антиспам-технологий количество беспокоящих пользователя сообщений в Рунете в 2006 году скорее всего уменьшится.

Владимир Габриелян, Технический директор Почтовой Службы Mail.ru


  Рекомендовать страницу   Обсудить материал Написать редактору  
  Распечатать страницу
 
  Дата публикации: 28.08.2006  

ОБ АЛЬЯНСЕ | НАШИ УСЛУГИ | КАТАЛОГ РЕШЕНИЙ | ИНФОРМАЦИОННЫЙ ЦЕНТР | СТАНЬТЕ СПОНСОРАМИ SILICON TAIGA | ISDEF | КНИГИ И CD | ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ | УПРАВЛЕНИЕ КАЧЕСТВОМ | РОССИЙСКИЕ ТЕХНОЛОГИИ | НАНОТЕХНОЛОГИИ | ЮРИДИЧЕСКАЯ ПОДДЕРЖКА | АНАЛИТИКА | КАРТА САЙТА | КОНТАКТЫ

Дизайн и поддержка: Silicon Taiga   Обратиться по техническим вопросам  
Rambler's Top100 Rambler's Top100