Найти всё. Или Сено и Иголки.

Previous Entry Поделиться Next Entry
15 ноября, 2012
e_kaspersky
У нас в компании есть сокровенный цитатник с набором официальных цифр и фактов для использования в публичных выступлениях. Ну, вроде, сколько у нас сотрудников, где офисы, оборот ... Одна из центральных цифр – ежедневное количество новых вредоносов. И динамика этой цифры удивила даже меня: год назад было 70тыс., в мае – 125тыс., а сейчас уже ... 200тыс! Да-да! Мы каждый день анализируем и разрабатываем защиту против двухсот тысяч вредоносных программ!

Как мы это делаем – ещё тот производственный роман, который потихоньку пишется здесь под тэгом technology. Резонный вопрос: не боимся ли мы, что наши посты читают кибер-мерзавцы? Нисколько - пусть они нас боятся, а пользователи лучше понимают как работает защита, а также мотивацию и уловки кибер-негодяев.

Сегодня будет ещё один, очень важный штрих к этой картине – технология Astraea. Это одна из самых значимых частей нашей облачной системы KSN (видеоподробности), которая  автоматически анализирует события на защищённых компьютерах и помогает выявлять неизвестные угрозы. На самом деле у Astraea много других «бонусов», без которых наши вирусные аналитики уже не представляют себе трудовые будни. Но обо всём по порядку.

Начнём с ещё одной порции цифр. Сегодня KSN пользуются более 60 млн. человек. «Пользуются» – значит постоянно обмениваются с «облаком» информацией о подозрительных файлах, сайтах, системных событиях, детектах и многом другом, относящемся к эпидемиологической обстановке в Интернете.

Проанализировать этот огромный KSN-поток «ручками» да ещё и с необходимым темпом - задача не столько нетривиальная, сколько практически невыполнимая. Это буквально поиск иголки в стоге сена. С другой стороны, иголка (и весьма ценная) там есть, не искать её никак нельзя и решение этой задачи – вопрос из разряда «а умеете ли вы это готовить?».

На самом деле, при правильном подходе к обработке  такого потока можно убить аж сразу трёх зайцев – а) быстро, эффективно и с минимальными усилиями фильтровать вредоносов, б) получить очень ценную статистическую базу для понимания «температуры по больнице» и тенденций в области «вирусостроения» и, в) создать постоянно развивающуюся экспертную систему, способную в автоматическом режиме и с минимальными ошибками выпускать «лечилки». Вот, собственно, вы только что вкратце познакомились с Astraea – системой обработки большого объёма данных для получения из него нужных результатов, а.к.а. Big Data, а.к.а. автопоиск иголки в стоге сена.

И, чтобы окончательно вас добить, приведу ещё немного цифр. Astraea пропускает через себя 150 миллионов (!) событий KSN в сутки, попутно рассчитывая рейтинг для 10 миллионов (!) объектов.

Как это работает?

На первом этапе Astraea в лучших традициях краудсорсинга получает от продуктов-участников KSN нотификации о подозрительных файлах и сайтах. Все события автоматически анализируются и ранжируются с точки зрения значимости (степень распространённости/популярности объекта) и опасности. Степень опасности рассчитывается на основе динамически меняющихся коэффициентов, так что между уведомлениями и экспертной системой всегда поддерживается обратная связь. Сейчас в списке коэффициентов несколько сот критериев, они регулярно «подкручиваются» аналитиками, а сам список обновляется. По сути, это список представляет собой отчуждённые знания квалифицированного вирусного аналитика – некий набор правил, по которым с высокой долей вероятности можно вычислить вредоноса.

На последнем этапе Astraea возвращает ответ с расчитанным рейтингом обратно в KSN, где он становится доступным для всех пользователей наших продуктов. Таким образом цепь замыкается, при этом, чем обширнее статистическая база, тем выше вероятность выявления и пресечения новой вирусной эпидемии.



Благодаря имеющейся статистике о поведении вредоносных программ на компьютерах пользователей, Astraea знает с какой вероятностью зловред обладает теми или иными специфичными для этого класса программ признаками (отсутствие цифровой подписи, присутствие в автозапуске, наличие упаковщиков и т.д.). И когда Astraea начинает получать события, что какие-то новые файлы имеют подозрительные с её т.з. свойства, то она соответственно снижает рейтинг доверенности для этих файлов согласно накопленной у себя экспертизе. В итоге, когда рейтинг файлов достигнет критического порога, система помечает их как вредоносные, производит нужные сигнатуры и передаёт их пользователям через KSN. И всё это полностью в автоматическом режиме!

Похожим образом система проводит упреждающий поиск вредоносных сайтов. Она регулярно проводит группировку объектов в своей базе данных для обнаружения ресурсов, похожих на уже выявленные вредоносные хосты или пытающихся замаскироваться под легитимные сайты. Здесь тоже много критериев, например: совпадение почтового ящика или имени владельца, дата регистрации ресурса, наличие недоверенных файлов на хосте и т.д.



Важно, что система не просто расчитывает рейтинги для файлов и сайтов, но и проводит их корреляцию для получения более точных вердиктов. Логично предположить, что файл, скачанный с сайта, ранее замеченного в рассылке вредоносов получит более низкий рейтинг.

Разумеется, Astraea сохраняет всю историю взаимодействия с KSN – таким образом мы можем «поймать» момент возникновения и первоисточник эпидемии, а также отслеживать её развитие, как во времени, так и пространстве (по странам). Кроме того, на основе этих данных можно создавать специфические отчёты и анализировать тренды, практически любого уровня кастомизации – разные «топы» по странам, хостам, файлам, семействам (плюс «перекрёстные» отчёты); прогнозы развития киберкриминальной активности в разрезе атак на разные отрасли; прогнозы темпов роста вредоносов в разрезе их поведений и поражаемых платформ.

А ещё Astraea является системой проактивного детектирования. Т.е. она умеет детектировать не только уже существующие угрозы, но и те угрозы, замыслы на которые еще только появляются в головах вирусописателей. Обладая огромной базой знаний о том, как ведут себя зловреды в живой природе, мы можем выявлять шаблоны их поведения и тоже добавлять в KSN. И если время реакции на новую угрозу сейчас составляет 40 секунд, то в случае проактивного подхода оно будет равно 0.

Другое важное преимущество Astraea – минимизация ложных срабатываний.

С одной стороны, система работает на гигантской статистической базе и отточенной математической модели, что вкупе позволяет свести вероятность «фалсов» к минимуму. C 2010г., когда Astraea заступила на боевое дежурство наши спецы не смогли вспомнить ни одного более-менее заметного инцидента.

С другой стороны, в системе встроен механизм контроля над человеческим фактором. Она автоматически, «на лету» проверяет каждую попытку аналитика добавить новую запись в чёрный или белый список.

Пара простых примеров.

Файл «ZZZ» находится в списке чистых файлов (white list), но вдруг Astraea получает уведомление, что наш продукт нашёл в нём трояна. Система находит «фолсящую»  сигнатуру, ставит на нее флаг «ложное срабатывание» и инициирует процесс проверки и исправления детекта.

Или вот так: аналитик в порыве страсти пытается добавить файл «YYY» в чёрный список. Однако файл уже присутствует  в белом списке файлов. Система «скажет» аналитику, что он, вероятно, погорячился, и не позволит добавить новую запись, пока не будет устранён конфликт.

На самом деле Astraea очень расширяемая система и её применение перечисленными примерами не ограничивается.

Мы тут активно «копаём» как вширь, так и вглубь – модернизируем математическую модель анализа данных, добавляем новые и переоцениваем существующие критерии, подключаем новые технологии для повышения скорости и качества обнаружения угроз, вводим в эксплуатацию смежные системы для построения сложных корреляций. В общем, планов, как обычно, громадьё и это не может не радовать. Ну и в пику патентным троллям потихоньку патентуем самые вкусные вещи. Из уже запатентованного – минимизация ложных срабатываний, предупреждение вирусных эпидемий и обнаружение неизвестных угроз.


Метки:
Previous Entry Поделиться Next Entry
если не секрет, какие базы используете для хранения и анализа данные?

?

Log in

No account? Create an account