Бесплатный фрагмент - Обнаружение вариантов вредоносных программ на основе чувствительных системных вызовов с использованием многослойных нейронных сетей

Name: Обнаружение вариантов вредоносных программ на основе чувствительных системных вызовов с использованием многослойных нейронных сетей
Author: Никита Шахулов

Никита Шахулов

Объем: 42 бумажных стр.

Формат: epub, fb2, pdfRead, mobi

Подробнее

0.00 Оценить

О книге отзывы Оглавление Читать фрагмент

Обнаружение вредоносных программ стало чувствительным к задачам, поскольку их угрозы распространяются от компьютерных систем до систем Интернета вещей. Современные варианты вредоносных программ, как правило, оснащены сложными упаковщиками, которые позволяют им обходить современные системы обнаружения, основанные на машинном обучении. Для обнаружения упакованных вариантов вредоносных программ можно использовать методы распаковки и динамический анализ вредоносных программ. Однако методы распаковки не всегда могут быть полезны, поскольку существуют некоторые упаковщики, такие как частные упаковщики, которые трудно распаковать. Хотя динамический анализ вредоносных программ может получить информацию о поведении исполняемых файлов, поведение упаковщиков при распаковке добавляет шумную информацию к реальному поведению исполняемых файлов, что плохо сказывается на точности. Чтобы преодолеть эти проблемы, в этой книге я предлагаю новый метод, который сначала извлекает серию системных вызовов, чувствительных к вредоносному поведению, затем использует анализ главных компонентов для извлечения функций этих чувствительных системных вызовов и, наконец, использует многоуровневые нейронные сети для классификации функций вариантов вредоносных программ и законных. Теоретический анализ и результаты экспериментов в реальной жизни показывают, что моя методика обнаружения упакованных вариантов вредоносных программ сопоставима с современными методами с точки зрения точности. мой подход позволяет достичь более 95,6% точности обнаружения и 0,048 с затрат времени на классификацию.

Введение

Вредоносное ПО сегодня является одной из основных угроз безопасности в Интернете, механизмы защиты от обнаружения, такие как морфизм кода, превращают вредоносное ПО во множество вариантов, из-за которых схемы обнаружения на основе подписи работают плохо. Обнаружение вариантов вредоносных программ улучшает методы обнаружения на основе сигнатур. В последние годы исследователи сосредоточились на обнаружении вариантов вредоносных программ с помощью методов машинного обучения, которые превращают проблему обнаружения вариантов вредоносных программ в проблему поиска сходства программ. Когда новая программа достаточно похожа на любую подписанную вредоносную программу в наборе обучающих данных, программа проверяется как вредоносная программа.

Поскольку анализ вредоносных программ включает в себя два вида способов: статический анализ и динамический анализ. Некоторые исследования, такие как (Сантос и соавт. 2011; Чезаре и соавт. 2014; Nataraj соавт. 2011; Чжан и соавт. 2016; Чжан и соавт. 2016; Ян и соавт. 2015; Раман и соавт. 2012), предлагаю использовать статический анализ, который извлекает объекты из двоичных файлов без фактического выполнения программ, таких как коды операций, контроль передачи графической и т. д. для обнаружения вариантов вредоносных программ. Однако, когда варианты вредоносного ПО уже упакованы, это предотвращает дальнейший анализ с помощью инструментов разборки, инструментов синтеза и других инструментов статического анализа.

Современные варианты вредоносных программ всегда оснащены сложными пакерами, такими как ASPack (2017), ASProtect (2017), UPX (2017), VMProtect (2017), ZProtect (2017) и т.д., Которые позволяют вариантам вредоносных программ обходить традиционные и современные системы обнаружения. Эти упаковщики включают два вида упаковщиков: упаковщики шифрования и упаковщики сжатия, которые работают, беря существующее приложение, упаковывая его, а затем оборачивая вокруг него утилиту распаковки. Утилита распаковки работает для распаковки внутреннего исполняемого файла в памяти и передает ему выполнение. Проблема заключается в том, что в упаковщике или коде распаковки нет ничего изначально вредоносного (Treadwell et al. 2009). При игнорировании упаковщиков трудно определить, является ли исполняемый файл вредоносным из-за шифрования или сжатия исполняемого файла, что не позволяет системам обнаружения получать оригинальные функции, особенно для статического анализа.

Такая ситуация вынуждает исследователей применять методы распаковки или динамического анализа вредоносных программ для обнаружения упакованных вариантов вредоносных программ. Однако все еще существуют некоторые проблемы. С одной стороны, некоторые исследователи предпочитают распаковывать упакованные программы, а затем обнаруживать распакованные. Но методы распаковки не всегда могут быть полезны, поскольку крекеры могут писать своим частным упаковщикам, которые трудно распаковать. С другой стороны, другие исследования, такие как (Чжан и др. 2016; Хуан и др. 2014; Сюй и др. 2016; Кумар и др. 2012; Конрад и др. 2011; Бай и др. 2014; Сантос и др. 2013), предпочитают использовать динамический анализ, который отслеживает взаимодействие между операционной системой и программами в изолированных средах или виртуальных машинах для сбора таких функций, как системные вызовы, трафик и т.д.. Хотя динамический анализ может получить поведение упакованного исполняемого файла при выполнении, поведение при выполнении не только включает исходное поведение, но также включает поведение упаковщиков исполняемого файла, которое запутывает исходное поведение. Существующие методы не учитывают запутанность, вызванную поведением упаковщиков.

Чтобы преодолеть эти проблемы, в этой книге я стремлюсь предложить новый подход, который может обнаруживать упакованные варианты вредоносных программ без процесса распаковки. Поскольку динамический анализ может определять поведение при выполнении, мы получаем последовательность выполняемых системных вызовов, отслеживая системные взаимодействия в безопасной среде.

В последнее время существует несколько связанных работ по анализу на основе системных вызовов. Некоторые из них предпочитают использовать n-грамм для представления временных последовательных взаимосвязей системных вызовов и используют классификаторы для классификации вредоносных исполняемых файлов и законных, таких как (Конрад и др. 2011; Канзанезе и др. 2015) и т. Д.

Однако, чтобы обнаружить упакованные варианты вредоносных программ с помощью этих системных вызовов, нам необходимо решить несколько сложных проблем. Одна из проблем заключается в том, что системные вызовы упаковщиков запутывают исходный дистрибутив и скрывают реальные злонамеренные намерения. Кроме того, как представитель исполняемых файлов высокого уровня, системный вызов является грубым и разреженным, что приводит к плохому обобщению функций. Более того, это обостряет проблему запутывания, вызванную упаковщиками.

Поскольку системные вызовы вариантов вредоносных программ, принадлежащих к одним и тем же семействам, имеют схожие дистрибутивы, и существует значительная разница в дистрибутивах между вредоносными и безвредными (Jang et al. 2015), некоторые системные вызовы чаще используются в вариантах вредоносных программ. Я предлагаю извлечь серию чувствительных системных вызовов, встроить их частоты в вектор и применить метод глубокого обучения для решения этих проблем. Некоторые недавние исследования также использовал глубокое обучение для обнаружения уязвимостей или вредоносных программ, которые обеспечивают более высокую точность, например (Li et al. 2018; Kolosnjaji et al. 2016) и т. д. Сначала я извлекаю серию системных вызовов, которые более чувствительны к вредоносному поведению, основанному на теории информационной энтропии. Я называю эти системные вызовы чувствительными системными вызовами, которые уменьшают степень запутанности. Затем я встраиваю системные вызовы в вектор, используя частоту встречаемости. Чувствительные системные вызовы позже будут отправлены в нейронную сеть для обучения или классификации. Далее я предпочитаю использовать многослойные нейронные сети для обучения модели. Наконец, я использую модель для обнаружения и классификации вариантов вредоносных программ.

Однако, поскольку в таких многослойных нейронных сетях существуют некоторые проблемы, такие как исчезновение градиента и распределенное представление, необходимо улучшить способность нейронных сетей к сходимости для достижения лучшей производительности. Я предлагаю метод многослойных нейронных сетей с инициализацией главного компонента для ускорения скорости сходимости и повышения точности. Инициализация главного компонента преобразует чувствительные системные вызовы в несколько новых векторов столбцов, которые являются линейными комбинациями системных вызовов, новые векторы столбцов линейно независимы, что может снизить сложность вычислений и ускорить скорость сходимости.

Взносы

Основные материалы этой книги обобщены следующим образом.

1. Чтобы уменьшить запутанность, вызванную упаковщиками, я извлекаю серию системных вызовов из распакованных экземпляров, которые более чувствительны к вредоносному поведению, путем обучения с получением информации, которая пропускает знания о распаковке.
2. Для обнаружения с разреженным представлением чувствительных системных вызовов я предлагаю мою многослойную нейронную сеть, инициализированные основным компонентом, в качестве эффективного и действенного классификатора для классификации упакованных вредоносных вариантов и упакованных законных.
3. Результаты экспериментов показывают, что мой подход обеспечивает 95,6% точности обнаружения и 0,048 с затрат времени на классификацию. Более того, результаты оценки показывают, что мой подход обеспечивает очень низкую частоту ложноположительных результатов, что означает, что он редко ошибается при обнаружении упакованных доброкачественных экземпляров.

Бумажные организации

Остальная часть этой книги организована следующим образом. В разделе «Методология» представлена моя методика обнаружения упакованных вариантов вредоносных программ. Раздел «Эксперименты» показывает результаты экспериментов, а раздел «Сопутствующие работы» знакомит с сопутствующими работами. Раздел «Ограничения» и раздел «Выводы» показывают ограничение и заключение.

Методология

В этой книге я преобразую проблему обнаружения упакованных вариантов вредоносных программ в проблему классификации системных вызовов. Чтобы уменьшить запутывание, вызванное упаковщиками, я сначала извлекаю чувствительные системные вызовы и отказываемся от запутанных системных вызовов. Затем я организую эти чувствительные системные вызовы в виде вектора, который позже будет отправлен в моей нейронной сети. Поскольку системный вызов представляет собой грубое и разреженное представление исполняемых файлов, он вызывает плохую аппроксимацию обучения и обобщение функций. Поэтому далее я предлагаю моим основным компонентам инициализированные многослойные нейронные сети для эффективного и действенного обучения и обнаружения вредоносных экземпляров с помощью этих разреженных векторов.

Мой подход включает в себя следующие две фазы: фазу обучения и фазу обнаружения. Рабочий процесс моего подхода показан на рис.1, на этапе обучения я отслеживаю системные взаимодействия исполняемых файлов в песочнице Cuckoo (Malwr 2018) для получения системных вызовов. Каждый профиль исполняемых файлов, который я получил из песочницы Cuckoo, содержит несколько полей: отметка времени, системный вызов, базовый адрес, имя файла, время выполнения и т. д. Я рассматриваю только системные вызовы, поскольку они могут предоставить нам достаточно информации для описания характеристик поведения вредоносных программ при одновременном снижении шума и избыточности. Затем, основываясь на получении информации (Peng et al. 2005), селектор используется для извлечения конфиденциальных системных вызовов, которые выбирают серию высокочастотных системных вызовов в вредоносных исполняемых файлах и отказываются от других системных вызовов, которые обычно используются в любом месте. Селектор выводит вектор, организованный этими чувствительными системными вызовами. Наконец, мой основной компонент инициализировал многослойные нейронные сети, которые обучают эти чувствительные системные вызовы и получают параметры, которые будут использоваться для классификации на этапе обнаружения. На этапе обнаружения мои нейронные сети оснащены этими параметрами для классификации упакованных вариантов вредоносных программ и упакованных преимуществ.

Извлечение конфиденциальных системных вызовов на основе получения информации

Я получаю системные вызовы исполняемых файлов, отслеживая их поведение при запуске в песочнице Cuckoo. Поскольку современные вредоносные исполняемые файлы всегда оснащены сложными упаковщиками, системные вызовы, которые я получили, содержат не только системные вызовы оригиналов, но и системные вызовы упаковщиков, которые запутывают распределение оригинальных системных вызовов. Это ограничивает точность обнаружения. Чтобы сохранить точность обнаружения, в этой книге я сначала уменьшаю запутывание от упаковщиков, извлекая конфиденциальные системные вызовы. В начале я дал определение моей чувствительных системных вызовов.

Определение 1

Конфиденциальные системные вызовы-это часть системных вызовов, которые очень часто действуют в распакованных вредоносных исполняемых файлах, в то время как не в распакованных законных.

Это понимание основано на важном наблюдении, что среднее распределение чувствительных системных вызовов распакованных вредоносных исполняемых файлов почти такое же, как и упакованных, что означает, что мои чувствительные системные вызовы также часто действуют в упаковщиках, что является выводом из моего подхода. Поэтому, основываясь на этом выводе, я использую конфиденциальные системные вызовы как представление вредоносных исполняемых файлов.

В этой книге я использую информацию, которая широко использовалась для выбора функций. Пусть Y-обучающие наборы данных, где y1-набор вредоносных данных, а y2-набор безопасных данных. Пусть S — набор общих системных вызовов, где si-i-й системный вызов в S. Пусть X-набор чувствительных системных вызовов, извлеченных из S, где xj-j-й чувствительный системный вызов в X. Для извлечения конфиденциальных системных вызовов я использую коэффициент (ы) прироста информациив качестве веса для каждого системного вызова в соответствии с эквалайзером. (1), где p (si) — вероятность для каждого si, p (y1) — вероятность вариантов вредоносных программ, p (si|y1) — вероятность для каждого siin y1, а t-постоянное значение. Выигрыш (si) больше, когда sii более релевантны вредоносным исполняемым файлам.

Пусть FK может быть в K- й исполняемый файл в Y, то вычислить вероятность р (хДж|ФК) для каждого Xи J в FК, где N (ФК) — это общее количество всех чувствительных системных вызовов в ЖК и Н (ХДж|фк) — общее число ИксДжей в ФК, по формуле. (2).

P (xj|fk) в качестве входных данных будет отправляться в мои основные компоненты, инициализированные многослойными нейронными сетями, для обнаружения вредоносных исполняемых файлов.

Основной компонент инициализировал многослойные нейронные сети для обнаружения вредоносных программ

После того, как я извлек чувствительные системные вызовы, в этом разделе я теперь разберу, как обнаруживать упакованные варианты вредоносных программ с помощью моих основных компонентов, инициализированных многослойными нейронными сетями.

В качестве эффективного классификатора нейронные сети широко используются для классификации во многих областях, таких как распознавание изображений, обработка естественного языка и т. д. В этой книге я использую нейронные сети для классификации вредоносных и законных исполняемых файлов. Многослойные нейронные сети (Фернандес Кабальеро и др.,2003; Эсмаили и др.,2015; Салай Сельвам и др.,2011; Сальседо Парра и др.,2014) как один из методов глубокого обучения обеспечивает более быструю скорость сходимости и более высокую точность по сравнению с однослойными нейронными сетями, но также имеет некоторые недостатки, такие как исчезновение градиента, чрезмерная подгонка и т. д. Чтобы преодолеть эти недостатки и еще больше повысить скорость сходимости и точность, я предлагаю моюи многослойные нейронные сети, инициализированные основным компонентом.

Бесплатный фрагмент закончился.

Купите книгу, чтобы продолжить чтение.