Статья опубликована в рамках: XL Международной научно-практической конференции «Экспериментальные и теоретические исследования в современной науке» (Россия, г. Новосибирск, 29 мая 2019 г.)
Наука: Информационные технологии
Скачать книгу(-и): Сборник статей конференции
дипломов
МЕТОД СТЕГОАНАЛИЗА АУДИОФАЙЛОВ, БАЗИРУЮЩИЙСЯ НА АЛГОРИТМАХ СЖАТИЯ
1. Введение
Одним из сценариев отправки секретного сообщения по открытому каналу связи является пересылка файла, в который незаметно добавлено секретное сообщение. Рассмотрим пример: пусть Алиса и Боб пересылают друг другу секретное сообщение по открытому каналу, а Ева пытается это сообщение перехватить. Алиса берет файл, например аудиозапись известного исполнителя, и скрывает в нем секретное сообщение так, что файл сохраняет свой размер и в принципе ничем не отличается от исходного файла. Боб в свою очередь получает файл и извлекает из него секретное сообщение. Ева же, прослушивая открытый канал связи и не зная о факте передачи информации, видит обычный файл. В этом и заключается задача стеганографии.
Как было сказано выше, при помощи стеганографического алгоритма секретное сообщение встраивается в файл, или контейнер, так, чтобы не было заметных изменений этого файла. Затем контейнер пересылается по открытому каналу связи, не вызывая подозрений. Секретное сообщение декодируется получателем из контейнера специальным алгоритмом. Как правило, контейнерами служат файлы с большой избыточностью, зачастую это изображения, аудиофайлы и видеофайлы. В таких файлах незначительное изменение потока данных физически незаметно для обычного человека. Например, имеется аудиофайл формата WAVE, в котором в качестве данных хранятся амплитуды звукового сигнала с достаточно большой частотой дискретизации (от 8 до 44кГц). Каждое значение амплитуды в таком файле представлено в виде 32-битного целого числа, т.е. каждое значение амплитуды может иметь около 1 млрд различных значений. Таким образом, например, ухо обычного человека не сможет отличить значение амплитуды звука 1000 от 1001. Этот факт может быть использован в стеганографическом алгоритме. Мы берем младшие биты значений амплитуды и зашифровываем в них наше секретное сообщение. При этом размер файла остается неизменным, а изменения потока данных незаметны. Такой метод сокрытия данных называется LSB (Last Significant Bit).
На сегодняшний день существует множество модификаций метода LSB [1, 2, 3], которые используют в качестве контейнеров аудиофайлы, видеофайлы, изображения и исполняемые файлы.
Наравне с задачей стеганографии существует противоположный процесс – стегоанализ. Под стегоанализом понимается выявление факта передачи данных в контейнере. Стоит уточнить, что основной целью стегоанализа не является получение скрытого сообщения, а только лишь выявление факта его передачи.
Целью данной работы является построение алгоритма стегоанализа аудиоданных формата WAVE. Разработанный алгоритм базируется на применении методов универсального кодирования, которые используются для сжатия данных. Этот подход был предложен Б. Я. Рябко и был успешно реализован в ряде работ [1, 2, 4]. Основная его идея заключается в том, что после внедрения сообщения в контейнер изменяется его статистическая структура, вследствие чего повышается его энтропия, поэтому заполненный контейнер будет сжиматься хуже, чем пустой.
Был построен универсальный, т.е. рассчитанный на обнаружение данных, встраиваемых разными методами, алгоритм стегоанализа аудиоданных формата WAVE. Информация в контейнеры внедрялась при помощи самостоятельно реализованной программы. В ходе проведенных испытаний была выявлена зависимость в изменении степени сжатия заполненного контейнера при различных степенях заполненности контейнера (от 0 до 100%).
2. Описание метода стегоанализа
Идея предлагаемого метода заключается в том, что файл изначально имеет определенную статистическую структуру. Если использовать его в качестве контейнера для секретного сообщения, то после внедрения изменится статистическая структура контейнера и повысится его энтропия. Таким образом, при использовании алгоритмов сжатия пустой контейнер, как правило, сжимается лучше, чем заполненный. Значит, если при изменении степени сжатия выше определенного значения можно сказать, что контейнер содержит скрытую информацию. Но тут перед нами встает самая главная проблема – мы изначально не знаем – заполнен контейнер или нет и насколько он заполнен. Предложенный в этой работе метод позволяет решить эту проблему.
Основной принцип метода заключается в сравнении изменения степеней сжатия файла после заполнения определенной части контейнера псевдослучайной последовательностью данных. Если степень сжатия после заполнения оказалась больше изначально выбранного значения, то можно сказать, что файл был изначально пуст. Если же наблюдается обратная ситуация, т.е. изменение степени сжатия не превысило определенного значения, то можно сказать, что в файле содержалась скрытая информация.
3. Экспериментальные исследования и результаты
В ходе экспериментальных исследований были взяты 1000 файлов формата WAVE PCM. Звуковые файлы имеют одинаковый размер и параметры: частота дискретизации 44кГц, 32 бит на отсчет, 2 канала (стерео). Эти файлы использовались в качестве контейнеров для программы, в которой реализовано сокрытие данных с помощью двух видов алгоритма LSB – LSBR и LSBM. В алгоритме LSBR (LSB-Replacement) последние биты данных контейнера заменяются битами сообщения. В алгоритме LSBM (LSB-Matching) к последнему биту контейнера применяются следующие правила – если бит контейнера равен биту сообщения, то бит не изменяется, если наоборот – бит контейнера не равен биту сообщения, то бит контейнера равновероятно увеличивается или уменьшается. Очевидно, что метод LSBM будет вносить меньше искажений в статистику файла, по сравнению с методом LSBR.
Эксперимент проводился в два этапа. На первом этапе каждый исходный пустой контейнер был заполнен псевдослучайными данными двумя выше описанными алгоритмами с различной степенью их наполнения – от 5% до 100% с шагом 5%. После этого каждый полученный контейнер был сжат двумя разными архиваторами – 7ZIP и BZIP2. На данном этапе метод основывался на правиле - если разность степеней сжатия исходного и заполненного файлов больше определенного значения, то исходный файл пустой. Ниже на рис.3 и таблице 1 приведены результаты первого этапа эксперимента.
Таблица 1.
Количество файлов, определенных как пустые в ходе первого этапа эксперимента
% Внедрения |
Этап 1 |
|||
7ZIP |
BZIP2 |
|||
LSBR |
LSBM |
LSBR |
LSBM |
|
5 |
240 |
268 |
594 |
551 |
10 |
266 |
267 |
571 |
601 |
15 |
264 |
264 |
618 |
612 |
20 |
284 |
301 |
602 |
633 |
25 |
300 |
296 |
629 |
630 |
30 |
321 |
319 |
630 |
642 |
35 |
329 |
342 |
643 |
647 |
40 |
327 |
301 |
617 |
649 |
45 |
344 |
372 |
664 |
667 |
50 |
347 |
359 |
632 |
651 |
55 |
358 |
355 |
642 |
658 |
60 |
364 |
385 |
660 |
698 |
65 |
355 |
377 |
679 |
653 |
70 |
372 |
395 |
694 |
663 |
75 |
370 |
385 |
668 |
667 |
80 |
386 |
398 |
668 |
699 |
85 |
390 |
404 |
664 |
677 |
90 |
376 |
401 |
666 |
692 |
95 |
403 |
424 |
686 |
718 |
100 |
425 |
398 |
700 |
689 |
Рисунок 3. Результаты первого этапа эксперимента. На графике показана зависимость количества выявленных файлов от процента внедрения
В результате первого этапа видно, что при использовании архиватора BZIP2 метод обнаруживает примерно на 40 % больше файлов, чем при использовании архиватора 7ZIP. Это объясняется тем, что в архиваторе BZIP2 используется метод Берроуза-Уиллера, который позволяет более качественно сжать данные. Наравне с лучшим уровнем сжатия, алгоритм более восприимчив к изменению статистики в файле. В итоге, при изменении контейнера степень сжатия архиватором BZIP2 изменится сильнее по сравнению с 7ZIP.
Второй этап эксперимента заключался в заполнении уже заполненных контейнеров. Полученные в ходе первого этапа контейнеры были повторно заполнены псевдослучайными данными и сжаты двумя разными архиваторами – 7ZIP и BZIP2. На данном этапе метод основывался на правиле - если разность степеней сжатия исходного и полученного файлов меньше определенного значения, то исходный файл содержал скрытые данные. На рис. 4 и в таблице 2 приведены результаты второго этапа эксперимента.
Таблица 2.
Количество файлов, определенных как заполненные в ходе второго этапа эксперимента
% Внедрения |
Этап 2 |
|||
7ZIP |
BZIP2 |
|||
LSBR |
LSBM |
LSBR |
LSBM |
|
5 |
610 |
593 |
706 |
672 |
10 |
548 |
528 |
687 |
677 |
15 |
557 |
493 |
660 |
645 |
20 |
479 |
490 |
666 |
649 |
25 |
494 |
494 |
654 |
635 |
30 |
477 |
448 |
620 |
621 |
35 |
456 |
423 |
629 |
611 |
40 |
441 |
429 |
622 |
629 |
45 |
424 |
420 |
590 |
584 |
50 |
428 |
431 |
598 |
601 |
55 |
422 |
388 |
569 |
592 |
60 |
403 |
402 |
581 |
568 |
65 |
372 |
354 |
588 |
574 |
70 |
383 |
367 |
589 |
579 |
75 |
393 |
368 |
590 |
557 |
80 |
375 |
309 |
592 |
564 |
85 |
377 |
352 |
578 |
577 |
90 |
333 |
340 |
574 |
542 |
95 |
353 |
317 |
553 |
545 |
100 |
363 |
331 |
579 |
568 |
Рисунок 4 Результаты второго этапа эксперимента. На графике показана зависимость количества выявленных файлов от процента внедрения
В результате второго этапа эксперимента видно, что архиватор BZIP2 также лучше выявляет заполненные файлы по сравнению с 7ZIP. Ключевую роль здесь играет то, что при повторном внедрении данных в контейнер статистика файла изменяется, но при этом энтропия и степень сжатия контейнера существенно не меняются. Это позволяет сказать, что файл изначально уже содержал скрытое сообщение.
4. Заключение
В ходе работы был предложен метод стегоанализа, позволяющий эффективно определять факт присутствия или отсутствия скрытого сообщения в контейнере, внедренного методами LSB. Данный алгоритм может быть усовершенствован путем использования более сложных схем вычисления степени сжатия контейнера. Одна из таких схем была предложена в работе [5]. Ключевым отличием предложенного метода от существующих является отсутствие потребности информации об исходном контейнере (заполнен или нет).
Список литературы:
- Елтышева Е.Ю., Фионов А.Н. Построение стегосистемы на базе растровых изображений с учѐтом статистики младших бит // Вестник СибГУТИ. 2009. № 1. С. 67‑84.
- Нечта И.В. Стеганография в файлах формата Portable Executable // Вестник СибГУТИ. 2009. № 1. С. 85‑89.
- [Электронный ресурс]. Freeware program of steganography bmp, wav, voc. URL: http://www.heinz-repp.onlinehome.de/Hide4PGP.htm. (Дата обращения: 13.05.2019).
- Жилкин М.Ю. Стегоанализ графических данных на основе методов сжатия // Вестник СибГУТИ. 2008. № 2. С. 62‑66.
- Очимов С.Ю. Стегоанализ аудиофайлов, базирующийся на алгоритмах сжатия // Вестник СибГУТИ. 2010. № 1. С. 33‑40.
- Кокорин П.П. О методах стегоанализа в аудиофайлах // Труды СПИИРАН. Вып. 4. – СПб.: Наука, 2007. – С. 239-246.
дипломов
Оставить комментарий