WWW.DOC.KNIGI-X.RU
БЕСПЛАТНАЯ  ИНТЕРНЕТ  БИБЛИОТЕКА - Различные документы
 

«Информатика, вычислительная техника и обработка информации Новиков Александр Сергеевич, канд. техн. наук, доц., thesis-tsu Россия, Тула, Тульский государственный ...»

Информатика, вычислительная техника и обработка информации

Новиков Александр Сергеевич, канд. техн. наук, доц., thesis-tsu@yandex.ru,

Россия, Тула, Тульский государственный университет,

Ежов Александр Александрович, san4o.lexter2011@yandex.ru, Россия, Тула,

Тульский государственный университет

ROSENBLATT MULTILAYER NEURAL NETWORKS AND ITS APPLICATION

FOR SOLVING PROBLEMS OF RECOGNITION SIGNATURES

A.S. Novikov, A.A. Ezhov The architecture of the multi-layer perceptron of Rosenblatt is described, learning algorithm of neural network Backpropagation is listed, the advantages and disadvantages of this method of study is mentioned, the program that uses the back-propagation algorithm for solving the problem of recognition of signatures is described, the results of recognition of signatures is demonstrated.

Key words: multilayer perceptron, neural network, algorithm of back propagation, synaptic communication, pattern recognition.

Novikov Alexander Sergeyevich, сandidate of technical sciences, docent, thesistsu@yandex.ru, Russia, Tula, Tula State University, Ezhov Alexander Alexandrovich, san4o.lexter2011@yandex.ru, Russia, Tula, Tula State University УДК 004.272

БИОМЕТРИЧЕСКАЯ СИСТЕМА АУТЕНТИФИКАЦИИ

С ИСПОЛЬЗОВАНИЕМ ГОЛОСОВЫХ ДАННЫХ

А.С. Новиков, К.С. Нестеров Рассмотрен один из способов построения биометрической системы идентификации пользователя по голосу, которая является независимой от ключевой парольной фразы. Основными преимуществами используемого подхода является простота реализации и высокая надежность.



Ключевые слова: биометрическая система, голосовые данные, аутентификация.

Идентификация человека по голосу является одной из биометрических систем аутентификации. Биометрическая система аутентификации – система проверки личности (аутентификации) человека по его биометрическим показателям. Биометрический параметр – параметр, являющийся частью самого человека.

Известия ТулГУ. Технические науки. 2016. Вып. 2 Биометрические системы аутентификации достаточно удобны для пользователей. В отличие от парольных или ключевых систем аутентификации биометрические используют параметры, которые невозможно забыть или потерять. Проблемы сохранности аутентификационных данных не возникает.

Биометрический метод аутентификации по голосу прост в применении. Он не требует специальной аппаратуры, достаточно только микрофона и звуковой платы. В настоящее время технология развивается, так как этот метод широко используется в современных бизнес-центрах.

Основным недостатком метода голосовой аутентификации является его низкая точность. Голос человека может меняться в зависимости от состояния здоровья, настроения, возраста и так далее. Кроме того, не стоит забывать про сторонние шумы. Из-за высокой вероятности ошибок второго рода его применяют в основном в помещениях среднего уровня безопасности [1].

Один из способов аутентификации человека по голосу – это задание системе множества образцов голоса одного и того же человека для сравнения с получаемым в будущем аутентификационным ключом. Далее существует множество способов сравнения [1, 2].

Система, которую предполагается разработать, должна быть независимой от конкретной фразы. Из-за этого может возникнуть проблема с подменой голоса с помощью звукозаписывающих устройств, например, диктофонов. Однако эту проблему можно обойти с помощью генерации простых фраз, которые человек должен будет произнести. Нельзя заранее предсказать, какая фраза будет затребована распознающей системой, следовательно злоумышленник не сможет записать ключевую фразу. Такой подход добавляет задачу перевода речи в текст, однако она не является основной и может быть решена с помощью сторонних библиотек [3].

На вход системы идентификации поступает запись ключевого сообщения от пользователя. Одним из простых форматов для обработки является WAV.

WaveformAudioFileFormat – формат файла-контейнера для хранения записи оцифрованного аудиопотока, подвид RIFF. Этот контейнер, как правило, используется для хранения несжатого звука в импульсно-кодовой модуляции.

Полученные значения амплитуд могут не совпадать для двух одинаковых записей из-за внешнего шума, разных громкостей входного сигнала и так далее. Одним из наиболее эффективных способов предварительной подготовки звука является нормализация [4].

Нормализация звука – процесс выравнивания частотных характеристикпри студийной звукозаписи на магнитный носитель. Коррекция необходима, поскольку процесс намагничивания покрытия пленки происхоИнформатика, вычислительная техника и обработка информации дит неравномерно применительно к спектру аудиочастот. Если не проводить коррекцию, даже первое воспроизведение записи будет звучать непохоже на оригинал.

Существуют два способа нормализации [4]:

- пиковая нормализация – это способ нормализации, при котором уровень звукового сигнала поднимается до максимально возможного значения для цифрового звука без появления искажений. Ориентиром служит самый высокий пик амплитуд. Этот способ полностью исключает ограничение амплитуды сигнала (клиппинг), однако, при наличии в файле сильно выделяющегося пика, то нормализация по его уровню может привести к тому, что звуковой сигнал останется достаточно тихим, несмотря на достаточно высокую громкость оригинала. Величина звука при пиковой нормализации измеряется в процентах;

- RMS-нормализация – нормализация по среднеквадратичному значению уровня звука в файле. Является полной противоположностью пиковой нормализации. При данном способе величина звука измеряется в децибелах. Этот способ наиболее подходящий для человеческого уха, однако при высокой громкости возможен клиппинг.

Так как предполагается, что человек будет произносить ключевое выражение спокойно, то очевидное преимущество у пиковой нормализации в следствие того, что в необработанном звуке не должно быть слишком больших перепадов амплитуд.

Так как размер уникальных характеристик даже для секундного образца звука огромен, то производить сложные операции над такими объемами данных не представляется возможным. Кроме того, не совсем понятно, как сравнивать объекты с разным количеством уникальных черт.

Вычислительную сложность задачи можно уменьшить, разбив ее на менее сложные подзадачи. Это позволит с помощью установления фиксированного размера подзадачи и усреднения результатов вычислений по всем задачам получить наперед заданное количество признаков для классификации. В качестве разбиения подразумевается использование деления звукового сигнала на так называемые кадры определенной длины. Кадры должны перекрывать друг друга, так как в случае, если они будут рядом друг с другом, то звук будет искажаться.

Для устранения нежелательных эффектов при обработке кадров каждый элемент кадра умножается на «окно». Окно – весовая функция, которая используется для управления эффектами, обусловленными наличием боковых лепестков в спектральных оценках (растеканием спектра).

В большинстве задач цифровой обработки нет возможности исследовать сигнал на бесконечном интервале. Нет возможности узнать, какой был сигнал до включения устройства и какой он будет в будущем. Также ограничение интервала исследования может быть обусловлено нестационарностью исследуемого сигнала.

Известия ТулГУ. Технические науки. 2016. Вып. 2 Ограничение интервала анализа равносильно произведению исходного сигнала на оконную функцию. Таким образом, результатом оконного преобразования Фурье является не спектр исходного сигнала, а спектр произведения сигнала и оконной функции. Спектр, полученный при помощи оконного преобразования Фурье [5], является оценкой спектра исходного сигнала и принципиально допускает искажения.

Искажения, вносимые применением окон, определяются размером окна и его формой. Выделяют два основных свойства частотных характеристик окон: ширина главного лепестка и максимальный уровень боковых лепестков. Применение окон, отличных от прямоугольных, обусловлено желанием уменьшить влияние боковых лепестков за счет увеличения ширины главного.

Типы оконных функций Прямоугольное окн 1, [0, 1] = 0, [0, 1]. (1)

–  –  –

=. (5) | | Наиболее простой и подходящей для решения задачи является функция окна Хэмминга.





Далее потребуется получить кратковременную спектрограмму каждого кадра в отдельности.Для этого используется преобразование Фурье.

Преобразование Фурье (Fouriertransform) – это разложение функций на синусоиды (далее косинусные функции тоже называем синусоидами, так как они отличаются от «настоящих» синусоид только фазой). Существуют несколько видов преобразования Фурье [5].

1. Непериодический непрерывный сигнал можно разложить в интеграл Фурье.

2. Периодический непрерывный сигнал можно разложить в бесконечный ряд Фурье.

3. Непериодический дискретный сигнал можно разложить в интеграл Фурье.

Информатика, вычислительная техника и обработка информации

4. Периодический дискретный сигнал можно разложить в конечный ряд Фурье.

Компьютер способен работать только с ограниченным объемом данных, следовательно, реально он способен вычислять только последний вид преобразования Фурье.Следовательно, будет использоваться дискретное преобразование.

На сегодняшний день наиболее успешными являются системы распознавания голоса, использующие знания об устройстве слухового аппарата. Большое распространение при распознавании человеческой речи получила mel-шкала, линейная при частотах ниже 1кГц и логарифмическая при частотах выше 1кГц. Mel-шкала была получена в результате экспериментов с образцовыми тонами (синусоидами) в которых с испытуемых требовалось разделить данные диапазоны частот на 4 равных интервала или настроить частоту требуемого тона так, чтобы он был в половину частоты исходного. 1 mel определяется как 1 тысячная уровня тона в 1 кГц. Как и в любых других попытках создать подобные шкалы, рассчитывается, что шкала mel более точно моделирует чувствительность человеческого уха.

Переход к новой шкале описывается несложной зависимостью:

= 1127 ln 1 +, (6) где m – частота в мелах; f – частота в герцах.

Вектор признаков будет состоять из мел-кепстральных коэффициентов, рассчитываемых по формуле = log, (7)

– мел-кепстральный коэффициент под номером n; – амплитуда kгде го значения в кадре в мелах; K – наперед заданное количество мелкепстральных коэффицициентов.

Последней стадией является классификация говорящего. Классификация проводится вычислением меры схожести пробных данных и уже известных. Мера схожести выражается расстоянием от вектора признаков пробного сигнала до вектора признаков уже классифицированного.

Вектор признаков представляется как среднее арифметическое векторов, характеризующих отдельные кадры речи. Для повышения точности распознавания просто необходимо усреднять результаты не только между кадрами, но и учитывать показатели нескольких речевых образцов. Имея несколько записей голоса, разумно не усреднять показатели к одному вектору, а провести кластеризацию с помощью нейронных сетей.

Список литературы

1. Лашко В. Кто там? – Идентификация человека по голосу // Хабрахабр [Электронный ресурс]. Режим доступа: http://habrahabr.ru/ post/144491/ свободный(дата обращения: 12.01.2016).

Известия ТулГУ. Технические науки. 2016. Вып. 2

2. Радченко Г. Распознавание речи. Часть 3. Голосовой тракт, слуховой тракт // Geektimes [Электронный ресурс]. Режим доступа:

https://geektimes.ru/post/64681/ свободный (дата обращения: 23.01.2016).

3. Лукин A. Введение в цифровую обработку сигналов [Электронный ресурс]. Режим доступа: http://audio.rightmark.org/lukin/ dspcourse/dspcourse.pdf свободный (дата обращения 26.01.2016).

4. Нормализация звука [Электронный ресурс]. Режим доступа:

https://ru.wikipedia.org/wiki/%D0%9D%D0%BE%D1%80%D0%BC%D0%B0 %D0%BB%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F %D0%B 7%D0%B2%D1%83%D0%BA%D0%B0 свободный (дата обращения 26.01.2016).

5. Оконное преобразование Фурье [Электронный ресурс]. Режим доступа: https://ru.wikipedia.org/wiki/%D0%9E%D0%BA%D0%BE%D0% BD%D0%BD%D0%BE%D0%B5 %D0%BF%D1%80%D0%B5%D0%BE%D 0%B1%D1%80%D0%B0%D0%B7%D0%BE%D0%B2%D0%B0%D0%BD% D0%B8%D0%B5 %D0%A4%D1%83%D1%80%D1%8C%D0%B5 свободный (дата обращения 26.01.2016).

Новиков Александр Сергеевич, канд. техн. наук, доц., thesis-tsu@yandex.ru, Россия, Тула, Тульский государственный университет, Нестеров Кирилл Сергеевич, магистр, neskirill411@gmail.com, Россия, Тула, Тульский государственный университет

–  –  –

One of the ways to build a biometric identification system by voice, which is independent of the key passphrase, is reviewed. The main advantages of the approach are the ease of implementation and high reliability.

Key words: biometric system, voice data, authentication.

Novikov Alexander Sergeyevich, сandidate of technical science, docent, thesistsu@yandex.ru, Russia, Tula, Tula State University, Nesterov Kirill Sergeevich, master, neskirill411@gmail.com, Russia, Tula, Tula State University





Похожие работы:

«ИНФОРМАТИКА 2004 июль-сентябрь №3 ОБРАБОТКА СИГНАЛОВ И ИЗОБРАЖЕНИЙ УДК 681.3 Д.О. Чехлов, С.В. Абламейко НОРМАЛИЗАЦИЯ ИЗОБРАЖЕНИЙ ОТНОСИТЕЛЬНО ПЕРСПЕКТИВНОГО ПРЕОБРАЗОВАНИЯ НА ОСНОВЕ ГЕОМЕТРИ...»

«Документ с сайта http://ai-center.botik.ru/planning. * Значимый контекст рассуждений в задаче планирования Трофимов Игорь Владимирович1 Автоматическое планирование – задача высокой вычислительной сложности. Универсальные классические планиров...»

«1 ИВАНОВ Валерий Петрович ИВАНОВ Антон Валериевич К ВОПРОСУ О ВЫБОРЕ СИСТЕМЫ ЗАЩИТЫ ИНФОРМАЦИИ ОТ НЕСАНКЦИОНИРОВАННОГО ДОСТУПА С ТОЧКИ ЗРЕНИЯ ТЕОРИИ НАДЕЖНОСТИ Развитие и рост производительности вычислительной техники приводят к необходимости ее функционирования в условиях возможного несбалан...»

«ПРОГРАММА вступительного экзамена по ПРИКЛАДНОЙ ИНФОРМАТИКЕ в магистратуру по направлению "Прикладная информатика"ВВЕДЕНИЕ Основу программы составили ключевые положения курсов программы подготовки бакалавров по направлению "Прикладная информатика". Экзамен проводится в...»

«ГБОУ СОШ с углубленным изучением математики, информатики, физики № 444 Практическая работа №15 "Нахождение корня функции на отрезке", Стр.-1, Всего 10 Практическая работа № 15, НАХОЖДЕНИЕ КОРНЯ ФУНКЦИИ НА ОТРЕЗКЕ Постановка задачи Разработать программу, которая вы...»

«Информационные процессы, Том 16, № 2, 2016, стр. 91–102 2016 Бедринцев, Чепыжов. c МАТЕМАТИЧЕСКИЕ МОДЕЛИ, ВЫЧИСЛИТЕЛЬНЫЕ МЕТОДЫ Выпуклая аппроксимация пространства дизайна в задаче оптимизации крыла самолета1 А.А.Бедринцев, В.В.Чепыжов Институт проблем передачи информации, Российская академия наук, Москва, Россия...»

«Министерство образования и науки Украины Харьковский национальный университет имени А.Н. Бекетова Кафедра прикладной математики и информационных технологий. Информатика и основы компьютерн...»

«ISSN 2222-0364 • Вестник ОмГАУ № 3 (23) 2016 СЕЛЬСКОХОЗЯЙСТВЕННЫЕ НАУКИ kolmakovaek.@mail.ru; Ледовский Евгений НикоLedovskiy Evgeniy Nikolaevich, Cand. Agr. Sci., Head, лаевич, кандидат с.-х. наук, заведующий сектором, Plant Protection Sector, Siberian Research Institute o...»

«Министерство образования Республики Беларусь БЕЛОРУССКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ИНФОРМАТИКИ И РАДИОЭЛЕКТРОНИКИ Кафедра физики ЛАБОРАТОРНАЯ РАБОТА № 2.3 ИЗУЧЕНИЕ ДИЭЛЕКТРИЧЕСКОГО ГИСТЕРЕЗИСА СЕГНЕТОЭЛЕКТРИКОВ МЕТОДИЧЕСКОЕ ПОСОБИЕ Минск 2004 ЛАБОРАТОРНАЯ РАБОТА № 2.З ИЗУЧЕНИЕ ДИЭЛЕКТРИЧЕСКОГО ГИСТЕРЕЗИСА СЕГНЕТОЭЛЕКТРИКОВ...»

«ПРОГРАММНЫЕ СИСТЕМЫ: ТЕОРИЯ И ПРИЛОЖЕНИЯ ISSN 2079-3316 № ?, 2014, c. ??–?? УДК 519.612.2 Р. А. Ахметшин, И. И. Газизов, А. В. Юлдашев Комбинированный подход к построению параллельного предобу...»








 
2017 www.doc.knigi-x.ru - «Бесплатная электронная библиотека - различные документы»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.