Звуковая идентификация. Системы, описание процесса, описание аккустичексих характеристик.

В последние годы было проведено много исследовательских работ c целью разработки способов автоматической идентификации цифровых аудиозаписей вообщем и музыкальных произведений а именно. Более известные проекты в этой области — Musical Genome Project американской компании Pandora Media, MusicID компании Gracenote, также AudioRadar и SIMAC (Semantic Interaction with Music Audio Contents).

При всем обилии Звуковая идентификация. Системы, описание процесса, описание аккустичексих характеристик. имеющихся решений можно выделить два принципно различных подхода, применяемых для анализа и поиска музыкальных записей. Какой-то из них заключается в определении ряда музыкальных характеристик, таких как темп, соответствующие ритмические картинки, гармонические и мелодические конструкции. Результатом автоматического анализа музыкальных произведений является набор метаданных, содержащий описание главных характеристик каждого Звуковая идентификация. Системы, описание процесса, описание аккустичексих характеристик. файла. Оперируя этими метаданными, можно делать сортировку и поиск содержимого цифровой фонотеки в автоматическом режиме.

Другой подход заключается в разработке так именуемого цифрового отпечатка (waveform fingerprint), позволяющего идентифицировать звуковую запись только по акустическим характеристикам. В качестве примера реализации подобного способа можно привести технологию MusicID, разработанную работникам компаниии Gracenote.

TrackID, который позволяет Звуковая идентификация. Системы, описание процесса, описание аккустичексих характеристик. найти заглавие музыкального произведения и имя исполнителя по маленькому отрывку записи.

Но что делать, если в вашем распоряжении нет мобильного устройства. Один из вариантов — пользоваться бесплатным обслуживанием AudioTag, который позволяет идентифицировать музыкальные произведения по кускам их записей. Найдя на просторах Глобальной сети этот увлекательный ресурс, мы решили всесторонне изучить Звуковая идентификация. Системы, описание процесса, описание аккустичексих характеристик. его способности.

Сервис AudioTag: взор юзера

Согласно справочной инфы, размещенной в одном из разделов этого веб-сайта, для идентификации записей употребляется способ сравнения «цифровых отпечатков». В базе данных сервиса хранятся «цифровые отпечатки» более миллиона разных произведений. Загруженный юзером звуковой файл подвергается анализу с целью получения его «звукового Звуковая идентификация. Системы, описание процесса, описание аккустичексих характеристик. отпечатка» (Рис.5). Потом этот отпечаток сравнивается с эталонами, хранящимися в базе данных сервиса (где сейчас собраны «цифровые отпечатки» уже более миллиона музыкальных произведений разных жанров, записанных в различное время). Почти всегда удается отыскать одну либо несколько записей, похожих с загруженным файлом. Как убеждают создатели сервиса, возможность получения неверного результата очень Звуковая идентификация. Системы, описание процесса, описание аккустичексих характеристик. мала: система с еще большей вероятностью вообщем не распознает запись, ежели выдаст неправильные данные. Хотя, естественно, 100-процентной гарантии от ошибок нет.

Рис. 5 Окно загрузки звукового куска

Еще одна принципиальная особенность применяемого метода идентификации состоит в том, что он учитывает только акус-тические особенности записи, не принимая в расчет ее музыкальные Звуковая идентификация. Системы, описание процесса, описание аккустичексих характеристик. характеристики — тональность, гармонию, мелодию и пр. Как следствие, система способна идентифицировать конкретно ту запись, кусок которой был загружен юзером, но не позволяет отыскать то же самое произведение (либо мелодию) в другой аранжировке либо в выполнении другого музыканта (либо состава). Мы удостоверились в этом на примере такового известного произведения, как «Времена Звуковая идентификация. Системы, описание процесса, описание аккустичексих характеристик. года» Антонио Вивальди. Для теста были записаны маленькие куски части Presto из концерта № 2 («Лето») в выполнении различных оркестров. Сервис сумел безошибочно идентифицировать файл с записью этого произведения в выполнении Берлинского филармонического оркестра под управлением Герберта фон Караяна, изготовленной в 1965 году. Но при загрузке такого же куска в выполнении Словацкого Звуковая идентификация. Системы, описание процесса, описание аккустичексих характеристик. камерного оркестра (запись 1995 года) на дисплее появилась надпись о невозможности распознать загруженный файл.

Сервис позволяет избрать один из 2-ух языков интерфейса: британский или российский. Радостно, что русификация затронула не только лишь интерфейс, да и содержимое базы «звуковых отпечатков». В числе иных в ней представлена информация о большенном количестве Звуковая идентификация. Системы, описание процесса, описание аккустичексих характеристик. произведений российских и русских композиторов и исполнителей. К примеру, сервис сумел идентифицировать музыку из серии российских кинофильмов «Шерлок Холмс и доктор Ватсон», написанную композитором Владимиром Дашкевичем, также «Прелюдию для Кэт» Микаэла Таривердиева, звучащую в популярнейшем русском сериале «Семнадцать мгновений весны».

Воспользоваться обслуживанием оказалось совершенно нетрудно. Процедура идентификации производится в три Звуковая идентификация. Системы, описание процесса, описание аккустичексих характеристик. деяния. 1-ое — загрузка звукового отрывка. Это может быть звуковой файл либо же ссылка на запись, размещенную на каком­либо интернет-ресурсе. Перечень поддерживаемых звуковых форматов очень широкий: WAV (в том числе ADPCM и несжатые PCM), MP3, OGG Vorbis, FLAC, FLV, AMR и MP4. В окне браузера, открывающемся при нажатии Звуковая идентификация. Системы, описание процесса, описание аккустичексих характеристик. кнопки Browse, можно стремительно отыскать подходящий файл на жестком диске либо на одном из съемных носителей.

2-ой шаг не имеет прямого отношения к процессу определения: на этом шаге придется обосновать, что вы — живой человек, а не бот (Рис.6). На экран выводится картина с легким арифметическим выражением, итог которого нужно Звуковая идентификация. Системы, описание процесса, описание аккустичексих характеристик. вычислить и ввести в соответственное поле.

Рис. 6 Желающему пользоваться обслуживанием придется обосновать, что он является человеком. Для этого нужно решить несложное
арифметическое выражение

Если введенный итог оказался верным, то после недолговременной паузы на дисплее возникает информация о музыкальном произведении, кусок которого содержался в загруженном файле. Либо сообщение «извините, загруженный вами аудиофайл Звуковая идентификация. Системы, описание процесса, описание аккустичексих характеристик. распознать не удалось» — в этом случае, если система не смогла идентифицировать запись.

Часто в окне поисковых результатов отображается несколько вариантов, для каждого из которых указывается степень соответствия загруженному куску. Более нередко схожая ситуация появляется в этом случае, когда одна и та же запись заходила в различные альбомы (включая Звуковая идентификация. Системы, описание процесса, описание аккустичексих характеристик. различные сборники, антологии и пр.). Еще пореже в перечень вероятных вариантов попадают совсем различные произведения. Таковой итог можно разъяснить внедрением музыкальных цитат из произведений других исполнителей.

Чтоб удачно идентифицировать запись, необязательно загружать неведомое произведение полностью. Создатели сервиса советуют использовать отрывки длительностью от 15 до 45 секунд — этого полностью довольно для Звуковая идентификация. Системы, описание процесса, описание аккустичексих характеристик. получения «цифрового отпечатка». Правда, есть принципиальный аспект: загружаемый кусок должен отражать более соответствующие особенности данного произведения — в неприятном случае возможность его идентификации понижается.

Любопытно отметить, что наличие в фонограмме сторонних шумов (которые безизбежно «украшают» записи, изготовленные на интегрированный микрофон портативных устройств), также высочайшая степень компрессии звукового сигнала фактически не оказывают Звуковая идентификация. Системы, описание процесса, описание аккустичексих характеристик. влияние на точность определения. Из дюжины фрагментов композиций разных жанров, записанных на интегрированный микрофон портативного медиаплеера, AudioTag не смог идентифицировать только одну. И это при том, что звучание оригиналов было очень искажено интегрированным микрофоном, а куски записи сохранены в формате МР3 с битрейтом всего 64 Кбит/с!

Чтоб проверить тезис о стойкости Звуковая идентификация. Системы, описание процесса, описание аккустичексих характеристик. применяемого метода к реликвиям цифровой компрессии, мы заготовили десяток фрагментов различных произведений. Любой из их был представлен в 2-ух вариантах — несжатом WAV (44,1 кГц/16 бит) и MP3 с битрейтом 160 Кбит/с. Поначалу идентификации были подвергнуты записи в формате MP3, и восемь из 10 были распознаны. Потом мы предприняли попытку идентифицировать Звуковая идентификация. Системы, описание процесса, описание аккустичексих характеристик. два неопознанных в первом туре куска, загрузив их версии в формате WAV. Но это никак не воздействовало на поисковые результаты: судя по всему, информация об этих произведениях просто отсутствует в базе AudioTag.

Как выяснилось, не оказывают влияние на точность определения и артефакты аналоговой грамзаписи (щелчки, низкочастотный рокот Звуковая идентификация. Системы, описание процесса, описание аккустичексих характеристик. и пр.). С идентификацией фрагментов нескольких произведений, оцифрованных с грампластинок, AudioTag совладал без заморочек.

Слабенькое место метода идентификации удалось нащупать совсем случаем. Камнем преткновения для цифрового метода стали записи со старенькых компакт­кассет. Очевидно, идет речь не о тех рафинированных фонограммах, которые были записаны на кассету конкретно с проигрывателя компакт­дисков Звуковая идентификация. Системы, описание процесса, описание аккустичексих характеристик.. Для опыта были оцифрованы куски с подлинных образцов коллекции, собранной еще в доцифровую эру.

При попытке идентифицировать несколько песен узнаваемых исполнителей выяснилось, что шум магнитной ленты и напластования аналоговых помех от нескольких перезаписей значительно понижают возможность определения. Из 10-ка фрагментов AudioTag смог идентифицировать только три — и это при Звуковая идентификация. Системы, описание процесса, описание аккустичексих характеристик. том, что все записи были оцифрованы с параметрами AudioCD и не подвергались сжатию. А в том, что информация обо всех разыскиваемых произведениях наличествует в базе данных AudioTag, мы удостоверились, загрузив куски незашумленных цифровых записей — они все были удачно распознаны.

Главные свойства звука

Скорость звука в воздухе приравнивается 332,5 м/с при 0°С. При Звуковая идентификация. Системы, описание процесса, описание аккустичексих характеристик. комнатной температуре (20°С) скорость звука составляет около 340 м/с. Скорость звука обозначается эмблемой «с».

Частота.Звуки, воспринимаемые слуховым анализатором человека, образуют спектр звуковых частот. Принято считать, что этот спектр ограничен частотами от 16 до 20000 Гц. Эти границы очень условны, что связано с персональными особенностями слуха, возрастными переменами чувствительности слухового анализатора Звуковая идентификация. Системы, описание процесса, описание аккустичексих характеристик. (с годами верхняя граница слышимых частот падает до 14–16 кГц) и т.д. Это достаточно широкий спектр, перекрывающий три декады (спектр частот с отношением наибольшей частоты к малой равным 10). Из музыки к нам пришла и другая мера измерения спектра частот звуковых колебаний – октава (отношение последних частот спектра равное 2).

Физическое понятие звука Звуковая идентификация. Системы, описание процесса, описание аккустичексих характеристик. обхватывает как слышимые, так и неслышимые частоты колебаний. Звуковые волны с частотой ниже 16 Гц условно именуют инфразвуковыми, выше 20 кГц – ультразвуковыми. Инфразвуковые и ультразвуковые колебания чувства звука у человека не вызывают.

Область инфразвуковых колебаний снизу фактически не ограничена – в природе встречаются инфразвуковые колебания с частотой в десятые и сотые толики Звуковая идентификация. Системы, описание процесса, описание аккустичексих характеристик. Гц. Частоты порядка 20 Гц и ниже мы не столько слышим ухом, сколько воспринимаем телом и даже нашими внутренними органами. Но когда такие частоты приближаются к частотам колебаний внутренних органов человека, они способны вызвать тревогу, чувство ужаса, эйфорию, а при достаточной силе звука привести даже к смертельному финалу. Заметим Звуковая идентификация. Системы, описание процесса, описание аккустичексих характеристик., что при всем этом человек не слышит эти звуки и не дает для себя отчет о причинах появления этих эмоций.

Существует довольно обоснованное мировоззрение, что и ультразвуковые колебания все таки оказывают влияние на чувства человека при прослушивании музыкальных произведений, так как оказывают приметное воздействие на форму звуковых волн Звуковая идентификация. Системы, описание процесса, описание аккустичексих характеристик., потому более совершенные акустические системы способны воспроизводить ультразвуковые колебания с частотами до 35–50 кГц, а время от времени и выше.

Интенсивность звука(Вт/м2) определяется количеством энергии, переносимой волной за единицу времени через единицу площади поверхности, перпендикулярной к направлению распространения волны. Ухо человека принимает звук в очень широком интервале интенсивности: от Звуковая идентификация. Системы, описание процесса, описание аккустичексих характеристик. самых слабеньких слышимых звуков до самых звучных, к примеру создаваемых движком реактивного самолета.

Малая интенсивность звука, при которой появляется слуховое чувство, именуется порогом слухового восприятия. Он находится в зависимости от частоты звука (рис. 7). Большей чувствительностью к звуку человеческое ухо обладает в спектре частот от 1 до 4 кГц, соответственно и порог слухового восприятия тут Звуковая идентификация. Системы, описание процесса, описание аккустичексих характеристик. имеет меньшее значение 10–12 Вт/м2. Данная величина принята за нулевой уровень слышимости. При действии шумов и других звуковых раздражений порог слышимости для данного звука увеличивается (маскировка звука – физиологический парадокс, заключающийся в том, что при одновременном восприятии 2-ух либо нескольких звуков разной громкости более тихие звуки перестают быть Звуковая идентификация. Системы, описание процесса, описание аккустичексих характеристик. слышимыми), при этом завышенное значение сохраняется некое время после прекращения деяния отвлекающего фактора, а потом равномерно ворачивается к начальному уровню. Порог слышимости может изменяться зависимо от возраста, физиологического состояния, тренированности слушателя.

Звуки высочайшей интенсивности вызывают чувство давящей боли в ушах. Малая интенсивность звука, при которой появляется чувство давящей боли Звуковая идентификация. Системы, описание процесса, описание аккустичексих характеристик. в ушах, именуется порогом болевого чувства. Так же, как и порог слухового восприятия, порог болевого чувства находится в зависимости от частоты звуковых колебаний (рис. 7). Звуки, интенсивность которых приближается к болевому порогу, оказывают вредное воздействие на слух.

Слуховой анализатор человека способен к восприятию большущего динамического спектра. Конфигурации в давлении воздуха, вызываемые Звуковая идентификация. Системы, описание процесса, описание аккустичексих характеристик. самыми тихими из воспринимаемых на слух звуков, составляют порядка 2×10–5 Па. В то же время звуковое давление с уровнем, приближающимся к порогу болевых чувств для наших ушей, составляет порядка 20 Па. В конечном итоге динамический спектр (соотношение меж самыми тихими и самыми звучными звуками, которые может принимать наш слуховой аппарат Звуковая идентификация. Системы, описание процесса, описание аккустичексих характеристик.) – 1:1000000.

С целью сжатия такового широкого динамического спектра было введено понятие «бел». Бел – это обычной логарифм дела 2-ух степеней, а децибел равен 0,1 бела.

Чтоб выразить акустическое давление в децибелах, нужно возвести давление (в паскалях) в квадрат и поделить его на квадрат эталонного давления. Для удобства строительство в квадрат 2-ух давлений Звуковая идентификация. Системы, описание процесса, описание аккустичексих характеристик. производится вне логарифма (свойство логарифмов).

Для преобразования акустического давления в децибелы применяется формула:

где P – интересующее нас акустическое давление, P0 – начальное давление.

Оценку звука комфортно проводить по уровню (L) интенсивности (звукового давления), рассчитываемому по формуле:

где J0 – порог слухового восприятия, J – интенсивность звука.


zvon-bistrogo-reagirovaniya-gazeta-rossijskaya-gazeta-nedelya-20092012-rossijskie-smi-o-mchs-monitoring-za-20-sentyabrya-2012-g.html
zvonkie-gluhie-soglasnie.html
zvonok-elizaveta-nikolaena-uhodit.html